Apache Kafka 教程

17 Mar 2025 | 4 分钟阅读
Apache Kafka Tutorial

Apache Kafka 教程提供了 Apache Kafka 的基本和高级概念。 本教程专为初学者和专业人士设计。

Apache Kafka 是一个开源的流处理软件平台,用于处理实时数据存储。 它充当两方之间的经纪人,即发送者和接收者。 它每天可以处理大约数万亿的数据事件。

Apache Kafka 教程之旅将涵盖从其架构到其核心概念的所有概念。

什么是 Apache Kafka

Apache Kafka 是一个基于分布式流处理的软件平台。 它是一个发布-订阅消息系统,它允许在应用程序、服务器和处理器之间交换数据。 Apache Kafka 最初由 LinkedIn 开发,后来捐赠给了 Apache 软件基金会。 目前,它由 Confluent 在 Apache 软件基金会下维护。 Apache Kafka 解决了发送者和接收者之间数据通信的迟滞问题。

什么是消息系统

消息系统是两个人、设备等之间简单的消息交换。发布-订阅消息系统允许发送者发送/编写消息,接收者读取该消息。 在 Apache Kafka 中,发送者称为发布消息的 生产者,接收者称为通过订阅该消息来使用该消息的 消费者

什么是流处理

流处理是并行连接系统中数据的处理。 此过程允许不同的应用程序限制数据的并行执行,其中一条记录在不等待上一条记录的输出的情况下执行。 因此,分布式流平台使用户能够简化流处理和并行执行的任务。 因此,Kafka 中的流平台具有以下关键功能

  • 一旦出现记录流,它就会进行处理。
  • 它类似于一个企业消息系统,在其中发布和订阅记录流。
  • 它以容错的持久方式存储记录流。
What is Streaming process

要学习和理解 Apache Kafka,有志者应该知道以下四个核心 API

What is Streaming process

生产者 API:此 API 允许/允许应用程序将记录流发布到一个或多个主题。 (在后面的章节中讨论)

消费者 API:此 API 允许应用程序订阅一个或多个主题,并处理为它们生成的记录流。

流 API:此 API 允许应用程序有效地将输入流转换为输出流。 它允许应用程序充当流处理器,该处理器使用来自一个或多个主题的输入流,并将输出流生成到一个或多个输出主题。

连接器 API:此 API 使用现有数据系统或应用程序执行可重用的生产者和消费者 API。

为什么选择 Apache Kafka

Why Apache Kafka

Apache Kafka 是一个软件平台,具有以下原因,最能描述 Apache Kafka 的需求。

  1. Apache Kafka 能够每秒处理数百万个数据或消息。
  2. Apache Kafka 充当源系统和目标系统之间的中介。 因此,源系统(生产者)数据被发送到 Apache Kafka,在那里它将数据解耦,目标系统(消费者)从 Kafka 消费数据。
  3. Apache Kafka 具有极高的性能,即它的延迟值确实很低,小于 10 毫秒,这证明它是一个非常精通的软件。
  4. Apache Kafka 具有弹性架构,解决了数据共享方面的不寻常的复杂性。
  5. Netflix、UBER、沃尔玛等组织以及数千家此类公司都在使用 Apache Kafka。
  6. Apache Kafka 能够保持容错能力。 容错意味着有时消费者成功地消费了生产者传递的消息。 但是,由于后端数据库故障,或者由于消费者代码中存在错误,消费者无法处理消息。 在这种情况下,消费者无法再次消费该消息。 因此,Apache Kafka 通过重新处理数据解决了这个问题。
  7. 学习 Kafka 是一个很好的收入来源。 因此,那些希望将来在 IT 行业提高收入的人可以学习。

前提条件

有志者应该具备 Java 编程的基本知识和一些 Linux 命令的知识。

目标受众

这个 Apache Kafka 之旅是为初学者、开发人员和希望学习新事物的人设计的。

问题

我们保证您在此 Apache KafkaTutorial 中不会发现任何问题。 但是如果出现任何错误,请在联系表格中发布问题。


下一个主题Kafka 主题