Kafka 集成

2025年5月14日 | 阅读 9 分钟

引言

Kafka 最初由 LinkedIn 开发，后来作为开源项目托管在 Apache 软件基金会之下，已成为构建实时数据管道和流式应用程序的事实上的标准。它旨在以低延迟处理大量数据，并为集成不同系统和应用程序提供了一个强大的平台。

在本指南中，我们将探讨 Kafka 集成，研究它如何与不同系统集成，最佳实践以及实际用例。阅读本文后，您将对如何利用 Kafka 在您的环境中实现无缝集成有一个透彻的理解。

什么是 Kafka？

Apache Kafka 是一个分布式流处理平台，允许您实时发布、订阅、存储和处理数据流。它主要由以下组件组成：

生产者（Producers）：将数据发送到 Kafka 主题的应用程序。
消费者（Consumers）：订阅主题并处理数据的应用程序。
代理（Brokers）：负责数据持久化和复制的 Kafka 服务器。
主题（Topics）：发布数据的逻辑通道。

Kafka 的架构非常可扩展、容错且分布式，使其适用于高吞吐量、低延迟的数据流。

为什么选择 Kafka 集成？

Kafka 的核心优势在于其无缝集成不同系统和应用程序的能力。这种集成能力对于构建能够以最小延迟处理大量数据的实时数据管道至关重要。

Kafka 集成的关键优势

实时数据处理：Kafka 允许几乎即时地处理和分析流式数据。
可扩展性：Kafka 的分布式架构支持水平扩展，以应对不断增长的数据量。
容错性：Kafka 会自动将数据复制到多个代理，确保即使在发生故障时数据也可用。
系统解耦：Kafka 允许系统在不相互依赖的情况下进行通信，从而促进了灵活性和模块化。

Kafka 集成模式

有许多常见的模式用于将 Kafka 与其他系统集成，每种模式都针对特定的用例和需求。以下是一些最成熟的模式：

1. Kafka 作为中央枢纽

在此模式下，Kafka充当所有系统间数据通信的中心枢纽。不同的应用程序将数据发布到 Kafka，而其他应用程序则从 Kafka 消费这些数据。这解耦了生产者和消费者，允许它们独立演进。

用例示例

一个电子商务平台可以使用 Kafka 作为中心枢纽，所有用户活动（例如点击、购买、搜索）都会发布到 Kafka 主题。不同的微服务，例如推荐引擎、分析系统和欺诈检测系统，会消费这些事件。

实施

// Producer for publishing user activity
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

KafkaProducer<String, String> producer = new KafkaProducer<>(props);
producer.send(new ProducerRecord<>("user-activity", "userId", "user action data"));

producer.close();
Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "user-activity-consumer-group");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("user-activity"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        System.out.printf("Consumed record with key %s and value %s\n", record.key(), record.value());
    }
}

consumer.close();   

输出

 
Consumed record with key userId and value user action data

2. 变更数据捕获 (CDC)

变更数据捕获 (CDC) 是一种模式，它实时捕获数据库中的更改并将其发送到 Kafka。这使得其他系统能够立即收到通知并对这些更改采取行动。

用例示例

一家零售公司使用 Kafka 将其库存数据库中的更改复制到各种下游系统，包括其在线商店、分析平台和移动应用程序。

实施

有几种工具可用于 CDC，包括 Debezium，它与 Kafka 集成良好。

{
  "name": "inventory-connector",
  "config": {
    "connector.class": "io.debezium.connector.mysql.MySqlConnector",
    "tasks.max": "1",
    "database.hostname": "localhost",
    "database.port": "3306",
    "database.user": "debezium",
    "database.password": "dbz",
    "database.server.id": "184054",
    "database.server.name": "dbserver1",
    "database.include.list": "inventory",
    "database.history.kafka.bootstrap.servers": "kafka:9092",
    "database.history.kafka.topic": "schema-changes.inventory"
  }
}   

在此配置中，连接器会监听 MySQL 库存数据库中的更改，并将它们发布到 schema-changes.Inventory Kafka 主题。

输出

 {"before":null,"after":{"id":101,"name":"Screwdriver","quantity":42},"op":"c","ts_ms":1574703774291,"transaction":null}

3. 事件溯源

事件溯源是一种模式，其中系统中的状态更改被存储为一系列事件。由于其不可变的日志结构和高吞吐量，Kafka 是事件溯源的理想平台。

用例示例

一家金融应用程序通过将每个交易作为事件存储在 Kafka 中来跟踪交易。通过重放这些事件，可以重建账户的当前状态。

实施

// Event producer for recording financial transactions
KafkaProducer<String, String> producer = new KafkaProducer<>(props);
producer.send(new ProducerRecord<>("transactions", "accountId", "deposit:1000"));
producer.close();
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("transactions"));
int balance = 0;
while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        String[] transaction = record.value().split(":");
        if (transaction[0].equals("deposit")) {
            balance += Integer.parseInt(transaction[1]);
        }
    }
    System.out.printf("Current balance: %d\n", balance);
}

consumer.close();   

输出

 
Current balance: 1000

4. Kafka Streams 用于实时处理

Kafka Streams 是一个强大的库，用于在 Kafka 之上构建实时处理应用程序。它允许您实时处理数据并执行过滤、连接和聚合数据流等操作。

用例示例

一个社交媒体平台使用 Kafka Streams 实时分析用户兴趣，识别趋势主题和用户参与模式。

实施

Properties props = new Properties();
props.put("application.id", "streams-app");
props.put("bootstrap.servers", "localhost:9092");
props.put("default.key.serde", Serdes.String().getClass());
props.put("default.value.serde", Serdes.String().getClass());

StreamsBuilder builder = new StreamsBuilder();
KStream<String, String> source = builder.stream("user-activity");

KStream<String, String> filtered = source.filter((key, value) -> value.contains("purchase"));

filtered.to("purchases");

KafkaStreams streams = new KafkaStreams(builder.build(), props);
streams.start();   

输出

 
Key: userId1, Value: purchase:productId123
Key: userId2, Value: purchase:productId456

5. 微服务集成

Kafka 可以作为微服务通信的骨干，允许不同的服务异步交互并独立扩展。每个微服务都可以从 Kafka 主题生成和消费消息，确保松散耦合。

用例示例

一款打车应用程序通过 Kafka 集成了其各种服务，包括行程匹配、支付处理和通知服务。当发出行程请求时，它会触发传播到相关服务的活动。

实施

// Ride request producer
producer.send(new ProducerRecord<>("ride-requests", "requestId", "userId:pickupLocation"));

// Ride matching consumer
consumer.subscribe(Collections.singletonList("ride-requests"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        System.out.printf("Processing ride request: %s\n", record.value());
        // Logic to match a ride
    }
}

consumer.close();   

输出

 
Processing ride request: userId:pickupLocation

将 Kafka 与外部系统集成

Kafka 可以与各种外部系统集成，包括数据库、数据湖、云平台和遗留系统。以下是一些常见的集成点：

1. Kafka Connect

Kafka Connect 是一个强大的工具，可将 Kafka 与外部系统集成。它提供了一个在 Kafka 和其他系统（如数据库、Hadoop 和对象存储）之间流式传输数据的框架。

示例：将 Kafka 与数据库集成

使用 Kafka Connect，您可以将数据从 Kafka 主题流式传输到关系数据库。

{
  "name": "jdbc-sink-connector",
  "config": {
    "connector.class": "io.confluent.connect.jdbc.JdbcSinkConnector",
    "tasks.max": "1",
    "topics": "orders",
    "connection.url": "jdbc:mysql://:3306/mydb",
    "connection.user": "user",
    "connection.password": "password",
    "auto.create": "true",
    "insert.mode": "insert"
  }
}
This configuration will create a JDBC sink connector that writes records from the orders Kafka topic to the orders desk inside the MySQL database.   

输出

 
INSERT INTO orders (key, value) VALUES ('orderId', 'orderDetails');

2. 与 Hadoop 和数据湖集成

Kafka 通常用于将数据传输到 Hadoop 或其他数据湖，用于大规模分析和存储。Apache Flume、Gobblin 和 Kafka Connect HDFS 等工具可用于此目的。

示例：将数据流式传输到 HDFS

{
  "name": "hdfs-sink-connector",
  "config": {
    "connector.class": "io.confluent.connect.hdfs.HdfsSinkConnector",
    "tasks.max": "1",
    "topics": "logs",
    "hdfs.url": "hdfs://:9000",
    "hadoop.conf.dir": "/etc/hadoop/conf",
    "flush.size": "1000",
    "rotate.interval.ms": "60000",
    "format.class": "io.confluent.connect.hdfs.avro.AvroFormat"
  }
}   

此配置会将数据从 logs Kafka 主题以 Avro 格式流式传输到 HDFS，每分钟或在记录 1000 条后轮换文件。

输出

 
hdfs://:9000/logs/yyyy/MM/dd/HH/logs.avro

3. 云集成

Kafka 可以与各种云平台集成，从而实现混合云架构和可扩展的数据管道。AWS、Azure 和 Google Cloud 等云提供商提供托管 Kafka 服务，Kafka 也可以与其本地服务集成。

示例：将数据流式传输到 Amazon S3

使用 Kafka Connect，您可以将数据流式传输到 Amazon S3 进行长期存储。

{
  "name": "s3-sink-connector",
  "config": {
    "connector.class": "io.confluent.connect.s3.S3SinkConnector",
    "tasks.max": "1",
    "topics": "s3-logs",
    "s3.bucket.name": "my-bucket",
    "s3.region": "us-west-2",
    "flush.size": "1000",
    "storage.class": "io.confluent.connect.s3.storage.S3Storage",
    "format.class": "io.confluent.connect.s3.format.json.JsonFormat"
  }
}   

此设置会将数据从 s3-logs Kafka 主题流式传输到 JSON 格式的 S3 存储桶。

输出

 
s3://my-bucket/s3-logs/yyyy/MM/dd/HH/s3-logs.json

4. 遗留系统集成

将 Kafka 与遗留系统集成通常需要自定义连接器或适配器，因为这些系统可能不支持 Kafka。但是，Kafka 的灵活性允许高效集成，使遗留系统能够参与现代数据管道。

示例：为遗留系统创建自定义 Kafka 连接器

假设您有一个导出平面文件数据的遗留系统。您可以创建一个自定义 Kafka 生产者，该生产者读取这些文件并将数据发送到 Kafka。

public class LegacySystemProducer {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put("bootstrap.servers", "localhost:9092");
        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        KafkaProducer<String, String> producer = new KafkaProducer<>(props);

        // Read from legacy system's flat file
        BufferedReader reader = new BufferedReader(new FileReader("legacy-data.txt"));
        String line;
        while ((line = reader.readLine()) != null) {
            producer.send(new ProducerRecord<>("legacy-topic", "legacyKey", line));
        }

        producer.close();
        reader.close();
    }
}   

输出

 
Produced record with key legacyKey and value data from legacy-data.txt

Kafka 集成的最佳实践

成功将 Kafka 与其他系统集成需要仔细规划并遵守最佳实践。以下是一些有助于确保顺利集成的建议：

主题设计
仔细设计 Kafka 主题，考虑数据分区、保留策略和命名约定等因素。精心设计的主题对于高效的数据处理和顺畅的管理至关重要。
模式管理
使用模式注册表来管理和强制执行 Kafka 主题之间的数据模式。这可确保数据的一致性和兼容性，尤其是在存在多个生产者和消费者参与的环境中。
安全性
实施安全功能，例如加密 (SSL/TLS)、身份验证 (SASL) 和访问控制 (ACLs)，以保护传输中和静态中的数据。安全性至关重要，尤其是在将 Kafka 与外部系统集成时。
监控和指标
部署 Prometheus、Grafana 或 Kafka 集成的 JMX 指标等监控工具，以跟踪 Kafka 的性能和运行状况。监控有助于及早发现问题并确保集成顺利运行。
容错和高可用性
确保 Kafka 配置为容错和高可用。为了优雅地处理灾难，请使用多个代理、配置复制和设计消费者。
数据治理
实施数据治理实践来管理数据质量、合规性和生命周期。Kafka 中的数据可能非常庞大且多样化，因此治理对于保持控制至关重要。

Kafka 集成的实际用例

Uber：实时分析和运营效率
Uber 使用 Kafka 构建实时分析平台，该平台监控和优化其运营。Kafka 流式传输来自各种来源的数据，包括 GPS 坐标、行程请求和支付交易，使 Uber 能够做出实时决策。
LinkedIn：用户活动监控和洞察
LinkedIn 使用 Kafka 来监控用户活动并生成用户行为洞察。Kafka 处理平台上用户交互产生的大量数据，包括点赞、评论和个人资料浏览。这些数据用于增强用户参与度并个性化用户体验。
Netflix：流式数据管道
Netflix 在其实时数据管道中使用了 Kafka 进行监控和分析。Kafka 收集和处理指标、日志和事件，帮助 Netflix 确保顺畅的用户体验并优化内容交付。
Spotify：事件驱动的音乐发现
Spotify 使用 Kafka 来支持其事件驱动的音乐发现和推荐系统。Kafka 将与用户交互相关的数据（包括播放、跳过和搜索）流式传输到分析和实时处理这些数据的各种微服务。这有助于 Spotify 提供个性化推荐并跟踪收听趋势。
Airbnb：实时定价和可用性
Airbnb 利用 Kafka 来增强其实时定价和可用性功能。Kafka 将与房源预订、用户交互和市场趋势相关的数据流式传输到各种动态调整价格和实时更新可用性的服务。
沃尔玛：实时库存管理
沃尔玛使用 Kafka 实时管理其库存，确保其庞大的商店和仓库网络中的库存水平准确。Kafka 流式传输来自销售点系统、供应链系统和库存管理系统的数据，以提供库存水平的统一视图。
eBay：实时欺诈检测
eBay 集成 Kafka 以增强其欺诈检测功能。Kafka 将交易和用户行为数据实时流式传输到欺诈检测系统，使 eBay 能够快速识别和响应潜在的欺诈活动。
Slack：实时消息处理
Slack 使用 Kafka 管理和处理实时消息和通知。Kafka 有助于确保消息可靠传递，并使 Slack 能够在其平台上提供实时更新。

结论

Kafka 集成提供了一种强大的方式来连接和同步各种系统，从而能够处理实时数据和通信。无论您是构建微服务、实时分析系统还是事件驱动架构，Kafka 都提供了创建健壮、可扩展解决方案的工具和灵活性。

下一主题Kafka 批处理

Kafka 集成

引言

什么是 Kafka？

为什么选择 Kafka 集成？

Kafka 集成的关键优势

Kafka 集成模式

1. Kafka 作为中央枢纽

2. 变更数据捕获 (CDC)

3. 事件溯源

4. Kafka Streams 用于实时处理

5. 微服务集成

将 Kafka 与外部系统集成

1. Kafka Connect

2. 与 Hadoop 和数据湖集成

3. 云集成

4. 遗留系统集成

Kafka 集成的最佳实践

Kafka 集成的实际用例

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Kafka 教程

Kafka 安装

Kafka CLI

Kafka 编程

实时示例

Kafka 监控

Kafka Connect

Kafka Streams

杂项

Kafka 集成

引言

什么是 Kafka？

为什么选择 Kafka 集成？

Kafka 集成的关键优势

Kafka 集成模式

1. Kafka 作为中央枢纽

2. 变更数据捕获 (CDC)

3. 事件溯源

4. Kafka Streams 用于实时处理

5. 微服务集成

将 Kafka 与外部系统集成

1. Kafka Connect

2. 与 Hadoop 和数据湖集成

3. 云集成

4. 遗留系统集成

Kafka 集成的最佳实践

Kafka 集成的实际用例

结论

相关帖子

Kafka 在法规遵从性自动化中的应用

使用 Kafka 进行事件驱动的网络安全

使用 Kafka 实现自主微服务

Kafka 在灾难恢复规划中的应用

Kafka 在网络安全事件管理中的作用

Apache Kafka 中的发布-订阅消息传递

针对基因组数据流优化的 Kafka

Kafka 到 Cosmos DB 故障的死信队列

Cosmos DB 作为 Apache Kafka 主题的接收器

Kafka 状态存储

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器