事件驱动架构：Kafka 到 Cosmos DB 集成

2025 年 5 月 16 日 | 阅读 8 分钟

什么是事件驱动架构？

事件驱动架构是一种架构模式，其中系统的组件通过发出和响应事件来进行通信。生产者在发生重要操作时生成事件，而消费者则订阅这些事件以做出相应的响应。这使得实时数据流和处理成为可能。

事件驱动架构的关键特征

松散耦合
生产者和消费者之间相互独立，提高了灵活性和可维护性。
异步通信
事件以非阻塞方式处理，实现了高响应性。
可扩展性
生产者和消费者都可以独立扩展，以处理不同的负载。

事件驱动架构中的 Kafka 到 Cosmos DB 集成

本示例演示了一个简单的 EDA 系统，其中 Kafka 生产者生成事件，Kafka 消费者通过将事件存储在 Azure Cosmos DB 中来处理这些事件。

步骤 1：设置 Kafka 生产者

该生产者模拟用户操作（例如，音乐流媒体服务中的歌曲播放事件）。

from kafka import KafkaProducer
import json
import time
producer = KafkaProducer(
    bootstrap_servers=['localhost:9092'],
    value_serializer=lambda v: json.dumps(v).encode('utf-8')
)

topic_name = 'music-playback-events'
events = [
    {"user_id": 101, "song_id": "S123", "action": "play", "timestamp": int(time.time())},
    {"user_id": 102, "song_id": "S456", "action": "pause", "timestamp": int(time.time())},
    {"user_id": 103, "song_id": "S789", "action": "stop", "timestamp": int(time.time())},
]
for event in events:
    producer.send(topic_name, event)
    print(f"Produced event: {event}")
    time.sleep(1)  # Simulate delay   

生产者输出

Event-driven Architecture: Kafka to Cosmos DB Integration

步骤 2：设置用于 Cosmos DB 的 Kafka 消费者

该消费者监听 Kafka 主题，并将收到的事件写入 Cosmos DB。

from kafka import KafkaConsumer
from azure.cosmos import CosmosClient, PartitionKey
import json
cosmos_client = CosmosClient("your-cosmos-db-uri", credential="your-cosmos-db-key")
database_name = "MusicServiceDB"
container_name = "PlaybackEvents"
database = cosmos_client.create_database_if_not_exists(id=database_name)
container = database.create_container_if_not_exists(
    id=container_name,
    partition_key=PartitionKey(path="/user_id")
)
consumer = KafkaConsumer(
    'music-playback-events',
    bootstrap_servers=['localhost:9092'],
    auto_offset_reset='earliest',
    enable_auto_commit=True,
    group_id='playback-consumer-group',
    value_deserializer=lambda v: json.loads(v.decode('utf-8'))
)
for message in consumer:
    event_data = message.value
    container.upsert_item(event_data)  # Upsert ensures new or updated data is written
    print(f"Consumed and stored event: {event_data}")   

步骤 3：验证端到端流程

1. 启动 Kafka 服务器并创建主题

kafka-topics.sh --create --topic music-playback-events --bootstrap-server localhost:9092   

2. 运行生产者脚本生成事件。

3. 运行消费者脚本处理事件并将其存储在 Cosmos DB 中。

4. 检查 Cosmos DB 以确认事件已成功存储。

输出

消费者输出

Apache Kafka 在事件驱动系统中的作用

事件驱动架构 (EDA) 已成为现代分布式系统的主要设计范例。在这种方法中，事件代表系统中状态的重大变化或发生，并且各种组件异步地对这些事件做出反应。Apache Kafka 通过提供一个可扩展、高吞吐量且容错的事件流平台，在 EDA 中发挥着核心作用。

Apache Kafka 在 EDA 中的关键特征

生产者和消费者的解耦：Kafka 允许生产者（事件生成器）和消费者（事件处理器）独立运行，确保组件之间的松散耦合。
高吞吐量和低延迟：Kafka 的分布式特性和高效的存储机制能够实现低延迟的高吞吐量事件摄取。
可扩展性：Kafka 通过对主题进行分区并将其分布在多个代理上来实现水平扩展。
持久性：Kafka 将事件持久化到磁盘，确保即使在代理发生故障时数据也不会丢失。
可重放性：消费者可以通过重置其偏移量来重放事件，从而轻松地重新处理数据。

Kafka 的架构包含以下核心组件

生产者：向 Kafka 主题发布事件的应用程序。
消费者：处理事件。
代理：存储和管理事件的 Kafka 服务器。
主题：发布事件的类别。

示例 1：使用 Apache Kafka 设置事件驱动系统

本示例演示了一个简单的事件驱动系统，其中 Kafka 生产者生成订单事件，Kafka 消费者实时处理这些事件。

Kafka 生产者（订单生成器）

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import org.apache.kafka.clients.producer.RecordMetadata;
import org.apache.kafka.clients.producer.ProducerConfig;

import java.util.Properties;
import java.util.concurrent.ExecutionException;

public class OrderEventProducer {

    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringSerializer");
        KafkaProducer<String, String> producer = new KafkaProducer<>(props);
        String topicName = "order-events";
        String[][] orders = {
            {"1", "101", "P001", "2"},
            {"2", "102", "P002", "1"},
            {"3", "103", "P003", "5"}
        };

        for (String[] order : orders) {
            String orderEvent = generateOrderEvent(order);
            ProducerRecord<String, String> record = new ProducerRecord<>(topicName, orderEvent);
            try {
                RecordMetadata metadata = producer.send(record).get();
                System.out.printf("Produced event to topic %s partition %d with offset %d: %s%n",
                    metadata.topic(), metadata.partition(), metadata.offset(), orderEvent);
            } catch (InterruptedException | ExecutionException e) {
                e.printStackTrace();
            }
        }
        producer.close();
    }
    private static String generateOrderEvent(String[] order) {
        return String.format("{\"order_id\": \"%s\", \"user_id\": \"%s\", \"product_id\": \"%s\", \"quantity\": %s, \"timestamp\": %d}",
            System.currentTimeMillis() / 1000);
    }
}   

生产者输出

步骤 2：Kafka 消费者（订单处理器）

from import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;

import java.time.Duration;
import java.util.Collections;
import java.util.Properties;

public class OrderEventConsumer {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "order-processor-group");
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, "org.apache.kafka.common.serialization.StringDeserializer");
        props.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
        props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "true");
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("order-events"));
        try {
            while (true) {
                ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
                for (ConsumerRecord<String, String> record : records) {
                    String orderEvent = record.value();
                    System.out.printf("Consumed event from topic %s partition %d offset %d: %s%n", 
                                      record.topic(), record.partition(), record.offset(), orderEvent);
                }
            }
        } finally {
            consumer.close();
        }
    }
}   

消费者输出

示例 2：使用 Kafka Streams 进行实时数据处理

Kafka Streams 是一个用于构建实时、事件驱动应用程序的强大 API。在本示例中，我们将创建一个 Kafka Streams 应用程序来处理销售事件并计算每个产品的总销售额。

步骤 1：Kafka 生产者（销售事件生成器）

from kafka import KafkaProducer
import json
import random
import time

producer = KafkaProducer(
    bootstrap_servers=['localhost:9092'],
    value_serializer=lambda v: json.dumps(v).encode('utf-8')
)

topic_name = 'sales-events'

products = ["P001", "P002", "P003"]

for i in range(10):
    event = {
        "sale_id": i,
        "product_id": random.choice(products),
        "amount": random.randint(10, 100),
        "timestamp": int(time.time())
    }
    producer.send(topic_name, event)
    print(f"Produced sales event: {event}")
    time.sleep(0.5)   

输出

步骤 2：Kafka Streams 应用程序（总销售额计算器）

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.kstream.KStream;
import org.apache.kafka.streams.kstream.KTable;
import org.apache.kafka.streams.kstream.Materialized;

import java.util.Properties;

public class SalesAggregator {
    public static void main(String[] args) {
        Properties props = new Properties();
        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "sales-aggregator-app");
        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());

        StreamsBuilder builder = new StreamsBuilder();
        KStream<String, String> salesStream = builder.stream("sales-events");

        KTable<String, Long> totalSales = salesStream
            .mapValues(value -> Long.parseLong(value.split(",")[1]))
            .groupByKey()
            .reduce(Long::sum, Materialized.as("total-sales-store"));

        totalSales.toStream().to("total-sales-output");

        KafkaStreams streams = new KafkaStreams(builder.build(), props);
        streams.start();
    }
}   

Kafka Streams 输出

Kafka 到 Cosmos DB 集成工作流

本文档详细介绍了 Apache Kafka 与 Azure Cosmos DB 集成的完整端到端工作流。该工作流涵盖三个主要阶段：

使用 Kafka 生产者生成事件
流处理和事件消费
数据摄取到 Cosmos DB

我们将为每个步骤提供详细的解释和可执行代码。

使用 Kafka 生产者生成事件

在此步骤中，我们将创建一个 Kafka 生产者来生成实时事件。这些事件将是简单的 JSON 记录，代表音乐流媒体应用程序中的用户操作。

前提条件

已安装并正在本地运行 Apache Kafka。
已创建一个 Kafka 主题用于事件流。

Kafka 生产者代码

from kafka import KafkaProducer
import json
import time

# Initialize Kafka producer
producer = KafkaProducer(
    bootstrap_servers='localhost:9092',
    value_serializer=lambda v: json.dumps(v).encode('utf-8')
)

topic = 'user-events'

# Sample data to simulate user actions
events = [
    {"user_id": 1, "action": "play", "song_id": "s123", "timestamp": int(time.time())},
    {"user_id": 2, "action": "pause", "song_id": "s124", "timestamp": int(time.time())},
    {"user_id": 3, "action": "like", "song_id": "s125", "timestamp": int(time.time())}
]

# Send events to Kafka topic
for event in events:
    producer.send(topic, event)
    print(f"Sent event: {event}")
    time.sleep(1)  # Simulate real-time event generation

producer.close()   

输出

运行上述程序时，您将看到类似以下的输出：

流处理和事件消费

一旦 Kafka 开始生成事件，下一步就是消费这些事件并为摄取到 Azure Cosmos DB 做准备。

前提条件

一个 Kafka 消费者应用程序。
适当的流处理逻辑，以根据需要过滤和转换事件。

Kafka 消费者代码

from kafka import KafkaConsumer
import json

# Initialize Kafka consumer
consumer = KafkaConsumer(
    'user-events',
    bootstrap_servers='localhost:9092',
    auto_offset_reset='earliest',
    enable_auto_commit=True,
    group_id='event-consumer-group',
    value_deserializer=lambda v: json.loads(v.decode('utf-8'))
)

print("Listening for events...")

# Consume and process events
for message in consumer:
    event = message.value
    print(f"Received event: {event}")

    # Example processing: Add a processed flag
    event['processed'] = True

    # Here you would normally send the processed event to Cosmos DB
    print(f"Processed event: {event}")   

输出

运行消费者时，您将看到以下输出：

数据摄取到 Cosmos DB

处理完事件后，最后一步是将它们摄取到 Azure Cosmos DB。为此，我们将使用 Azure Cosmos DB Python SDK。

前提条件

一个 Azure Cosmos DB 帐户。
已安装 Azure Cosmos DB Python SDK（pip install azure-cosmos）。
已创建一个 Cosmos DB 容器用于存储事件。

Cosmos DB 摄取代码

from azure.cosmos import CosmosClient, exceptions
import os

# Initialize Cosmos DB client
COSMOS_ENDPOINT = os.getenv('COSMOS_ENDPOINT')
COSMOS_KEY = os.getenv('COSMOS_KEY')
DATABASE_NAME = 'MusicEventsDB'
CONTAINER_NAME = 'UserActions'

client = CosmosClient(COSMOS_ENDPOINT, COSMOS_KEY)
database = client.create_database_if_not_exists(id=DATABASE_NAME)
container = database.create_container_if_not_exists(
    id=CONTAINER_NAME,
    partition_key='/user_id'
)

# Sample processed events to ingest
events_to_ingest = [
    {"user_id": 1, "action": "play", "song_id": "s123", "timestamp": 1673567890, "processed": True},
    {"user_id": 2, "action": "pause", "song_id": "s124", "timestamp": 1673567891, "processed": True},
    {"user_id": 3, "action": "like", "song_id": "s125", "timestamp": 1673567892, "processed": True}
]

# Ingest events into Cosmos DB
for event in events_to_ingest:
    container.create_item(body=event)
    print(f"Ingested event into Cosmos DB: {event}")   

输出

运行上述程序后，您将看到：

您可以通过使用 Azure 门户查询 Cosmos DB 容器来验证已摄取的事件。

开发 Kafka 生产者

以下是 Kafka 生产者的详细解释和完整的 Python 程序：

KafkaProducer 初始化： KafkaProducer 使用 bootstrap_servers 参数初始化，该参数指向本地 Kafka 代理和自定义序列化器（value_serializer），它将 Python 字典编码为 JSON。
示例事件：我们创建了一系列示例事件，每个事件都代表一个用户操作（例如，播放歌曲）。
事件发布：生产者遍历事件并将每个事件发送到指定的主题（kafka-to-cosmos）。
事件之间的延迟：在事件发布之间引入延迟（time.sleep(1)）以模拟现实场景。

完整代码程序

from kafka import KafkaProducer
import json
import time

# Initialize Kafka producer
producer = KafkaProducer(
    bootstrap_servers='localhost:9092',
    value_serializer=lambda v: json.dumps(v).encode('utf-8')
)

# Sample events
events = [
    {"eventType": "song_play", "userId": "u1", "songId": "s1", "timestamp": time.time()},
    {"eventType": "song_play", "userId": "u2", "songId": "s2", "timestamp": time.time()},
    {"eventType": "song_play", "userId": "u3", "songId": "s3", "timestamp": time.time()},
    {"eventType": "song_play", "userId": "u4", "songId": "s4", "timestamp": time.time()}
]

# Publish events to Kafka
def publish_events():
    for event in events:
        producer.send('kafka-to-cosmos', value=event)
        print(f"Produced event: {event}")
        time.sleep(1)

if __name__ == '__main__':
    publish_events()   

输出

创建用于 Cosmos DB 的 Kafka 消费者

CosmosClient 初始化：使用 Cosmos DB 帐户 URL 和密钥初始化 CosmosClient。
数据库和容器选择：消费者连接到现有的数据库和容器。
KafkaConsumer 初始化：使用连接到 Kafka 代理并订阅 kafka-to-cosmos 主题的参数初始化 KafkaConsumer。
事件处理和插入：消费者遍历传入的消息，将其反序列化，然后使用 upsert_item 将它们插入 Cosmos DB 容器。

完整代码程序

from kafka import KafkaConsumer
from azure.cosmos import CosmosClient
import json

# Cosmos DB connection details
url = "<your-cosmos-db-url>"
key = "<your-cosmos-db-key>"
client = CosmosClient(url, credential=key)

# Connect to database and container
database_name = 'kafka_demo_db'
container_name = 'events'
database = client.get_database_client(database_name)
container = database.get_container_client(container_name)

# Initialize Kafka consumer
consumer = KafkaConsumer(
    'kafka-to-cosmos',
    bootstrap_servers='localhost:9092',
    auto_offset_reset='earliest',
    enable_auto_commit=True,
    value_deserializer=lambda x: json.loads(x.decode('utf-8'))
)

# Process and insert events into Cosmos DB
def consume_events():
    for message in consumer:
        event = message.value
        container.upsert_item(event)
        print(f"Inserted event into Cosmos DB: {event}")

if __name__ == '__main__':
    consume_events()   

输出

性能优化最佳实践

优化 Kafka 以实现高吞吐量

增加分区数：将负载分配到多个分区。
批量处理：使用更大的批次以减少网络开销。
压缩：启用压缩（例如，snappy、gzip）以减小有效负载大小。

配置 Cosmos DB 以实现低延迟

使用分区：选择合适的分区键以均匀分布数据。
启用索引：通过在经常查询的字段上启用索引来优化查询性能。

处理故障和重试

使用重试逻辑：为暂时性错误实现重试逻辑。
死信队列：将有问题的消息发送到死信队列以供稍后分析，从而处理这些消息。

下一主题Event-driven-supply-chain-optimization-using-kafka

← prev next →

事件驱动架构：Kafka 到 Cosmos DB 集成

什么是事件驱动架构？

事件驱动架构的关键特征

事件驱动架构中的 Kafka 到 Cosmos DB 集成

步骤 1：设置 Kafka 生产者

步骤 2：设置用于 Cosmos DB 的 Kafka 消费者

步骤 3：验证端到端流程

Apache Kafka 在事件驱动系统中的作用

Apache Kafka 在 EDA 中的关键特征

Kafka 到 Cosmos DB 集成工作流

使用 Kafka 生产者生成事件

流处理和事件消费

数据摄取到 Cosmos DB

开发 Kafka 生产者

性能优化最佳实践

优化 Kafka 以实现高吞吐量

配置 Cosmos DB 以实现低延迟

处理故障和重试

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Kafka 教程

Kafka 安装

Kafka CLI

Kafka 编程

实时示例

Kafka 监控

Kafka Connect

Kafka Streams

杂项

事件驱动架构：Kafka 到 Cosmos DB 集成

什么是事件驱动架构？

事件驱动架构的关键特征

事件驱动架构中的 Kafka 到 Cosmos DB 集成

步骤 1：设置 Kafka 生产者

步骤 2：设置用于 Cosmos DB 的 Kafka 消费者

步骤 3：验证端到端流程

Apache Kafka 在事件驱动系统中的作用

Apache Kafka 在 EDA 中的关键特征

Kafka 到 Cosmos DB 集成工作流

使用 Kafka 生产者生成事件

流处理和事件消费

数据摄取到 Cosmos DB

开发 Kafka 生产者

性能优化最佳实践

优化 Kafka 以实现高吞吐量

配置 Cosmos DB 以实现低延迟

处理故障和重试

相关帖子

无服务器 Kafka 应用程序的优势

Kafka 中的内存管理

Kafka CLI 和工具

Kafka 实时分析设置

监控和调整 Kafka 到 Cosmos DB 管道

Kafka - 分布式流媒体平台

Kafka 连接器 BigQuery

Kafka 窗口化

最佳 Apache Kafka 书籍

Kafka 延迟

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器