标签： Kafka

大数据量处理PB级 – 从零到精通课程目标学完这套课程，你将能够：理解大数据处理的核心思想掌握PB级数据处理的架构设计熟练使用大数据技术栈（Hadoop、Spark、Flink等）能够设计…

概述：分布式数据Pipeline的重要性与流程数据Pipeline本质上是一条数据加工流水线，负责将原始数据自动化地收集、处理和转换为可用于模型训练或业务分析的形式。对于大模型训练而言，一个可靠高效…

account_circle 林清杨 schedule2025年9月8日folder_open2025, Kafka

引言 Apache Kafka 是一个开源的分布式事件流平台，广泛用于构建高性能数据管道、实时流处理和关键业务应用[blog.csdn.net](https://blog.csdn.net/qq_32…

Kafka Quick Start Download Kafka Documentation Book And Papers Use Cases Blog What is Kafka? Apache …

account_circle 林清杨 schedule2023年5月12日folder_openKafka

一、消息顺序 Kafka保证在单个分区中，消息是按照它们发送的顺序进行存储的。如果需要全局的顺序，那么可能需要将所有消息发送到同一个分区，但这样可能会导致性能问题。如果需要多分区但仍希望保持顺序，那么…

account_circle 林清杨 schedule2023年3月27日folder_openKafka

一、Kafka 概念 Kafka 是一种高吞吐量、分布式、基于发布/订阅的消息系统，最初由 LinkedIn 公司开发，使用Scala 语言编写，目前是 Apache 的开源项目。 broker：Ka…