深入探索 Apache Flink、Spark Streaming、Kafka Streams 等流式计算框架,
记录从入门到实践的完整技术旅程
涵盖流式数据处理的核心技术原理、实战经验与最佳实践
从零开始掌握 Flink 的核心概念,包括 DataStream API、事件时间与水印机制、窗口计算模型等基础知识,快速构建第一个流处理应用。
深入讲解如何使用 Flink 构建生产级实时数据管道,涵盖 Kafka 数据接入、状态管理、Checkpoint 容错机制以及性能调优策略。
横向对比 Flink、Spark Streaming、Kafka Streams、Storm 等主流框架,从延迟、吞吐量、容错性、API 易用性等维度进行深度分析。
全面解析流式计算中的窗口机制,包括滚动窗口、滑动窗口、会话窗口的实现原理,以及自定义窗口触发器与驱逐器的实战技巧。
详解使用 Flink CDC 实现 MySQL、PostgreSQL 等关系型数据库的实时变更数据捕获与同步,支撑数据仓库的实时化改造方案。
探索 Flink SQL 在流批一体场景下的应用,涵盖 Dynamic Table 概念、Temporal Join、维表关联以及 Catalog 集成方案。
深入剖析 Flink 的状态后端(RocksDB / HashMapStateBackend)、Checkpoint / Savepoint 策略,以及生产环境中的故障恢复最佳实践。
介绍 Kafka Streams 作为轻量级流处理库的核心优势,讲解 KStream / KTable 抽象、拓扑构建以及无需独立集群的部署模式。
结合 Flink + Kafka + Prometheus + Grafana 构建企业级实时指标计算与监控告警系统,实现秒级延迟的业务指标实时看板。
流式数据处理生态中的核心技术栈与工具链
有状态流式计算引擎,支持精确一次语义与事件时间处理
基于微批处理的流计算框架,与 Spark 生态无缝集成
嵌入式流处理库,无需独立集群即可构建流式应用
分布式消息系统,流式数据处理中的核心数据总线
云原生消息与流处理平台,支持多租户与层级存储
统一编程模型,一次编写可运行于多种执行引擎
最早的分布式实时计算系统之一,擅长低延迟处理
云原生流式数据库,以 SQL 为核心的流处理新范式
流式数据处理的核心概念与数据流转链路
从基础概念到生产实践的进阶之路
掌握流式计算 vs 批处理的核心差异,理解事件时间、处理时间、水印机制等基本概念,搭建本地开发环境并运行第一个 Flink 应用。
深入学习 DataStream API 与 Table/SQL API,掌握算子链优化、窗口函数、状态编程模型,能够独立完成中等复杂度的流式数据处理任务。
学习 Checkpoint 与 Savepoint 容错策略、资源调优与背压处理、Kafka 连接器配置与偏移量管理,具备部署生产级流式作业的能力。
探索流批一体架构、Flink CDC 实时数据集成、自定义 Source/Sink 开发、复杂事件处理(CEP)以及机器学习模型的实时推理部署。