大数据量处理PB级 – 从零到精通
大数据量处理PB级 – 从零到精通 课程目标 学完这套课程,你将能够: 理解大数据处理的核心思想 掌握PB级数据处理的架构设计 熟练使用大数据技术栈(Hadoop、Spark、Flink等) 能够设计…
目标 路径 时间 结果 信息 定位 闭环 复盘 精力 极限 稳态 框架
大数据量处理PB级 – 从零到精通 课程目标 学完这套课程,你将能够: 理解大数据处理的核心思想 掌握PB级数据处理的架构设计 熟练使用大数据技术栈(Hadoop、Spark、Flink等) 能够设计…
概述:分布式数据Pipeline的重要性与流程 数据Pipeline本质上是一条数据加工流水线,负责将原始数据自动化地收集、处理和转换为可用于模型训练或业务分析的形式。对于大模型训练而言,一个可靠高效…
Part I: 大数据的世界 Chapter 1: 大数据概览 定义大数据 “大数据”已成为科技领域的热词,但其内涵远不止于数据量的庞大。大数据指的是无法通过传统数据处理软件在可容忍的时间内进行采集、…
一、前言 当发生任务失败时,Flink 需要重启失败的任务和其他受影响的任务,以使作业恢复到正常状态。 重启策略和故障转移策略用于控制任务重启。重启策略决定失败/受影响的任务是否以及何时可以重启。故障…
一、前言 正常情况下,对齐检查点的时间主要由检查点过程中的同步部分和异步部分所决定。然而,当Flink任务在严重的反压下运行时,检查点从头到尾的时间的决定性因素可能是将检查点屏障传播到所有算子/子任务…
一、概述 检查点通过允许恢复状态和相应的流位置,来使 Flink 中的状态具有容错能力,从而为应用程序提供与无故障执行相同的语义。 请参阅 Checkpointing检查点 以了解如何为程序启用和配置…
Flink官网 http://flink.apache.org Flink项目理念 Apache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架。Flink 用同…