内容纲要

大数据量处理PB级 - 从零到精通

课程目标

学完这套课程，你将能够：

理解大数据处理的核心思想
掌握PB级数据处理的架构设计
熟练使用大数据技术栈（Hadoop、Spark、Flink等）
能够设计面试场景下的大数据解决方案
掌握数据倾斜、数据分片等核心难题的解决方法

第一部分：大数据基础概念（必须先懂这个！）

1.1 什么是大数据？

核心记忆口诀：大数据就是多、快、难、杂

特征	英文	含义	举例
Volume	规模大	数据量巨大	PB级日志、TB级交易记录
Velocity	速度快	产生速度快	每秒百万条订单
Variety	类型多	结构多样	文本、图片、视频、日志
Value	价值密度	挖掘难	海量数据中找出有价值的信息

面试必背：

"大数据的4V特征：Volume（数据量大）、Velocity（产生速度快）、Variety（数据类型多样）、Value（价值密度低但挖掘价值高）。处理PB级数据的关键是分而治之，将大问题拆解成小问题。"

1.2 为什么单机无法处理PB级数据？

物理限制：

内存限制：单机内存最大几TB，但PB级数据是1000TB起步
磁盘I/O限制：单机磁盘读取速度有限
CPU计算限制：单机CPU核心数有限
网络带宽限制：数据传输瓶颈

类比理解：

单机处理PB数据 = 一个人整理整个图书馆的藏书
分布式处理 = 1000个人同时整理不同的书架

核心公式：

总耗时 = 数据量 / (并行度 × 单节点处理速度)

1.3 大数据处理的核心思想

分而治之（Divide and Conquer）

PB级数据 ──┬─> 分片1 (100TB) ──> 机器A处理
           ├─> 分片2 (100TB) ──> 机器B处理
           ├─> 分片3 (100TB) ──> 机器C处理
           └─> ... 共10台机器
           |
           v
       聚合结果

面试回答模板：

"处理PB级数据的核心是分布式计算和分片存储。首先将数据按照某种规则（如哈希、范围）分片到不同节点，然后利用MapReduce等计算框架并行处理，最后聚合结果。数据分片要考虑均匀性避免数据倾斜，同时要设计容错机制保证任务可靠性。"

第二部分：数据存储架构（数据放哪里？）

2.1 数据分片策略（面试高频！）

策略一：哈希分片

原理： shard_id = hash(key) % total_shards

优点：

数据分布均匀
扩容方便
写入分散

缺点：

范围查询需要扫描所有分片
不易做范围统计

代码示例：

def get_shard(user_id, total_shards=10):
    # 使用一致性哈希避免扩容时数据大量迁移
    return hash(user_id) % total_shards

# 10亿用户数据分布到1000个分片
user_id = "user_12345678"
shard = get_shard(user_id, 1000)

面试问题：哈希分片如何扩容？

回答：

"哈希分片扩容时，可以采用一致性哈希算法，将分片映射到哈希环上，扩容只需将部分数据迁移到新节点。另一种方式是预分配足够多的分片，每个节点负责多个分片，扩容只需重新分配分片到新节点，无需数据迁移。"

策略二：范围分片

原理： 按数据值的范围划分

分片1: 0 - 100万
分片2: 100万 - 200万
分片3: 200万 - 300万
...

优点：

范围查询高效
易于做时间序列分析

缺点：

容易产生数据倾斜（热点数据）
扩容不灵活

场景： 时间序列数据、按地区划分的数据

策略三：地理位置分片

原理： 按地理位置或IDC机房分片

北京机房: 华北地区数据
上海机房: 华东地区数据
广州机房: 华南地区数据

优点：

就近访问，延迟低
符合数据合规要求

场景： 全球化应用、多地域部署

策略四：复合分片

原理： 组合多种分片策略

def get_composite_shard(user_id, create_time):
    # 先按时间分大区，再按哈希分小区
    time_shard = get_time_shard(create_time)  # 按月份
    hash_shard = hash(user_id) % 100
    return f"{time_shard}_{hash_shard}"

2.2 数据分层存储（成本优化必问！）

三层存储架构：

层级	存储介质	成本	访问速度	适用数据
热数据层	SSD/内存	高	极快	最近7天活跃数据
温数据层	HDD	中	中等	最近30天数据
冷数据层	对象存储/磁带	低	慢	历史归档数据

生命周期管理策略：

实时数据 -> 7天后迁移到HDD -> 30天后压缩归档到对象存储

面试回答：

"对于PB级数据，我们采用分层存储策略降低成本。热数据用SSD保证查询性能，温数据用HDD平衡成本和性能，冷数据压缩存储到对象存储。通过数据生命周期管理，定期迁移和清理过期数据，整体成本可降低60%以上。"

2.3 列式存储 vs 行式存储（面试必问！）

行式存储（传统MySQL）：

| ID | Name | Age | Address | ... |
|----|------|-----|---------|-----|
| 1  | Tom  | 25  | Beijing | ... |
| 2  | Jack | 30  | Shanghai| ... |

适合：事务处理、单行查询
缺点：分析查询时读取大量无用数据

列式存储（ClickHouse、HBase）：

ID:    [1, 2, 3, ...]
Name:  [Tom, Jack, Amy, ...]
Age:   [25, 30, 28, ...]

适合：分析查询、聚合计算
优点：只读需要的列，压缩率高

面试必答对比：	特性	行式存储
OLTP事务	✅ 优秀	❌ 不适合
OLAP分析	❌ 不适合	✅ 优秀
单行查询	✅ 快	❌ 慢
范围扫描	❌ 慢	✅ 快
压缩率	低	高（10-20倍）

面试回答模板：

"对于OLAP场景如PB级数据分析，我们选择列式存储如ClickHouse。列式存储只读取查询涉及的列，减少I/O；相同类型数据压缩率高，节省存储空间；向量化执行提升CPU利用率。同时采用分区分桶策略，按日期分区加速时间范围查询，按用户ID分桶避免数据倾斜。"

第三部分：分布式计算框架（怎么算？）

3.1 MapReduce 思想（大数据鼻祖，必须懂！）

核心思想： 分而治之

输入数据 (1TB)
    |
    v
Map阶段 (并行) ──┬─> Map1 处理分片1
                  ├─> Map2 处理分片2
                  └─> Map3 处理分片3
    |
    v
Shuffle阶段 (按key分组)
    |
    v
Reduce阶段 (聚合) ──┬─> Reduce1聚合key1
                     ├─> Reduce2聚合key2
                     └─> Reduce3聚合key3
    |
    v
输出结果

示例：统计词频

# Map阶段：输入 -> (key, value)
def map_function(document):
    for word in document.split():
        yield (word, 1)  # 每个词出现1次

# Shuffle：自动按word分组
# (hello, 1), (hello, 1) -> hello: [1, 1, 1]

# Reduce阶段：聚合
def reduce_function(word, counts):
    return (word, sum(counts))  # hello: 3

面试回答：

"MapReduce是分布式计算的鼻祖，分为Map、Shuffle、Reduce三个阶段。Map阶段并行处理输入数据产生中间结果，Shuffle按key分组传输到对应节点，Reduce阶段聚合输出。虽然Spark等新框架更流行，但MapReduce的思想是所有分布式计算的基础。"

3.2 Spark（现代大数据计算框架）

为什么比MapReduce快？

特性	MapReduce	Spark
计算模式	磁盘迭代	内存计算
速度	慢	快10-100倍
API	繁琐	简洁
实时流	不支持	支持

Spark核心概念：

RDD（弹性分布式数据集）

# Python PySpark示例
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("WordCount").getOrCreate()

# 创建RDD
text = spark.sparkContext.textFile("hdfs://data/*.log")

# Transformations（懒执行）
words = text.flatMap(lambda line: line.split())
pairs = words.map(lambda word: (word, 1))
counts = pairs.reduceByKey(lambda a, b: a + b)

# Action（触发执行）
counts.saveAsTextFile("hdfs://result/")

面试问题：什么是Spark的宽依赖和窄依赖？

窄依赖： 父RDD的分区只被子RDD的一个分区使用

# map、filter是窄依赖
rdd.map(lambda x: x * 2)  # 1对1关系

宽依赖： 父RDD的分区被多个子分区使用（需要shuffle）

# reduceByKey、groupBy是宽依赖
rdd.reduceByKey(lambda a, b: a + b)  # 需要shuffle

面试回答：

"窄依赖是指父RDD的每个分区只被子RDD的一个分区依赖，如map、filter操作，可以流水线执行。宽依赖是指父RDD的每个分区被子RDD的多个分区依赖，如reduceByKey、join操作，需要进行shuffle。宽依赖是划分Stage的依据，每个Stage内部可以并行执行，Stage之间需要等待shuffle完成。"

Spark SQL（结构化数据处理）

# DataFrame API（推荐使用）
df = spark.read.parquet("hdfs://data/orders/")

# 复杂查询
result = df.groupBy("user_id") \
    .agg(
        sum("amount").alias("total_amount"),
        count("*").alias("order_count")
    ) \
    .filter(col("total_amount") > 10000) \
    .orderBy(desc("total_amount"))

result.show()

Spark调优参数（面试必问！）

# 内存配置
spark.executor.memory.default = "8g"           # executor内存
spark.executor.memoryOverhead = "2g"           # 额外堆外内存
spark.memory.fraction = 0.6                    # 执行内存比例

# 并行度配置
spark.default.parallelism = 200                 # 默认并行度
spark.sql.shuffle.partitions = 200              # shuffle分区数

# 广播变量（避免shuffle）
broadcast_var = spark.broadcast(large_dict)

# 累加器（计数）
counter = spark.sparkContext.accumulator(0)

Spark调优策略（面试回答模板）：

"Spark调优主要包括：1）资源配置，根据数据量设置合理的executor数量和内存；2）并行度调优，设置shuffle分区数为executor核数的2-3倍；3）使用广播变量替代join减少shuffle；4）对于倾斜数据，使用salt技术添加随机前缀打散热点key；5）合理使用cache/persist缓存中间结果；6）选择合适的序列化存储格式如Parquet。"

3.3 Flink（实时计算框架）

Flink vs Spark Streaming：

特性	Spark Streaming	Flink
架构	微批处理	真正流处理
延迟	秒级	毫秒级
状态管理	Checkpoint	Savepoint
窗口	较弱	强大

Flink核心代码：

// 水位线+窗口统计
DataStream<Tuple2<String, Integer>> clicks = env
    .addSource(new KafkaSource(...))
    .assignTimestampsAndWatermarks(...)  // 水位线
    .keyBy(0)  // 按用户ID分组
    .window(TumblingEventTimeWindows.of(Time.minutes(5)))  // 5分钟滚动窗口
    .aggregate(new CountAggregator());  // 聚合

面试回答：

"对于实时流处理，我们选择Flink而非Spark Streaming。Flink采用事件驱动模型，支持毫秒级低延迟；提供丰富的窗口语义（滚动、滑动、会话）；强大的状态管理和exactly-once语义保证；背压机制防止数据积压。适合实时监控、实时推荐等场景。"

第四部分：数据倾斜处理（面试杀手锏！）

4.1 什么是数据倾斜？

现象： 大部分数据集中在少数节点，导致任务执行不均衡

正常分布：
节点1: ████ (100万)
节点2: ████ (100万)
节点3: ████ (100万)
总耗时: 10分钟

数据倾斜：
节点1: ████████████████████ (500万)  <-- 热点
节点2: █ (5万)
节点3: █ (5万)
总耗时: 50分钟（被热点拖累）

4.2 数据倾斜的原因

常见场景：

空值或默认值过多
热点Key： 某个用户/商品访问量巨大
关联键分布不均
join时小表join大表

4.3 解决方案（面试必背！）

方案一：添加随机前缀打散热点Key

# 处理join倾斜
# 原始数据
df1.join(df2, "user_id")  # user_id=1有10亿条，卡死

# 解决：给热点key添加随机前缀
from pyspark.sql.functions import concat, lit, rand, floor

def add_random_prefix(df, col_name, n=10):
    return df.withColumn(
        f"{col_name}_expanded",
        concat(col(col_name), lit("_"), floor(rand() * n))
    )

# 使用
df1_expanded = add_random_prefix(df1.filter(col("user_id") == 1), "user_id", 10)
df2_expanded = add_random_prefix(df2.filter(col("user_id") == 1), "user_id", 10)

# join后再去重
result = df1_expanded.join(df2_expanded, "user_id_expanded") \
    .dropDuplicates("user_id")

面试回答：

"对于join操作导致的数据倾斜，我们采用加盐（salting）技术。识别出热点key后，给这些key添加随机前缀（如user_1扩展为user_1_0到user_1_9），将热点数据分散到多个分区并行处理，非热点数据正常处理，最后聚合去除前缀。"

方案二：Map Join（广播小表）

# 小表广播
small_df = spark.read.parquet("small_table.parquet")  # 100MB
large_df = spark.read.parquet("large_table.parquet")   # 1TB

# 广播小表，避免shuffle
from pyspark.sql.functions import broadcast

result = large_df.join(broadcast(small_df), "key")

原理： 将小表复制到每个executor内存中，大表不shuffle

适用场景： 小表 < 1GB

方案三：两阶段聚合

# 第一阶段：局部聚合（带随机后缀）
df_with_salt = df.withColumn(
    "key_salt",
    concat(col("key"), lit("_"), floor(rand() * 10))
)

stage1 = df_with_salt.groupBy("key_salt") \
    .agg(sum("value").alias("partial_sum"))

# 第二阶段：全局聚合（去掉后缀）
stage2 = stage1.withColumn(
    "key", regexp_extract(col("key_salt"), r"^(.*)_.*$", 1)
).groupBy("key").agg(sum("partial_sum").alias("total_sum"))

方案四：采样预处理

# 先采样识别热点key
sample_df = df.sample(0.01, seed=42)  # 1%采样
hot_keys = sample_df.groupBy("key") \
    .count() \
    .filter(col("count") > threshold) \
    .select("key") \
    .collect()

# 单独处理热点key
hot_df = df.join(broadcast(hot_keys), "key", "inner")
normal_df = df.join(broadcast(hot_keys), "key", "left_anti")

第五部分：大数据技术栈选型（实战应用）

5.1 完整技术栈架构

┌─────────────────────────────────────────────────────────────┐
│                        应用层                               │
│  BI报表、实时监控、数据挖掘、机器学习                         │
└─────────────────────────────────────────────────────────────┘
                              │
┌─────────────────────────────────────────────────────────────┐
│                        计算层                               │
│  Spark（批处理）│ Flink（实时）│ Presto/ClickHouse（交互查询）│
└─────────────────────────────────────────────────────────────┘
                              │
┌─────────────────────────────────────────────────────────────┐
│                        存储层                               │
│  HDFS（文件存储）│ HBase（NoSQL数据库）│ Kafka（消息队列）│
└─────────────────────────────────────────────────────────────┘
                              │
┌─────────────────────────────────────────────────────────────┐
│                        资源层                               │
│  YARN/K8s（资源调度）│ ZooKeeper（协调服务）                │
└─────────────────────────────────────────────────────────────┘

5.2 各组件详解

Hadoop HDFS（分布式文件系统）

核心概念：

NameNode： 管理元数据（文件名、位置）
DataNode： 存储实际数据
Block： 默认128MB一个块
副本： 默认3副本

面试回答：

"HDFS是大数据存储的基础，采用主从架构。NameNode管理文件系统元数据，DataNode存储实际数据。数据分块存储（默认128MB），多副本机制保证容错。通过机架感知策略实现副本跨机架分布，提高可靠性。适合存储PB级静态数据。"

Hive（数据仓库）

作用： SQL -> MapReduce/Spark

-- Hive SQL
CREATE TABLE orders (
    order_id BIGINT,
    user_id BIGINT,
    amount DECIMAL(10,2),
    create_time TIMESTAMP
)
PARTITIONED BY (dt STRING)  -- 按日期分区
CLUSTERED BY (user_id) INTO 100 BUCKETS;  -- 按用户分桶

-- 查询（自动转换为Spark任务）
SELECT user_id, SUM(amount)
FROM orders
WHERE dt = '2024-01-01'
GROUP BY user_id;

分区 vs 分桶：	特性	分区
目的	按维度拆分数据	均匀分布数据
查询优化	裁剪分区	优化join
数量	不宜过多	固定数量
示例	dt='2024-01-01'	user_id % 100

ClickHouse（OLAP数据库）

为什么快？

列式存储 + 向量化执行
稀疏索引（每8192行一个标记）
分区分桶策略
预聚合（MaterializedView）

表设计：

-- 主表（ClickHouse MergeTree引擎）
CREATE TABLE events (
    event_time DateTime,
    user_id UInt64,
    event_type String,
    properties String
)
ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_time)  -- 按月分区
ORDER BY (event_time, user_id)      -- 排序键
SETTINGS index_granularity = 8192;  -- 索引粒度

-- 物化视图（预聚合）
CREATE MATERIALIZED VIEW events_daily
ENGINE = AggregatingMergeTree()
AS SELECT
    toDate(event_time) as date,
    user_id,
    event_type,
    count() as count
FROM events
GROUP BY date, user_id, event_type;

面试回答：

"对于PB级数据的高性能分析查询，我们选择ClickHouse。它的优势包括：列式存储只读取查询列，压缩率高；MergeTree引擎支持分区和排序；稀疏索引大幅减少扫描范围；物化视图预聚合加速常用查询；支持高并发查询。适合用户行为分析、实时报表等场景。"

HBase（NoSQL数据库）

适用场景： 随机读写、实时查询

// RowKey设计（很重要！）
// 正确：反转时间戳，避免热点
rowkey = userID + "_" + Long.MAX_VALUE - timestamp

// 错误：时间戳在前，新数据集中在少数region
rowkey = timestamp + "_" + userID  // ❌ 会导致热点region

面试问题：如何设计HBase RowKey避免热点？

回答：

"HBase RowKey设计要考虑数据分布均匀性和查询效率。避免热点的方法：1）使用哈希或MD5前缀打散数据；2）时间戳字段放在后面或使用反转；3）固定长度的用户ID在前面，方便范围查询；4）避免使用递增ID作为RowKey前缀。"

第六部分：实战案例（面试题库）

案例1：处理10亿条用户行为日志，统计每个用户的PV/UV

问题分析：

数据量：10亿条 × 100字节 = 100GB
需要统计：每个用户的PV（访问次数）、UV（唯一访客数）

解决方案：

from pyspark.sql import SparkSession, functions as F

spark = SparkSession.builder \
    .appName("UserBehaviorAnalysis") \
    .config("spark.sql.shuffle.partitions", "200") \
    .getOrCreate()

# 1. 读取数据（使用Parquet格式，列式存储+压缩）
logs = spark.read.parquet("hdfs://logs/user_behavior/")

# 2. 预处理：过滤无效数据
logs_clean = logs.filter(
    (F.col("user_id").isNotNull()) &
    (F.col("event_time").isNotNull())
)

# 3. PV统计：按用户分组计数
pv_stats = logs_clean.groupBy("user_id") \
    .agg(F.count("*").alias("pv")) \
    .orderBy(F.desc("pv"))

# 4. UV统计：按用户+日期去重后计数
uv_stats = logs_clean.withColumn("date", F.to_date(F.col("event_time"))) \
    .dropDuplicates(["user_id", "date"]) \
    .groupBy("user_id") \
    .agg(F.count("*").alias("uv"))

# 5. 合并结果
result = pv_stats.join(uv_stats, "user_id", "left")

# 6. 存储结果
result.write.parquet("hdfs://result/user_stats/")

优化点：

使用Parquet格式（列式存储+压缩）
设置合理的shuffle分区数
先过滤再聚合，减少处理数据量
使用缓存避免重复计算

面试回答：

"处理10亿条日志，我们使用Spark进行分布式计算。首先将日志按日期分区存储在HDFS上，使用Parquet格式提高读取效率。Spark任务配置200个executor并行处理。统计PV使用groupBy+count，统计UV使用dropDuplicates去重。通过合理设置shuffle分区数、使用列式存储、缓存中间结果等优化手段，可在30分钟内完成。"

案例2：千万级用户画像构建（ETL流水线）

业务场景：

用户基础信息：1亿用户，MySQL
用户行为日志：每天10亿条，Kafka
需要计算：用户偏好标签、活跃度、价值评分

架构设计：

MySQL（用户表） -> Spark Batch -> 用户画像宽表
      ↘
Kafka（行为日志） -> Flink Realtime -> 实时更新画像

代码实现：

# 批处理：每天更新一次
def batch_update_user_profile():
    # 1. 读取用户基础信息
    users = spark.read.jdbc(url, "users")

    # 2. 读取最近30天行为日志
    logs = spark.read.parquet("hdfs://logs/dt=*") \
        .filter(F.col("date") >= F.date_sub(F.current_date(), 30))

    # 3. 计算用户标签
    user_tags = logs.groupBy("user_id") \
        .agg(
            F.collect_set("category").alias("categories"),
            F.sum(F.when(F.col("action") == "purchase", 1).otherwise(0)).alias("purchase_count"),
            F.countDistinct(F.col("date")).alias("active_days")
        )

    # 4. 计算用户价值评分
    user_value = user_tags.withColumn(
        "value_score",
        F.col("purchase_count") * 10 + F.col("active_days") * 2
    )

    # 5. 更新到HBase
    user_value.write.format("org.apache.hadoop.hbase.spark") \
        .option("hbase.table", "user_profile") \
        .save()

实时处理： 使用Flink增量更新

// Flink DataStream处理实时行为
DataStream<UserBehavior> stream = env
    .addSource(new FlinkKafkaConsumer<>(...))
    .keyBy(UserBehavior::getUserId)
    .process(new UserProfileUpdater());  // 状态更新

// 自定义函数更新用户画像
public class UserProfileUpdater extends KeyedProcessFunction<Long, UserBehavior, UserProfile> {
    private ValueState<UserProfile> profileState;

    @Override
    public void processElement(UserBehavior event, Context ctx, Collector<UserProfile> out) {
        UserProfile profile = profileState.value();

        // 更新用户画像
        profile.updateCategory(event.getCategory());
        profile.incrementActionCount(event.getAction());

        // 输出更新
        out.collect(profile);

        // 更新状态
        profileState.update(profile);
    }
}

面试回答：

"用户画像构建采用Lambda架构，批处理层使用Spark每天全量计算，实时层使用Flink增量更新。批处理处理全量历史数据，计算准确；实时处理新数据，保证时效性。用户画像存储在HBase中，支持快速随机读取。通过两套处理流程结合，既保证准确性又保证时效性。"

案例3：电商大促实时监控（处理QPS 10万+）

场景： 双11大促，需要实时监控各项指标

指标需求：

实时GMV（成交金额）
实时订单量
TOP10热销商品
各地区实时销量

技术方案：

// Flink实时计算
DataStream<Order> orders = env
    .addSource(new KafkaSource("orders"))
    .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor<>(Time.seconds(5)));

// 1. 实时GMV（5秒窗口）
DataStream<Double> gmv = orders
    .window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
    .aggregate(new GMVAggregator())
    .addSink(new RedisSink("realtime:gmv"));

// 2. TOP10热销商品（全局聚合）
DataStream<Tuple2<String, Long>> topProducts = orders
    .map(o -> new Tuple2<>(o.getProductId(), 1L))
    .keyBy(0)
    .window(SlidingProcessingTimeWindows.of(Time.minutes(5), Time.seconds(10)))
    .sum(1)
    .windowAll(TumblingProcessingTimeWindows.of(Time.seconds(5)))
    .process(new TopN(10));

// 3. 地区销量（按地区keyBy）
DataStream<Tuple2<String, Long>> regionSales = orders
    .keyBy(Order::getRegion)
    .window(TumblingProcessingTimeWindows.of(Time.minutes(1)))
    .sum("amount");

存储方案：

实时指标：Redis（写入快，查询快）
历史数据：ClickHouse（持久化存储，支持分析）

// Redis存储（用于Dashboard展示）
public class RedisSink implements SinkFunction<Double> {
    @Override
    public void invoke(Double value, Context context) {
        Jedis jedis = new Jedis("redis-host");
        jedis.setex("realtime:gmv", 10, String.valueOf(value));
        jedis.close();
    }
}

面试回答：

"大促实时监控使用Flink进行流式计算，采用5秒滚动窗口计算实时GMV，5分钟滑动窗口计算TOP10热销商品。计算结果写入Redis供Dashboard展示，同时写入ClickHouse做历史分析。通过水位线处理乱序数据，背压机制防止积压，exactly-once语义保证数据准确性。整体延迟控制在秒级。"

案例4：日志分析平台架构（PB级日志处理）

场景： 全公司业务日志，每天新增1TB，需要提供查询和分析

架构设计：

业务应用
    ↓
Filebeat/Logstash（日志采集）
    ↓
Kafka（日志缓冲）
    ↓
┌───────────────┬──────────────┐
│   Flink       │   Spark      │
│ 实时监控      │ 离线分析     │
└───────┬───────┴──────┬───────┘
        ↓              ↓
    Elasticsearch    ClickHouse
    （全文搜索）    （统计分析）

核心组件：

1. Kafka（消息队列）

# Kafka配置（应对高吞吐）
num.partitions: 10           # 分区数
replication.factor: 3       # 副本数
retention.ms: 86400000      # 保留1天
compression.type: lz4       # 压缩

2. Elasticsearch（日志全文检索）

{
  "index_patterns": ["logs-*"],
  "settings": {
    "number_of_shards": 10,
    "number_of_replicas": 1,
    "refresh_interval": "30s",
    "index.codec": "best_compression"
  },
  "mappings": {
    "properties": {
      "@timestamp": {"type": "date"},
      "level": {"type": "keyword"},
      "message": {"type": "text"},
      "service": {"type": "keyword"}
    }
  }
}

3. ClickHouse（日志统计分析）

CREATE TABLE system_logs (
    timestamp DateTime Date,
    level String,
    service String,
    message String,
    thread_id UInt64,
    request_id String
)
ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(timestamp)
ORDER BY (timestamp, service, level);

查询优化：

-- 按时间范围查询（利用分区裁剪）
SELECT service, level, count(*) as cnt
FROM system_logs
WHERE timestamp >= now() - INTERVAL 1 HOUR
GROUP BY service, level;

-- 全文检索（使用ClickHouse的tokenbf_v1）
SELECT *
FROM system_logs
WHERE hasTokenBF(message, 'ERROR') = 1;

面试回答：

"日志分析平台采用ELK+ClickHouse架构。Kafka作为缓冲层解耦采集和消费；Elasticsearch提供全文检索能力，支持关键字搜索；ClickHouse负责统计分析，提供聚合查询能力。通过双写策略，日志同时写入ES和ClickHouse，满足不同查询需求。ES按日期分片，ClickHouse按时间分区，优化查询性能。"

第七部分：面试题库（逐题分析）

面试题1：你处理过最大的数据量是多少？

回答模板：

"我处理过TB级数据（虽然没到PB，但原理相同）。我们采用分布式计算架构，使用Spark处理每天500GB的日志数据，通过合理的数据分片、并行度设置和倾斜处理，将处理时间从4小时优化到30分钟。关键点包括：列式存储压缩减少I/O、设置合理的shuffle分区数、使用广播变量减少shuffle、识别并处理数据倾斜。处理PB级数据的核心思想是一样的，只是增加更多节点和优化资源配置。"

面试题2：如何处理数据倾斜？

回答模板（完整版）：

"数据倾斜是大数据处理中最常见的问题，我会从以下几个方面处理：

1. 识别倾斜： 通过Spark UI查看各任务执行时间，发现明显差异的任务即为倾斜。

2. 处理空值： 将空值或默认值替换为随机值或特殊值，避免集中到同一分区。

3. Join倾斜：

如果是小表，使用广播join避免shuffle

如果是热点key，使用加盐技术添加随机前缀打散

两阶段聚合：先局部聚合（带随机后缀），再全局聚合

4. GroupBy倾斜：

同样使用加盐技术

采样识别热点key，单独处理

5. 调整并行度： 增加shuffle分区数，让更多节点分担数据

实际项目中，通过这些方法将倾斜任务的执行时间从1小时降低到10分钟。"

面试题3：Hive分区和分桶的区别？

回答模板：

"分区和分桶都是Hive的数据组织方式，但目的不同：

分区：

按列的值将数据拆分到不同目录

例如按日期分区，每个日期一个目录

查询时利用分区裁剪，只扫描需要的目录

分区数量不宜过多，太多会有大量小文件问题

分桶：

按列的哈希值将数据分散到固定数量的文件中

例如按user_id分100个桶

目的是均匀分布数据，优化join性能

桶的数量是固定的

结合使用： 通常先分区（大范围），再分桶（小范围），既利用分区裁剪又保证数据分布均匀。"

面试题4：Spark为什么比MapReduce快？

回答模板：

"Spark比MapReduce快主要有以下几个原因：

1. 内存计算： Spark将中间结果放在内存中，MapReduce每次都需要写磁盘

2. DAG执行引擎： Spark基于DAG优化任务执行，将多个操作合并到一个Stage中，减少shuffle次数

3. 线程模型： Spark每个executor可以运行多个task，MapReduce每个task一个进程

4. 零拷贝序列化： Spark使用Kryo序列化，减少序列化开销

5. 惰性执行： Transformations只在Actions触发时才执行，允许优化器优化执行计划

实际测试中，同样的数据处理任务，Spark比MapReduce快10-100倍。"

面试题5：如何设计一个日增1TB的数据仓库？

回答模板：

"日增1TB的数据仓库，我会这样设计：

1. 存储层：

使用HDFS作为底层存储，Hive作为数据仓库

数据分层：ODS（原始层）、DWD（明细层）、DWS（汇总层）、ADS（应用层）

按日期分区，每天一个分区

2. 数据格式：

ODS层：原始格式，直接拷贝

DWD层：Parquet格式，列式存储+压缩

DWS/ADS层：ORC格式，压缩率更高

3. 计算引擎：

使用Spark进行ETL处理

合理设置executor数量和内存

处理数据倾斜

4. 调度系统：

使用Airflow或DolphinScheduler调度任务

失败重试机制

监控告警

5. 查询引擎：

即席查询使用Presto/ClickHouse

报表查询使用Hive on Spark

通过这样的架构，可以在4小时内完成每日ETL，支持秒级查询。"

面试题6：ClickHouse为什么这么快？

回答模板：

"ClickHouse之所以快，主要得益于以下几个方面：

1. 列式存储： 只读取查询需要的列，减少I/O

2. 数据压缩： 同类型数据压缩率高，减少磁盘占用和I/O

3. 稀疏索引： 每8192行一个索引标记，大幅减少扫描范围

4. 向量化执行： 一次处理一批数据，充分利用CPU缓存和SIMD指令

5. 预聚合： 物化视图预先聚合，查询直接读取聚合结果

6. 多线程并行： 充分利用多核CPU

7. 分区分桶： 合理的分区和排序策略，优化查询性能

实际项目中，单表20亿行数据，复杂聚合查询可以在几秒内完成。"

面试题7：如何设计一个实时统计系统？

回答模板：

"实时统计系统我会这样设计：

1. 数据采集： 使用Filebeat/Flume采集日志，发送到Kafka

2. 流处理： 使用Flink进行实时计算

使用事件时间+水位线处理乱序

窗口聚合计算实时指标

使用状态管理保存中间结果

3. 结果存储：

Redis：存储实时结果，供Dashboard展示

ClickHouse：持久化存储，支持历史查询

4. 一致性保证： 使用exactly-once语义保证数据不丢不重

5. 容错机制： Checkpoint定期保存状态，故障自动恢复

6. 监控告警： 监控延迟、吞吐量、任务状态

通过这样的架构，可以实现秒级延迟的实时统计，支持高并发查询。"

面试题8：Flink的窗口有哪些类型？

回答模板：

"Flink提供了多种窗口类型：

1. 滚动窗口：

时间固定，不重叠

例如：每5分钟一个独立窗口

2. 滑动窗口：

窗口大小固定，有重叠

例如：窗口5分钟，滑动1分钟

3. 会话窗口：

根据数据活跃度动态划分

例如：用户30分钟无操作则窗口关闭

4. 全局窗口：

所有数据在一个窗口

需要手动触发

时间语义：

处理时间：事件到达系统的时间

事件时间：事件实际发生的时间（需要水位线）

实际项目中，对于可能乱序的数据，使用事件时间+水位线；对于简单实时统计，使用处理时间即可。"

面试题9：HDFS的读写流程是什么？

回答模板（完整版）：

"HDFS写流程：

客户端调用create()请求创建文件

NameNode检查权限和文件是否存在

客户端将数据切分成block（默认128MB）

对于每个block，NameNode分配DataNode列表

客户端建立第一个DataNode的pipeline

DataNode1接收数据后传给DataNode2，形成传输链

数据写入完成后，客户端向NameNode提交

HDFS读流程：

客户端调用open()请求读取文件

NameNode返回文件的block位置信息

客户端找到最近的DataNode读取数据

读取失败时自动从副本读取

校验数据完整性

容错机制： 心跳检测、副本机制、数据校验"

面试题10：Kafka为什么吞吐量高？

回答模板：

"Kafka的高吞吐量主要来自以下设计：

1. 顺序写： 磁盘顺序写比随机写快很多

2. 零拷贝： 使用sendfile系统调用，数据直接从磁盘到网卡

3. 页缓存： 利用操作系统的页缓存

4. 批量发送： 生产者批量发送消息，减少网络请求

5. 分区并行： 多个分区并行读写，充分利用多核

6. 不强制等待ACK： 可配置acks=0/1/all，平衡性能和可靠性

实际项目中，单Kafka集群可以支持百万级TPS。"

第八部分：快速记忆卡片

核心概念速记

【大数据4V】
Volume（量多）、Velocity（快）、Variety（杂）、Value（价值）

【处理核心】
分而治之、并行计算

【数据倾斜解决】
加盐、广播、两阶段聚合

【Spark优化】
内存计算、DAG、广播变量、合理分区

【ClickHouse快的原因】
列式存储、稀疏索引、向量化、预聚合

【Flink窗口】
滚动、滑动、会话、全局

技术选型决策树

需要处理数据？
├─ 批处理？
│  ├─ 交互式查询 → ClickHouse/Presto
│  └─ ETL处理 → Spark
└─ 实时处理？
   ├─ 低延迟 → Flink
   └─ 消息队列 → Kafka

需要存储数据？
├─ 随机读写 → HBase/Cassandra
├─ 全文检索 → Elasticsearch
├─ 分析查询 → ClickHouse/Druid
└─ 消息缓冲 → Kafka

第九部分：动手实验（强烈推荐！）

实验1：本地运行Spark（无需集群）

# 安装pyspark
pip install pyspark

# 本地运行WordCount
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("LocalWordCount") \
    .master("local[*]") \
    .getOrCreate()

# 创建测试数据
data = ["hello world", "hello spark", "hello big data"]
rdd = spark.sparkContext.parallelize(data)

# 词频统计
result = rdd.flatMap(lambda x: x.split()) \
    .map(lambda x: (x, 1)) \
    .reduceByKey(lambda a, b: a + b) \
    .collect()

for word, count in result:
    print(f"{word}: {count}")

实验2：使用Docker启动ClickHouse

# 启动ClickHouse
docker run -d \
    --name clickhouse \
    -p 8123:8123 \
    -p 9000:9000 \
    clickhouse/clickhouse-server

# 插入测试数据
docker exec -it clickhouse clickhouse-client \
  --query="CREATE TABLE test (id UInt32, name String) ENGINE = MergeTree() ORDER BY id"

docker exec -it clickhouse clickhouse-client \
  --query="INSERT INTO test VALUES (1, 'Alice'), (2, 'Bob')"

# 查询
docker exec -it clickhouse clickhouse-client \
  --query="SELECT * FROM test"

实验3：Docker启动Kafka

# 启动Kafka和Zookeeper
docker-compose up -d

# 创建topic
docker exec -it kafka kafka-topics.sh \
  --create --topic test --bootstrap-server localhost:9092 --partitions 3

# 发送消息
docker exec -it kafka kafka-console-producer.sh \
  --topic test --bootstrap-server localhost:9092

# 消费消息
docker exec -it kafka kafka-console-consumer.sh \
  --topic test --bootstrap-server localhost:9092 --from-beginning

第十部分：学习路线图

阶段1：基础理解（1周）

[ ] 理解大数据4V特征
[ ] 理解分布式计算思想
[ ] 掌握数据分片策略
[ ] 理解行式vs列式存储

阶段2：核心技术（2周）

[ ] MapReduce原理
[ ] Spark核心概念和编程
[ ] 数据倾斜处理
[ ] Spark调优

阶段3：技术栈深入（2周）

[ ] HDFS架构
[ ] Hive分区分桶
[ ] ClickHouse表设计和查询优化
[ ] Kafka原理和使用

阶段4：实时计算（1周）

[ ] Flink基础
[ ] Flink窗口和水位线
[ ] 状态管理
[ ] 实时架构设计

阶段5：实战项目（2周）

[ ] 日志分析平台设计
[ ] 用户画像构建
[ ] 实时监控系统
[ ] 数据仓库设计

阶段6：面试准备（1周）

[ ] 背诵10个核心面试题回答
[ ] 练习设计3个完整方案
[ ] 模拟面试

结语

记住几个关键点：

核心思想： 分而治之、并行计算
存储优化： 列式存储、压缩、分区分桶
计算优化： 减少shuffle、处理倾斜、合理分区
技术选型： 根据场景选择合适的技术

面试时，先说架构图，再展开讲细节，最后说优化。你不需要做过PB级数据，只要理解原理和设计思路，就能给出令人信服的答案！

最重要的是：自信！ 这些技术都是为了解决特定问题，理解问题本质，技术就很容易掌握。

大数据量处理PB级 - 从零到精通

课程目标

第一部分：大数据基础概念（必须先懂这个！）

1.1 什么是大数据？

1.2 为什么单机无法处理PB级数据？

1.3 大数据处理的核心思想

第二部分：数据存储架构（数据放哪里？）

2.1 数据分片策略（面试高频！）

策略一：哈希分片

策略二：范围分片

策略三：地理位置分片

策略四：复合分片

2.2 数据分层存储（成本优化必问！）

2.3 列式存储 vs 行式存储（面试必问！）

第三部分：分布式计算框架（怎么算？）

3.1 MapReduce 思想（大数据鼻祖，必须懂！）

3.2 Spark（现代大数据计算框架）

RDD（弹性分布式数据集）

Spark SQL（结构化数据处理）

Spark调优参数（面试必问！）

3.3 Flink（实时计算框架）

第四部分：数据倾斜处理（面试杀手锏！）

4.1 什么是数据倾斜？

4.2 数据倾斜的原因

4.3 解决方案（面试必背！）

方案一：添加随机前缀打散热点Key

方案二：Map Join（广播小表）

方案三：两阶段聚合

方案四：采样预处理

第五部分：大数据技术栈选型（实战应用）

5.1 完整技术栈架构

5.2 各组件详解

Hadoop HDFS（分布式文件系统）

Hive（数据仓库）

ClickHouse（OLAP数据库）

HBase（NoSQL数据库）

第六部分：实战案例（面试题库）

案例1：处理10亿条用户行为日志，统计每个用户的PV/UV

案例2：千万级用户画像构建（ETL流水线）

案例3：电商大促实时监控（处理QPS 10万+）

案例4：日志分析平台架构（PB级日志处理）

第七部分：面试题库（逐题分析）

面试题1：你处理过最大的数据量是多少？

面试题2：如何处理数据倾斜？

面试题3：Hive分区和分桶的区别？

面试题4：Spark为什么比MapReduce快？

面试题5：如何设计一个日增1TB的数据仓库？

面试题6：ClickHouse为什么这么快？

面试题7：如何设计一个实时统计系统？

面试题8：Flink的窗口有哪些类型？

面试题9：HDFS的读写流程是什么？

面试题10：Kafka为什么吞吐量高？

第八部分：快速记忆卡片

核心概念速记

技术选型决策树

第九部分：动手实验（强烈推荐！）

实验1：本地运行Spark（无需集群）

实验2：使用Docker启动ClickHouse

实验3：Docker启动Kafka

第十部分：学习路线图

阶段1：基础理解（1周）

阶段2：核心技术（2周）

阶段3：技术栈深入（2周）

阶段4：实时计算（1周）

阶段5：实战项目（2周）

阶段6：面试准备（1周）

结语

林清扬