内容纲要
一、SFT(Supervised Fine-Tuning,监督微调)
1. 原理
- 核心思路:基于已有的大模型(通常是预训练语言模型),在标注好的高质量指令数据集上进行监督学习。
- 训练目标:最小化模型输出与参考答案之间的差异(通常用交叉熵损失)。
- 本质:把大模型从“会预测下一个词”调整为“会按人类需求完成任务”。
2. 应用场景
- 指令遵循:让模型学会回答问答、写作、摘要、翻译等任务。
- 行业定制:金融、医疗、法律等领域的专有数据微调,提高专业性。
- 对齐起点:为后续 RM、RLHF 提供初始可用的模型。
二、RM(Reward Model,奖励模型)
1. 原理
- 数据来源:通过人类反馈(Human Feedback)收集不同回答的偏好排序(如:答案 A 比答案 B 更好)。
- 训练目标:输入(prompt + 输出) → 打分(Reward),本质是一个排序回归问题。
- 作用:把“人类的偏好”形式化成一个可学习的奖励信号。
2. 应用场景
- 人类偏好建模:如更礼貌、更简洁、更安全的回答。
- 多维目标:不仅能偏好“准确性”,还能加入“安全性”“无害性”等维度。
- 作为 RL 的奖励函数:是 RLHF(强化学习人类反馈)的关键。
三、RL(Reinforcement Learning,强化学习)
这里主要指 RLHF(Reinforcement Learning with Human Feedback)。
1. 原理
-
过程:
- 基础模型 → 经过 SFT 训练 → 拥有初步指令能力;
- 收集人类偏好 → 训练 RM;
- 使用 PPO(Proximal Policy Optimization) 等 RL 算法,在 RM 的奖励信号下优化语言模型的输出策略。
- 目标:在探索输出空间时,生成更符合人类偏好的结果。
2. 应用场景
- 对齐人类价值观:避免输出有害内容(政治敏感、歧视等)。
- 提升对话体验:更有逻辑、更流畅、更具可读性。
- 复杂任务优化:比如代码生成、推理、多步任务。
四、三者关系
可以把 SFT → RM → RL 看成一个“三部曲”:
- SFT:让模型“会用” → 有基础任务能力。
- RM:让模型“知道人类想要什么” → 偏好函数。
- RL(RLHF):让模型“学会取悦人类” → 策略优化。
一句话总结:
- SFT:让模型有“基本功”。
- RM:教模型“什么是好”。
- RLHF:让模型“做得更好”。
五、扩展与变体
- DPO(Direct Preference Optimization):跳过 RL,用更简单的损失函数直接优化模型,使其输出符合人类偏好(比 RLHF 稳定)。
- RLAIF(Reinforcement Learning with AI Feedback):用 AI 代替人工进行偏好排序,降低人力成本。
- KTO(Kahneman-Tversky Optimization):另一种基于人类偏好的直接优化方法。
流程图(SFT→RM→RLHF)
下面花了一个 SFT → RM → RLHF 的流程图,直观展示它们的关系:
flowchart TD
A[预训练大模型<br/>Base Model] --> B[SFT<br/>监督微调]
B --> C[RM<br/>奖励模型]
C --> D[RLHF<br/>强化学习人类反馈]
subgraph SFT阶段
B1[高质量指令数据集]
B1 --> B
end
subgraph RM阶段
C1[人类反馈排序数据]
C1 --> C
end
subgraph RLHF阶段
D1[PPO / 强化学习算法]
D2[奖励信号来自 RM]
D1 --> D
D2 --> D
end
D --> E[对齐模型<br/>Aligned Model]
这个图的逻辑是:
- 基础大模型 → 通过 SFT 学会执行指令;
- 人类反馈 → 训练出 奖励模型 RM;
- RLHF(用 PPO 等) → 在 RM 的信号下优化模型策略;
- 最终得到 对齐后的大模型。
横向对比表格(SFT vs RM vs RLHF)
算法 | 核心原理 | 输入数据 | 优势 | 局限 | 典型应用 |
---|---|---|---|---|---|
SFT (监督微调) |
在标注的指令-答案对上做监督学习,最小化输出与参考答案的差异 | 指令数据集(Prompt → Label) | 快速赋予模型基础任务能力,降低幻觉,提升可控性 | 受限于数据质量,容易过拟合,不能覆盖复杂偏好 | 基础对话、问答、行业定制(金融、医疗等) |
RM (奖励模型) |
学习人类偏好,输入模型输出 → 给出打分 | 人类反馈排序数据(答案 A 比答案 B 好) | 能形式化人类价值观,多维度可扩展(安全、简洁、礼貌等) | 本身不生成内容,仅作为评分器,训练成本高 | 偏好建模、多维目标(安全性、无害性、实用性) |
RLHF (强化学习人类反馈) |
使用 RL(如 PPO),在 RM 的奖励信号下优化模型策略 | 奖励模型 RM + SFT 模型 | 输出更符合人类偏好,更流畅、更自然、更对齐 | 训练复杂,资源消耗大,稳定性差 | ChatGPT、Claude、Llama2-Chat 等对齐后的对话模型 |
👉 总结一句话:
- SFT 解决“能不能用”(基础技能)。
- RM 解决“好不好”(价值判断)。
- RLHF 解决“做得更好”(策略优化)。
时间线式的流程图(从预训练到对齐)
下面画了一个 时间线式流程图,把从预训练到对齐的全过程串起来:
timeline
title 大模型训练与对齐流程
section 预训练阶段
海量无监督语料 --> 预训练大模型(Base Model)
section 微调阶段
指令数据集(SFT) --> 监督微调模型(SFT Model)
section 奖励建模阶段
人类偏好排序数据 --> 训练奖励模型(RM)
section 强化学习阶段
SFT模型 + RM奖励信号 + PPO等RL算法 --> RLHF优化模型
section 最终产物
RLHF优化模型 --> 对齐后的大模型(Aligned Model)
这个图展示了一个时间轴:
- 预训练:学“通识”,从大规模语料获得语言能力;
- SFT:学“任务”,通过监督微调让模型能按指令执行;
- RM:学“偏好”,通过人类反馈建立奖励模型;
- RLHF:学“取悦”,在奖励信号下优化策略;
- Aligned Model:最终得到对齐后的可商用大模型。
扩展:**SFT → RM → RLHF → DPO / RLAIF 的进阶路线图
这个图可以看出业界的最新趋势,把传统的 SFT → RM → RLHF 和新兴的 DPO、RLAIF 串起来:
flowchart TD
A[预训练大模型<br/>Base Model] --> B[SFT<br/>监督微调]
B --> C[RM<br/>奖励模型]
C --> D[RLHF<br/>强化学习人类反馈]
%% 新方法分支
B --> E[DPO<br/>直接偏好优化]
C --> F[RLAIF<br/>AI反馈强化学习]
subgraph 传统路线
A --> B --> C --> D --> G[对齐模型<br/>Aligned Model]
end
subgraph 新兴路线
B --> E --> G
C --> F --> G
end
🔑 补充说明
-
传统路线(SFT → RM → RLHF)
- 稳定成熟,但训练流程复杂、成本高。
- 已广泛用于 ChatGPT、Claude、Llama2-Chat。
-
DPO(Direct Preference Optimization)
- 跳过 RL,直接在模型上优化人类偏好。
- 优点:更简单、更稳定,GPU 开销小。
- 代表:Anthropic、Meta 等都在用。
-
RLAIF(Reinforcement Learning with AI Feedback)
- 用 AI 模型替代人工进行偏好排序,降低成本。
- 优点:节省人力,扩展规模快。
- 代表:Google DeepMind(Gemini 系列)、Anthropic。
-
整体趋势
- 从复杂 → 简单(RLHF → DPO)。
- 从人力 → AI 自动化(RM 人工反馈 → RLAIF)。
RLHF vs DPO vs RLAIF 对比表
一眼看清三者的特点和适用场景
方法 | 核心思路 | 优势 | 局限 | 典型应用场景 |
---|---|---|---|---|
RLHF (Reinforcement Learning with Human Feedback) |
先训练 RM(奖励模型),再用 RL(如 PPO)在奖励信号下优化模型 | - 对齐效果好,能建模复杂偏好 - 已在业界广泛验证 |
- 训练流程复杂(SFT→RM→RLHF) - 成本高,需大量人类标注 - 训练不稳定 |
ChatGPT、Claude、Llama2-Chat 等主流对话模型 |
DPO (Direct Preference Optimization) |
直接基于人类偏好数据优化模型,无需 RL | - 算法简单,稳定性好 - GPU 开销小,易实现 |
- 对复杂偏好建模能力弱 - 效果略逊于 RLHF |
开源模型对齐(如 Hugging Face DPO 教程、LLaMA 社区实践) |
RLAIF (Reinforcement Learning with AI Feedback) |
用 AI 替代人类生成偏好数据,再配合 RL 或 DPO 优化 | - 降低人工成本 - 可快速扩展数据规模 |
- 依赖“教师 AI”的质量 - 可能引入 AI 偏差 |
Google DeepMind Gemini、Anthropic Claude 的实验方案 |
🔑 总结
- RLHF:效果最好,但最贵最复杂 → 适合大厂核心产品。
- DPO:更轻量,适合开源和中小团队 → 性价比高。
- RLAIF:趋势方向,减少人力依赖 → 未来可大规模替代人工反馈。