大模型 SFT、RM、RL 等算法原理及应用场景
一、SFT(Supervised Fine-Tuning,监督微调) 1. 原理 核心思路:基于已有的大模型(通常是预训练语言模型),在标注好的高质量指令数据集上进行监督学习。 训练目标:最小化模型输…
目标 路径 时间 结果 信息 定位 闭环 复盘 精力 极限 稳态 框架
一、SFT(Supervised Fine-Tuning,监督微调) 1. 原理 核心思路:基于已有的大模型(通常是预训练语言模型),在标注好的高质量指令数据集上进行监督学习。 训练目标:最小化模型输…
RAG(Retrieval-Augmented Generation,检索增强生成)是当前构建强大问答系统和知识对齐模型的核心范式。它结合了「信息检索」和「生成式模型」的优点,极大提升了 LLM(大语…