大模型 SFT、RM、RL 等算法原理及应用场景
一、SFT(Supervised Fine-Tuning,监督微调) 1. 原理 核心思路:基于已有的大模型(通常是预训练语言模型),在标注好的高质量指令数据集上进行监督学习。 训练目标:最小化模型输…
目标 路径 时间 结果 信息 定位 闭环 复盘 精力 极限 稳态 框架
一、SFT(Supervised Fine-Tuning,监督微调) 1. 原理 核心思路:基于已有的大模型(通常是预训练语言模型),在标注好的高质量指令数据集上进行监督学习。 训练目标:最小化模型输…
在人工智能时代快速发展的今天,大语言模型(如GPT系列、Claude、Gemini等)虽强大,但如果没有“对齐”,它们就像一匹脱缰的野马——会跑,但不一定往你希望的方向跑。于是,RLHF(Reinfo…
上一篇,我们通过一个项目讲解了“实战 5 步”的前两步。在第一步“定义问题”中,我们定义了要处理的问题,也就是根据点赞数和转发数等指标,估计一篇文章能实现多大的浏览量。同时我们还将它归类为回归问题;在…
什么是机器学习 这个问题其实不好回答,因为机器学习涵盖的内容太多了。 机器学习之父 Arthur Samuel 对机器学习的定义是:在没有明确设置的情况下,使计算机具有学习能力的研究领域。 国际机器学…