标签：强化学习

一、SFT（Supervised Fine-Tuning，监督微调） 1. 原理核心思路：基于已有的大模型（通常是预训练语言模型），在标注好的高质量指令数据集上进行监督学习。训练目标：最小化模型输…

account_circle 林清杨 schedule2025年3月23日folder_open2025, AI

在人工智能时代快速发展的今天，大语言模型（如GPT系列、Claude、Gemini等）虽强大，但如果没有“对齐”，它们就像一匹脱缰的野马——会跑，但不一定往你希望的方向跑。于是，RLHF（Reinfo…

上一篇，我们通过一个项目讲解了“实战 5 步”的前两步。在第一步“定义问题”中，我们定义了要处理的问题，也就是根据点赞数和转发数等指标，估计一篇文章能实现多大的浏览量。同时我们还将它归类为回归问题；在…

什么是机器学习这个问题其实不好回答，因为机器学习涵盖的内容太多了。机器学习之父 Arthur Samuel 对机器学习的定义是：在没有明确设置的情况下，使计算机具有学习能力的研究领域。国际机器学…