360智脑团队宣布他们成功复现了Deepseek的强化学习效果

内容纲要

来源：https://x.com/imxiaohu/status/1900123906876522625
项目地址：https://github.com/Qihoo360/Light-R1
模型地址：https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址：https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
技术报告：https://github.com/Qihoo360/Light-R1/blob/main/Light-R1.pdf

发布并开源了其推理模型：Light-R1-14B-DS

性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。

而且开源了模型的SFT数据、代码以及技术报告。

这是业界首次在 14B 模型上复现强化学习效果，提高了其数学推理能力。成绩超越绝大多数 32B 级模型

相比 DeepSeek-R1-14B，Light-R1-14B-DS 在 AIME24 提高了 4.3 分，在 AIME25 提高了 10 分！

📢 在数学推理任务 GPQA 上也表现优异，达到 61.7 分！

Light-R1-14B-DS 采用了两种训练方法：

1️⃣ Curriculum SFT（渐进式监督微调）
• 分阶段训练，让 AI 先学简单数学，再学复杂问题
• 进一步提高模型的数学逻辑推理能力

2️⃣ 强化学习（RL）
• 首次成功在 14B 级别推理模型上应用 RL
• 进一步提升推理准确率，且其他技能基本不掉点

林清杨