来源:https://x.com/imxiaohu/status/1900123906876522625
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
技术报告:https://github.com/Qihoo360/Light-R1/blob/main/Light-R1.pdf
发布并开源了其推理模型:Light-R1-14B-DS
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
而且开源了模型的SFT数据、代码以及技术报告。
这是业界首次在 14B 模型上复现强化学习效果,提高了其数学推理能力。成绩超越绝大多数 32B 级模型
相比 DeepSeek-R1-14B,Light-R1-14B-DS 在 AIME24 提高了 4.3 分,在 AIME25 提高了 10 分!
📢 在数学推理任务 GPQA 上也表现优异,达到 61.7 分!
Light-R1-14B-DS 采用了两种训练方法:
1️⃣ Curriculum SFT(渐进式监督微调)
• 分阶段训练,让 AI 先学简单数学,再学复杂问题
• 进一步提高模型的数学逻辑推理能力
2️⃣ 强化学习(RL)
• 首次成功在 14B 级别 推理模型上应用 RL
• 进一步提升推理准确率,且其他技能基本不掉点