文章来源:放心AI网发布时间:2025-04-12 14:12:18
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。
为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。
此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
相关攻略 更多
最新资讯 更多
AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿
更新时间:2025-04-29
百川智能推出国内首个全场景深度思考医疗大模型,革新医学推理方式
更新时间:2025-04-29
奥特曼加码长寿科技:RetroBiosciences欲筹10亿美元,挑战人类寿命极限
更新时间:2025-04-29
OpenAI新成立的PBC部门估值达300亿美元,微软投资股份尚未确定
更新时间:2025-04-29
扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU
更新时间:2025-04-29
德勤:企业在推行生成式AI项目上面临规模化挑战
更新时间:2025-04-29
AI基础设施争夺战愈演愈烈:OpenAI与微软的微妙关系
更新时间:2025-04-29
聊天机器人平台CharacterAI以第一修正案为由申请驳回与青少年自杀案的诉讼
更新时间:2025-04-29
Deezer日均上传超万首AI音乐,平台开始检测与标记
更新时间:2025-04-29
AI创业公司GameOn创始人与律师妻子被控6000万美元投资诈骗
更新时间:2025-04-29