首页 > 资讯AI

360智脑团队成功复现Deepseek强化学习效果，发布开源模型Light-R1-14B-DS

文章来源：放心AI网发布时间：2025-04-12 14:12:18

近日，360智脑团队宣布成功复现Deepseek的强化学习效果，并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B，成为业界首款在14B参数规模上实现强化学习效果的模型，显著提升了数学推理能力，成绩超过大多数32B级别模型。

与 DeepSeek-R1-14B 相比，Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分，在 AIME25中更是提高10分。此外，在数学推理任务 GPQA 上，该模型取得61.7分的优异成绩。

为实现这一突破，360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT（渐进式监督微调），通过分阶段训练，让模型从简单数学问题逐步过渡到复杂问题，进一步增强逻辑推理能力。其次是强化学习(RL)，首次在14B级别推理模型上成功应用，不仅提升推理准确率，还确保其他技能基本无损。

此次发布不仅包括模型本身，还开源了 SFT数据、代码及技术报告，为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展，或将推动AI推理能力的进一步普及与发展。

项目地址:https://github.com/Qihoo360/Light-R1

模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS

数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

OpenAI呼吁美国中央政府加强人工智能监管

上一篇: OpenAI呼吁美国中央政府加强人工智能监管

OpenAI 近日在对美国政府关于人工智能监管的咨询中表示，希望联邦政府能够主导 AI 的监管工作，而不是让各州制定更加严格的法规。该公司认为，统一的联邦监管能够促进美国在人工智能领域的创新，减少不同州之间法

富士康第四季度利润增长，AI服务器需求助力业绩回升

下一篇: 富士康第四季度利润增长，AI服务器需求助力业绩回升

富士康预计将在周五发布的财报中显示，第四季度的净利润同比增长2 35%。这一增长主要得益于对人工智能服务器的强劲需求。根据15位分析师的综合估计，富士康在10月至12月期间的净利润预计达到544亿新台币（约合16

相关攻略更多

热门核心AI更多

最新资讯更多

米羊写完啦

米羊写完啦

核心AI

更新时间：2025-04-14