文章来源:放心AI网发布时间:2025-06-25 13:05:14
清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。
研究团队在数学、编码和视觉推理三大领域进行了系统性实验:
数学任务:在GSM8K、MATH500等基准测试中,RL模型在低采样次数(k值)下准确率提升,但在高k值时问题覆盖率显著下降编码任务:RLVR训练模型在HumanEval+等测试中单样本pass@1分数提高,但在高采样数(k=128)时覆盖率下降视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致,RL未改变其基本问题解决策略研究结果引发学界激烈讨论:
支持方认为RL提高了采样效率但限制了推理能力开发反对方指出可能是奖励结构缺陷而非RL本身问题中立观点建议结合蒸馏等其他方法增强推理研究团队提出关键区分:
能力:模型解决问题的潜质与逻辑链条效率:在给定能力范围内得出答案的速度与稳定性强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
这项研究为过热的大模型RL训练热潮敲响警钟,提示行业应:
更关注基础模型的表示能力与知识组织明确区分能力提升与效率优化的目标建立更科学的推理能力评估体系相关攻略 更多
最新资讯 更多
学术打假!清华上交大研究颠覆认知:强化学习竟是大模型推理的"绊脚石"
更新时间:2025-06-25
东风汽车发布“天元智能”技术品牌,助力智能化未来
更新时间:2025-06-25
百度上线“心响”App号称复杂任务全托管超级AI智能体
更新时间:2025-06-25
腾讯混元大模型AI阅读助手——企鹅读伴正式上线
更新时间:2025-06-25
腾讯混元3D生成模型正式发布2.5版本建模精细度大幅提升
更新时间:2025-06-25
字节跳动推出Vidi多模态模型,引领超长视频理解与编辑新潮流
更新时间:2025-06-25
AI文生图著作权首案落槌:简单提示词生成不构成作品
更新时间:2025-06-25
xAI推出GrokVision,开启视觉与多语言智能交互新篇章
更新时间:2025-06-25
中关村科金携手华为云推出新解决方案,助力行业大模型应用落地
更新时间:2025-06-25
小鹏汽车上海车展发布“AI大脑”,并启动智驾安全训练营
更新时间:2025-06-25