文章来源:放心AI网发布时间:2025-05-07 16:00:46
今天,阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸,性能表现均显著优于同类的开源过程奖励模型,尤其是在识别推理错误方面表现突出。
Qwen2.5-Math-PRM 的7B 版本令人惊讶地超越了业界广受欢迎的 GPT-4o,这一成就标志着阿里云在推理模型的研发上迈出了重要的一步。为了全面评估模型在数学推理中的表现,通义团队还开源了首个步骤级的评估标准 ——ProcessBench。这个评估标准涵盖了3400个数学问题测试案例,其中还包括国际奥林匹克数学竞赛的难度题目,每个案例均由人类专家标注了详细的推理过程,确保评估的科学性和全面性。
通过对 Qwen2.5-Math-PRM 在 ProcessBench 上的表现评估,研究团队发现,不论是72B 还是7B 尺寸的模型,均表现出色。特别是7B 版本,不仅超越了同尺寸的开源模型,甚至在某些方面还超过了闭源的 GPT-4o-0806。这证明了过程奖励模型(PRM)在提高推理可靠性方面的巨大潜力,并为未来推理过程监督技术的发展提供了新的思路。
阿里云通义团队的这项创新性工作,不仅推动了人工智能推理技术的进步,也为行业内其他开发者提供了宝贵的参考。通过开源的方式,通义团队希望能够与更多研究者共享经验,推动整个行业的技术进步。
相关攻略 更多
最新资讯 更多
阿里云发布全新数学推理模型Qwen2.5-Math-PRM,7B版本超越GPT-4o
更新时间:2025-05-07
IBM与欧莱雅合作开发首个可持续化妆品AI模型
更新时间:2025-05-07
Cerebras与梅奥诊所推出先进的基因组人工智能模型
更新时间:2025-05-07
谷歌公益推出3000万美元生成式AI加速器计划,助力非营利组织
更新时间:2025-05-07
张旭代表:把北京建设成人工智能赋能科学研究的全球中心城市
更新时间:2025-05-07
两会·新质观察团|寻找2025年人工智能应用掘金点
更新时间:2025-05-07
2025委员通道丨李涛:让人工智能跑出“河南加速度”
更新时间:2025-05-07
海信获得微软人工智能创新奖
更新时间:2025-05-07
中国人工智能产业规模5年后或超万亿,这两个行业渗透力居首
更新时间:2025-05-07
上海如何推进“人工智能+生物医药”创新高地建设?
更新时间:2025-05-07