文章来源:放心AI网发布时间:2025-04-17 11:10:44
阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型(LLM)家族成员——QwQ-32B。这款拥有320亿参数的推理模型,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。
据介绍,QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。这意味着该模型可用于商业和研究目的,企业能够直接将其应用于产品和应用,包括那些收费的服务。个人用户也可以通过Qwen Chat访问该模型。
QwQ,全称Qwen-with-Questions,是阿里巴巴于2024年11月首次推出的开源推理模型,目标是与OpenAI的o1-preview竞争。最初的QwQ通过在推理过程中审查和改进自身答案来增强逻辑推理和规划能力,尤其在数学和编码任务中表现出色。
此前的QwQ拥有320亿参数和32,000tokens的上下文长度,并在AIME和MATH等数学基准测试以及GPQA等科学推理任务中超越了o1-preview。然而,早期版本的QwQ在LiveCodeBench等编程基准测试中表现相对较弱,并且面临语言混合和偶尔的循环论证等挑战。
尽管如此,阿里巴巴选择以Apache2.0许可证发布该模型,使其与OpenAI的o1等专有替代方案区分开来,允许开发者和企业自由地进行适配和商业化。随着AI领域的发展,传统LLM的局限性日益显现,大规模扩展带来的性能提升逐渐减缓,这推动了对**大型推理模型(LRM)**的兴趣。LRM通过推理时推理和自我反思来提高准确性,例如OpenAI的o3系列和DeepSeek-R1。
最新的QwQ-32B通过整合强化学习和结构化自我提问,进一步提升了性能,旨在成为推理AI领域的重要竞争者。QwQ团队的研究表明,强化学习可以显著提高模型解决复杂问题的能力。QwQ-32B采用了多阶段强化学习训练方法,以增强数学推理、编码能力和通用问题解决能力.
在基准测试中,QwQ-32B与DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B等领先模型展开了竞争,并在参数量小于部分竞品的情况下取得了有竞争力的结果。例如,DeepSeek-R1拥有6710亿参数(激活370亿),而QwQ-32B在性能相当的情况下,显存需求更小,通常在GPU上需要24GB vRAM,而运行完整的DeepSeek R1则需要超过1500GB vRAM。
QwQ-32B采用了因果语言模型架构,并进行了多项优化,包括64个Transformer层、RoPE、SwiGLU、RMSNorm和Attention QKV bias。它还采用了广义查询注意力(GQA),拥有131,072tokens的扩展上下文长度,并经历了包括预训练、监督微调和强化学习在内的多阶段训练。
QwQ-32B的强化学习过程分为两个阶段:首先专注于数学和编码能力,利用准确性验证器和代码执行服务器进行训练。第二阶段则通过通用奖励模型和基于规则的验证器进行奖励训练,以提高指令跟随、人类对齐和代理推理能力,同时不影响其数学和编码能力。
QwQ-32B还具备agentic capabilities,能够根据环境反馈动态调整推理过程。Qwen团队建议使用特定的推理设置以获得最佳性能,并支持使用vLLM进行部署。
Qwen团队将QwQ-32B视为通过扩展强化学习增强推理能力的第一步,未来计划进一步探索扩展强化学习、整合代理与强化学习以实现长期推理,并持续开发为强化学习优化的基础模型,最终迈向通用人工智能(AGI)。
模型:https://qwenlm.github.io/blog/qwq-32b/
上一篇: Monica团队出品全能AI智能体Manus爆了,Manus邀请码怎么搞?
日前近日,Monica 团队推出了一款名为 “Manus” 的通用 AI 智能代理工具爆火,由于目前还需要邀请码才能使用,众多网友正寻求获取Manus邀请码。Manus 的核心能力在于其强大的任务分解与自主执行能力。该智能体采用
下一篇: 报道称OpenAI将推高端“博士级”AI智能体,月费用高达2万美元
据外媒The Information报道称,OpenAI 即将推出一款名为 “博士级” AI 智能体,这一智能体的月费可能高达2万美元(约合14 5万元人民币)。这一消息引起了广泛关注,特别是在学术研究和软件开发领域,许多人对此充
相关攻略 更多
最新资讯 更多
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06
商汤日日新融合大模型交互版开放商用实时音视频对话限时免费
更新时间:2025-05-06