文章来源:放心AI网发布时间:2025-05-16 13:55:28
Qwen团队近日宣布开源其最新研发的多模态推理模型QVQ,标志着人工智能在视觉理解和复杂问题解决能力方面迈出了重要一步。该模型基于Qwen2-VL-72B构建,旨在通过结合语言和视觉信息,提升AI的推理能力。在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著的性能提升。
QVQ模型在视觉推理任务中展现出了特别的优势,特别是在需要复杂分析思维的领域。尽管QVQ-72B-Preview表现出色,但团队也指出了模型存在的一些局限性,包括语言混合和代码切换问题、可能陷入循环逻辑模式、安全和伦理考虑以及性能和基准限制。团队强调,尽管模型在视觉推理方面有所改善,但它无法完全替代Qwen2-VL-72B的能力,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
Qwen团队在四个数据集上对QVQ-72B-Preview进行了评估,包括MMMU、MathVista、MathVision和OlympiadBench,这些数据集旨在考察模型在视觉相关的综合理解和推理能力。QVQ-72B-Preview在这些基准测试中表现出色,有效缩小了与领先模型之间的差距。
为了进一步展示QVQ模型在视觉推理任务中的应用,Qwen团队提供了几个示例,并分享了技术博客的链接。此外,团队还提供了模型推理的代码示例,以及如何使用魔搭API-Inference直接调用QVQ-72B-Preview模型的方法。魔搭平台的API-Inference为QVQ-72B-Preview模型提供了支持,用户可以通过API调用的方式直接使用该模型。
模型链接:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
体验链接:
https://modelscope.cn/studios/Qwen/QVQ-72B-preview
中文博客:
https://qwenlm.github.io/zh/blog/qvq-72b-preview
相关攻略 更多
最新资讯 更多
阿里通义千问Qwen开源视觉推理模型QVQ-72B-Preview
更新时间:2025-05-16
面壁智能与追知工科达成战略合作合作开发工业AI垂域模型
更新时间:2025-05-16
讯飞星火浏览器插件新升级新增翻译总结、继续提问等AI功能
更新时间:2025-05-16
投资三家机器人公司后OpenAI欲自研人形机器人
更新时间:2025-05-16
人工智能发展哪家强?社科院蓝皮书:中美欧三极格局未变,但这一领域势头强劲
更新时间:2025-05-16
银行App迭代升级,人工智能加持下的运维之战
更新时间:2025-05-16
加强人工智能与制造业融合发展,这场大赛在沪举行
更新时间:2025-05-16
谷歌正利用Claude评测GeminiAI引发合规争议
更新时间:2025-05-16
唐文方:人工智能的挑战与机遇
更新时间:2025-05-16
跨越速运获2024物流与供应链“人工智能+”挑战赛特等奖
更新时间:2025-05-16