首页 > 资讯AI

放大招！OpenAI发布最强推理模型o3以及精简版o3-mini

文章来源：放心AI网发布时间：2025-05-17 14:54:48

OpenAI在其为期12天的发布活动中宣布了新一代推理系列模型——o3及其精简版o3-mini，这两款模型被视为o1系列的继任者，特别设计为在回答问题前进行更深入的思考以提高准确率。

o3模型在ARC-AGI基准测试中达到了优良水平，成为首个突破该基准的AI模型，展现了接近人类水平的问题求解能力。o3系列模型在ARC-AGI基准上的最低性能可达到75.7%，而在更多计算资源的情况下，性能可提升至87.5%。

o3-mini模型则专注于提升推理速度和降低成本，同时保持模型性能，特别适合编程任务。OpenAI计划在一月底左右推出o3-mini，并在不久后推出完整的o3模型。尽管o3系列模型不会直接公开发布，而是先进行安全测试，但OpenAI已开始允许安全研究人员注册访问o3和o3-mini的预览。

在编程和数学问题解决方面，o3模型展现了显著的能力。在SWE-bench Verified基准上，o3的准确率约为71.7%，比o1模型高出20%以上。在Competition Code中，o3获得了2727Elo得分，而o1仅为1891。此外，o3在竞赛数学上的准确率达到96.7%，在GPQA Diamond上的准确率达到87.7%，比o1高出近10%。

OpenAI还介绍了一种新的安全评估方法——deliberative alignment，即审议式对齐，这是一种直接教授模型安全规范的新范式，并可训练模型在回答前明确回忆规范并准确地执行推理。这种方法被用于对齐OpenAI的o系列模型，并实现了对OpenAI安全政策的高度精确遵守。

目前，OpenAI正在推进外部安全测试，并已在网站上开放早期访问申请，申请者需填写在线表格并提供相关信息。选定的研究人员将被授予访问o3和o3-mini的权限，以探索它们的能力并为安全评估做出贡献。

轻松搭建多模态AI应用！阿里云百炼大模型服务平台上线「音视频实时互动」功能

上一篇: 轻松搭建多模态AI应用！阿里云百炼大模型服务平台上线「音视频实时互动」功能

阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能，使用户能够轻松搭建多模态AI应用，无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中，并与他人分享。用户可以通过简单

相关攻略更多

热门核心AI更多

最新资讯更多

笔灵AI论文写作

笔灵AI论文写作

核心AI

更新时间：2025-03-21