文章来源:放心AI网发布时间:2025-05-17 14:54:48
OpenAI在其为期12天的发布活动中宣布了新一代推理系列模型——o3及其精简版o3-mini,这两款模型被视为o1系列的继任者,特别设计为在回答问题前进行更深入的思考以提高准确率。
o3模型在ARC-AGI基准测试中达到了优良水平,成为首个突破该基准的AI模型,展现了接近人类水平的问题求解能力。o3系列模型在ARC-AGI基准上的最低性能可达到75.7%,而在更多计算资源的情况下,性能可提升至87.5%。
o3-mini模型则专注于提升推理速度和降低成本,同时保持模型性能,特别适合编程任务。OpenAI计划在一月底左右推出o3-mini,并在不久后推出完整的o3模型。尽管o3系列模型不会直接公开发布,而是先进行安全测试,但OpenAI已开始允许安全研究人员注册访问o3和o3-mini的预览。
在编程和数学问题解决方面,o3模型展现了显著的能力。在SWE-bench Verified基准上,o3的准确率约为71.7%,比o1模型高出20%以上。在Competition Code中,o3获得了2727Elo得分,而o1仅为1891。此外,o3在竞赛数学上的准确率达到96.7%,在GPQA Diamond上的准确率达到87.7%,比o1高出近10%。
OpenAI还介绍了一种新的安全评估方法——deliberative alignment,即审议式对齐,这是一种直接教授模型安全规范的新范式,并可训练模型在回答前明确回忆规范并准确地执行推理。这种方法被用于对齐OpenAI的o系列模型,并实现了对OpenAI安全政策的高度精确遵守。
目前,OpenAI正在推进外部安全测试,并已在网站上开放早期访问申请,申请者需填写在线表格并提供相关信息。选定的研究人员将被授予访问o3和o3-mini的权限,以探索它们的能力并为安全评估做出贡献。
相关攻略 更多
最新资讯 更多
放大招!OpenAI发布最强推理模型o3以及精简版o3-mini
更新时间:2025-05-17
轻松搭建多模态AI应用!阿里云百炼大模型服务平台上线「音视频实时互动」功能
更新时间:2025-05-17
AIGC深度参与影视制作:探索创作边界推动技术革新和产业创新
更新时间:2025-05-17
荣耀互联网服务:乘着AI浪潮,以创新服务及优质体验缔造科技未来
更新时间:2025-05-17
AI造假术!揭秘这项技术背后的真相
更新时间:2025-05-17
“人工智能·赋能未来”2024观畴智谷项目路演系列活动顺利举办
更新时间:2025-05-17
AI如何改变传媒业?这场大会学界业界人士热议
更新时间:2025-05-17
戴尔创始人迈克尔·戴尔:不担心AIPC遇冷,产品更新通常会被低估
更新时间:2025-05-17
从软件定义汽车到AI定义汽车,AI如何重构汽车产业
更新时间:2025-05-17
海通证券:AIASIC有望迎来爆发式增长,关注产业链投资机会
更新时间:2025-05-17