文章来源:放心AI网发布时间:2025-06-07 10:24:13
最近,一项由 OpenAI 进行的研究显示,尽管人工智能技术飞速发展,当前最先进的语言模型在回答事实问题时的成功率却远低于预期。
研究采用了 OpenAI 自家的 SimpleQA 基准测试,这个测试包含了4,326个,涵盖了科学、**和艺术等多个领域,每个问题都有一个明确的正确答案。
经过两名独立评审员的验证,结果显示,OpenAI 最好的模型 o1-preview 的准确率仅为42.7%,而 GPT-4o 则略低,只有38.2%。至于更小的 GPT-4o-mini,准确率甚至只有8.6%。相比之下,Anthropic 的 Claude 模型表现得更差,Claude-3.5-sonnet 的正确率仅为28.9%。
这项研究的关键在于测试的设计,不仅仅是为了测试 AI 的表现,还为了让大家认识到 AI 模型在知识获取方面的局限性。研究者强调,用户在使用这些模型时,应该将其视为信息处理工具,而不是完全依赖的知识来源。为了获得更准确的回答,最好能为 AI 提供可靠的数据,而不是单纯依赖其内置的知识。
值得注意的是,AI 模型对自身能力的估计往往过于乐观。研究人员发现,当这些模型被要求对自己的回答进行信心评分时,它们通常会给出夸大的准确性评分。在重复回答相同问题的测试中,即使模型多次给出相同答案,它们的实际成功率也仍低于其自我评估的准确性。这与外界对语言模型常常产生荒谬回答却显得信心满满的批评一致。
研究者认为,当前的 AI 系统在事实准确性上存在明显的缺口,亟需改进。同时,他们也提出了一个开放性问题:AI 在回答简短事实问题的表现是否能预测其在处理更长、更复杂回答时的表现。为了支持更可靠的语言模型的开发,OpenAI 已经将 SimpleQA 基准测试的资料公开发布到 Github 上。
相关攻略 更多
最新资讯 更多
最新研究:AI模型在回答事实问题时表现拉胯,GPT-4o准确率才38.2%
更新时间:2025-06-07
别小看它!英伟达HOVER神经网络:在虚拟训练中仅用50分钟就能控制机器人
更新时间:2025-06-07
英伟达AI小模型掌控人形机器人,1.5M参数完胜专业系统
更新时间:2025-06-07
人工智能初创公司Sana获得5500万美元融资估值达到5亿美元
更新时间:2025-06-07
波士顿动力新款Atlas机器人:全电动、完全自主,成功完成复杂任务
更新时间:2025-06-06
微软AI业务增长创历史新高,六个月用户翻番,年化收入将破百亿美元
更新时间:2025-06-06
谷歌旗下Waymo利用Gemini模型提升无人驾驶技术
更新时间:2025-06-06
字节,悄咪咪做了个Liblib
更新时间:2025-06-06
谷歌Gemini分屏功能全面扩展,多款安卓平板和折叠屏设备获支持
更新时间:2025-06-06
迪士尼推全新AI图像压缩方法:能保留图片细节,却有“幻觉”风险
更新时间:2025-06-06