文章来源:放心AI网发布时间:2025-04-02 15:29:43
近日,Arc Prize基金会推出了一项新测试——ARC-AGI-2,该测试旨在评估人工智能(AI)模型的通用智能水平。该基金会由AI研究领域的知名人士François Chollet共同创立。据基金会博客介绍,这项新测试对众多领先的AI模型构成了严峻挑战。
根据Arc Prize排行榜显示,“推理型”AI模型,如OpenAI的o1-pro和DeepSeek的R1,在ARC-AGI-2测试中的得分仅介于1%至1.3%之间。而更为强大的非推理模型,例如GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash,其得分也大约只有1%。ARC-AGI测试包含了一系列拼图问题,要求AI从不同颜色的方块中识别视觉模式,并生成正确的“答案”网格。这些问题的设计目的是迫使AI适应其未曾遭遇过的新问题。
为了确立人类基准,Arc Prize基金会邀请了400余人参与ARC-AGI-2测试。这些人的平均得分为60%,显著超过了任何AI模型的得分。Chollet在社交媒体上表示,相较于前一个版本ARC-AGI-1,ARC-AGI-2能更有效地衡量AI模型的实际智能。新测试旨在评估AI系统是否能高效地掌握超出其训练数据范围的新技能。
与ARC-AGI-1相比,ARC-AGI-2在设计上进行了多方面的改进,尤其是引入了“效率”这一新指标,并要求模型在不依赖记忆的情况下即时解释模式。正如Arc Prize基金会的共同创始人Greg Kamradt所言,智力不仅体现在解决问题的能力上,效率同样至关重要。
值得注意的是,在ARC-AGI-1中以75.7%的得分独占鳌头的OpenAI的o3模型,直到2024年才被其他模型超越。然而,在ARC-AGI-2中,o3的得分却大幅下降至4%,且每个任务的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的AI进展衡量标准的需求日益迫切之际。Hugging Face的联合创始人Thomas Wolf曾指出,AI行业缺乏足够的测试来衡量被称为人工通用智能的关键特征,包括创造力。
同时,Arc Prize基金会还宣布了2025年的Arc Prize竞赛,该竞赛将挑战开发者在ARC-AGI-2测试中实现85%的准确率,且每个任务的成本需控制在0.42美元以内。
相关攻略 更多
最新资讯 更多
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06
商汤日日新融合大模型交互版开放商用实时音视频对话限时免费
更新时间:2025-05-06