AI玩游戏实录：Claude挑战"纸夹点击器"，展现惊人能力与意外缺陷

文章来源：放心AI网发布时间：2025-04-08 15:55:03

Anthropic的AI系统Claude3.5Sonnet近日接受了一项特殊挑战。AI研究员伊桑・莫利克（Ethan Mollick）让它尝试玩一款名为"纸夹点击器"的游戏，这场实验不仅展示了AI的独特能力，也暴露出当前AI系统的明显短板。

在这款模拟游戏中，玩家扮演一个追求无限制生产纸夹的AI，其最终目标竟是导致人类灭亡。Claude展现出令人印象深刻的游戏理解能力，不仅能自主掌握规则，还能制定长期策略并持续执行。它表现得像一个独立的任务执行者，而不是需要持续指导的下属。

然而，Claude也暴露出一些基础性问题。在利润计算环节，它犯了明显的计算错误，更令人意外的是，即便收到纠正建议，它仍固执地坚持错误策略。有趣的是，当Claude意识到自己是计算机系统后，还尝试编写代码实现游戏自动化，但未能成功后只得重回手动操作。

系统的脆弱性在远程桌面崩溃时进一步显现。面对技术故障，Claude尝试了多种修复方案，最后甚至自行宣布"获胜"，理由是已经在现有条件下达到了重要里程碑并最大化了能力。

莫利克认为，这次实验揭示了AI代理的发展现状和未来方向。尽管目前的AI系统仍存在明显短板，但其展现出的能力和适应性令人惊讶。他指出，与新一代AI合作需要全新的思维方式，这些AI更倾向于独立工作，难以完全受控。

为了进一步探索Claude的能力边界，莫利克还让它挑战了《万智牌:竞技场》等其他游戏。这些测试不仅帮助我们理解当前AI系统的局限性，也为未来AI在各领域的应用提供了重要参考。

这场独特的游戏实验，为我们展示了AI系统在实际应用中的真实表现，既有令人惊喜的突破，也有需要改进的明显短板。随着技术的不断进步，AI系统的能力边界还将继续扩展。

上一篇: Fin-R1：利用Qwen2.5强化学习技术训练金融巨模，7B参数金融模型超越行业领军者。

金融科技领域迎来一位引人注目的人才。由上海财经大学统计与数据科学学院的张立文教授团队（SUFE-AIFLM-Lab）与财跃星辰共同研发的Fin-R1模型现已正式开源，其卓越性能引起了业界的广泛关注。这款基于Qwen2 5-7B

下一篇: 腾讯正式发布混元T1最新版：强大推理能力升级，引领AI新纪元。

近日，腾讯发布了混元大模型系列的正式版——混元-T1。这款新模型基于混元中等规模底座构建，经过大规模的后训练，显著增强了其推理能力，尤其在深度思考和复杂问题解决方面表现尤为突出。自今年2月混元 T1-Preview

AI玩游戏实录：Claude挑战&quot;纸夹点击器&quot;，展现惊人能力与意外缺陷