AI在高级历史考试中表现不佳：GPT-4Turbo准确率仅46%

文章来源：放心AI网发布时间：2025-05-01 10:10:06

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。

图源备注：图片由AI生成，图片授权服务商Midjourney

为了评估这些模型在历史知识上的表现，研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库，旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智能会议 NeurIPS 上公布，数据显示，表现最佳的 GPT-4Turbo 的准确率仅为46%。这一结果显示，其表现仅比随机猜测稍好。

伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“尽管大型语言模型令人印象深刻，但它们在高级历史知识方面的理解深度仍显不足。它们擅长处理简单的事实，但在应对更复杂的历史问题时却显得无能为力。” 例如，当询问古埃及某一特定时期是否存在鳞甲时，GPT-4Turbo 错误地回答 “存在”，而实际情况是这种技术在1500年后才出现。此外，当研究者询问古埃及是否拥有职业常备军时，GPT-4也错误地回答 “有”，而实际答案是没有。

研究还揭示出，模型在处理一些特定区域（如撒哈拉以南非洲）的问题时表现较差，这表明其训练数据可能存在一定偏见。研究负责人 Peter Turchin 指出，这些结果反映了在某些领域，LLMs 仍无法替代人类。