历史知识成AI软肋:大型语言模型难解复杂历史问题

文章来源：放心AI网发布时间：2025-05-06 18:24:36

最新研究显示，尽管人工智能在编程和内容创作等领域表现出色，但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明，即使是最先进的大型语言模型（LLM）在历史知识测试中也难以取得令人满意的成绩。

研究团队开发了名为Hist-LLM的测试基准，对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行，结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。

图源备注：图片由AI生成，图片授权服务商Midjourney

伦敦大学学院副教授玛丽亚·德尔里奥-查诺纳解释说:"这些模型在基本史实方面表现不错，但在涉及博士级别的深入历史研究时却力不从心。"研究发现AI经常在细节上出错，比如错误判断古埃及某些时期是否拥有特定军事技术或常备军。

研究人员认为，这种表现欠佳源于AI模型倾向于从主流历史叙事中进行推断，难以准确把握更为细微的历史细节。此外，研究还发现这些模型在处理撒哈拉以南非洲等地区的历史问题时表现更差，暴露出训练数据可能存在的偏差问题。

复杂性科学中心（CSH）的研究负责人Peter Turchin表示，这一发现说明在某些专业领域，AI尚无法取代人类专家。不过研究团队仍对AI在历史研究中的应用前景保持乐观，他们正在改进测试基准，以期帮助开发出更优秀的模型。

上一篇: 香港大学与快手科技联合推出GameFactory框架，助力游戏视频生成创新

在游戏开发领域，场景的多样性和创新性一直是一个难题。近期，香港大学与快手科技联手研发了一个名为 GameFactory 的创新框架，旨在解决游戏视频生成中的场景泛化问题。这一框架利用了预训练的视频扩散模型，能够