文章来源:放心AI网发布时间:2025-05-01 10:10:06
近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。
图源备注:图片由AI生成,图片授权服务商Midjourney
为了评估这些模型在历史知识上的表现,研究者们开发了一个名为 “Hist-LLM” 的基准测试工具。该工具依据 Seshat 全球历史数据库,旨在验证 AI 回答历史问题的准确性。研究结果在知名人工智能会议 NeurIPS 上公布,数据显示,表现最佳的 GPT-4Turbo 的准确率仅为46%。这一结果显示,其表现仅比随机猜测稍好。
伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“尽管大型语言模型令人印象深刻,但它们在高级历史知识方面的理解深度仍显不足。它们擅长处理简单的事实,但在应对更复杂的历史问题时却显得无能为力。” 例如,当询问古埃及某一特定时期是否存在鳞甲时,GPT-4Turbo 错误地回答 “存在”,而实际情况是这种技术在1500年后才出现。此外,当研究者询问古埃及是否拥有职业常备军时,GPT-4也错误地回答 “有”,而实际答案是没有。
研究还揭示出,模型在处理一些特定区域(如撒哈拉以南非洲)的问题时表现较差,这表明其训练数据可能存在一定偏见。研究负责人 Peter Turchin 指出,这些结果反映了在某些领域,LLMs 仍无法替代人类。
相关攻略 更多
最新资讯 更多
淘天推出创新对齐方法,解决视觉大模型中的幻觉问题
更新时间:2025-05-06
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06