文章来源:放心AI网发布时间:2025-05-06 18:24:36
最新研究显示,尽管人工智能在编程和内容创作等领域表现出色,但在处理复杂的历史问题时仍显不足。近期在NeurIPS会议上公布的一项研究表明,即使是最先进的大型语言模型(LLM)在历史知识测试中也难以取得令人满意的成绩。
研究团队开发了名为Hist-LLM的测试基准,对OpenAI的GPT-4、Meta的Llama和谷歌的Gemini三款顶级语言模型进行评估。测试基于Seshat全球历史数据库进行,结果令人失望:表现最佳的GPT-4Turbo准确率仅为46%。
图源备注:图片由AI生成,图片授权服务商Midjourney
伦敦大学学院副教授玛丽亚·德尔里奥-查诺纳解释说:"这些模型在基本史实方面表现不错,但在涉及博士级别的深入历史研究时却力不从心。"研究发现AI经常在细节上出错,比如错误判断古埃及某些时期是否拥有特定军事技术或常备军。
研究人员认为,这种表现欠佳源于AI模型倾向于从主流历史叙事中进行推断,难以准确把握更为细微的历史细节。此外,研究还发现这些模型在处理撒哈拉以南非洲等地区的历史问题时表现更差,暴露出训练数据可能存在的偏差问题。
复杂性科学中心(CSH)的研究负责人Peter Turchin表示,这一发现说明在某些专业领域,AI尚无法取代人类专家。不过研究团队仍对AI在历史研究中的应用前景保持乐观,他们正在改进测试基准,以期帮助开发出更优秀的模型。
相关攻略 更多
最新资讯 更多
历史知识成AI软肋:大型语言模型难解复杂历史问题
更新时间:2025-05-06
香港大学与快手科技联合推出GameFactory框架,助力游戏视频生成创新
更新时间:2025-05-06
为了让人类多活10年OpenAI推出新模型GPT-4bmicro
更新时间:2025-05-06
PerplexityAI出手竞购TikTok,提出创新合并方案
更新时间:2025-05-06
AI编码助手CursorB轮融资1.05亿美元
更新时间:2025-05-06
Windsurf发布Wave2版本:支持联网和存储上下文
更新时间:2025-05-06
AIGC应用月活跃用户破亿,豆包独占市场一半
更新时间:2025-05-06
北汽极狐阿尔法S5迎来重磅OTA升级:AI大模型2.0和哨兵模式闪亮登场
更新时间:2025-05-06
苹果全新邮件应用即将登陆Mac,带来AI智能分类功能
更新时间:2025-05-06
AI基准组织因未及时披露OpenAI资金遭批评
更新时间:2025-05-06