文章来源:放心AI网发布时间:2025-05-28 10:54:26
Meta 最近发布了一项全新的基准测试,名为 Multi-IF,旨在评估大语言模型(LLM)在多轮对话和多语言环境下的指令遵循能力。这一基准覆盖了八种语言,包含4501个三轮对话任务,重点探讨了当前模型在复杂多轮和多语言场景中的表现。
在现有的评估标准中,大多数集中于单轮对话和单语言任务,难以全面反映模型在实际应用中的表现。而 Multi-IF 的推出正是为了填补这一空白。研究团队通过将单轮指令扩展为多轮指令,生成了复杂的对话场景,并确保每一轮指令在逻辑上连贯、递进。此外,数据集还通过自动翻译和人工校对等步骤实现了多语言支持。
实验结果显示,大多数 LLM 在多轮对话中的表现显著下降。以 o1-preview 模型为例,其在第一轮的平均准确率为87.7%,但到了第三轮下降至70.7%。特别是在非拉丁文字的语言中,如印地语、俄语和中文,模型的表现普遍低于英语,显示出在多语言任务上的局限性。
在对14种前沿语言模型的评估中,o1-preview 和 Llama3.1405B 表现最佳,三轮指令的平均准确率分别为78.9% 和78.1%。然而,在多轮对话中,所有模型的指令遵循能力普遍下降,反映出模型在复杂任务中的挑战。研究团队还引入了 “指令遗忘率”(IFR)来量化模型在多轮对话中的指令遗忘现象,结果显示高性能模型在这方面的表现相对较好。
Multi-IF 的发布为研究人员提供了一个具有挑战性的基准,推动了 LLM 在全球化和多语言应用中的发展。这一基准的推出,不仅揭示了当前模型在多轮、多语言任务中的不足,也为未来改进提供了明确方向。
论文:https://arxiv.org/html/2410.15553v2
相关攻略 更多
最新资讯 更多
Meta推出全新Multi-IF基准,挑战多轮多语言指令遵循能力
更新时间:2025-05-28
小学二年级数学水平就能理解ChatGPT原理?神经网络大揭秘
更新时间:2025-05-28
IDC:到2025年,中国生成式AI软件市场规模将达35.4亿美元
更新时间:2025-05-28
AnyMindGroup成立AIAppStudio,全面布局生成式AI应用开发
更新时间:2025-05-28
英国大臣警告称,俄罗斯正密谋利用人工智能加强对英国的网络攻击
更新时间:2025-05-28
SalesforceCEO:AI未来在于自主智能体而非大语言模型
更新时间:2025-05-28
万物皆可一键毛茸茸!阿里通义App上线“局部风格化”功能
更新时间:2025-05-28
阿里国际AI团队开源开放型问题推理模型Marco-o1
更新时间:2025-05-28
持续聚焦AI战略!FF将在2025年初更换股票代码为FFAI
更新时间:2025-05-28
AI“撞脸”国粹,80万人次青少年在这场嘉年华中走近人工智能
更新时间:2025-05-28