文章来源:放心AI网发布时间:2025-06-18 14:24:11
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。
以往,对新 AI 模型的比较往往比较复杂,因为各个提供商使用自己的 API、数据格式和基准设置,导致评估效率低下且难以进行。因此,LMEval 应运而生,它通过标准化评估流程,使得一旦设置好基准,就能轻松地将其应用于任何支持的模型,几乎无需额外工作。
LMEval 不仅支持文本评估,还扩展到了图像和代码的评估。谷歌表示,用户可以轻松添加新的输入格式。系统能够处理多种评估类型,包括是非题、多选题和自由文本生成。同时,LMEval 能够识别 “推脱策略”,即模型故意给出模棱两可的答案以避免生成有问题或风险的内容。
该系统在 LiteLLM 框架上运行,能够平滑处理谷歌、OpenAI、Anthropic、Ollama 和 Hugging Face 等不同提供商的 API 差异。这意味着相同的测试可以在多个平台上运行,而无需重新编写代码。一个突出的特点是增量评估,用户无需每次都重新运行整个测试套件,而只需执行新增的测试,这不仅节省了时间,也降低了计算成本。此外,LMEval 还使用多线程引擎加快计算速度,能够并行运行多个计算。
谷歌还提供了一个名为 LMEvalboard 的可视化工具,用户可以利用该仪表板分析测试结果。通过生成雷达图,用户可以查看模型在不同类别上的表现,并深入探讨个别模型的表现。该工具支持用户进行模型间的比较,包括在特定问题上的并排图形显示,方便用户了解不同模型的差异。
LMEval 的源代码和示例笔记本已经在 GitHub 上公开,供广大开发者使用和研究。
项目:https://github.com/google/lmeval
相关攻略 更多
最新资讯 更多
谷歌推出LMEval:统一评估大语言与多模态模型的新工具
更新时间:2025-06-18
GPT-4o语音模式全新升级:唱歌功能上线,AI交互进入新境界
更新时间:2025-06-18
Claude即将大升级!百万字符上下文+记忆功能,AI交互要逆天了!
更新时间:2025-06-18
OpenAI发布健康领域AI评估基准数据集HealthBench
更新时间:2025-06-18
UAV-Flow项目突破无人机控制,语言指令实现精准飞行
更新时间:2025-06-18
OpenAI在韩国设立分公司,掀起AI热潮
更新时间:2025-06-18
KyutaiUnmute发布!10秒定制语音,AI对话进入超低延迟时代!
更新时间:2025-06-18
苏州成立60亿元人工智能母基金,助力产业转型升级
更新时间:2025-06-18
全球首例!阿联酋全民免费使用ChatGPTPlus,AI国际化战略重大里程碑
更新时间:2025-06-18
阿里巴巴发布QwenLong-L1-32B:长上下文推理模型震撼登场,性能逼近Claude-3.7
更新时间:2025-06-18