文章来源:放心AI网发布时间:2025-05-18 13:03:48
上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。
Judge Copilot功能利用强大的评价模型Compass-Judger-1-32B-Instruct,为用户提供全方位对比分析对话模型表现的能力,从**度评价、实时对比到智能决策辅助,使主观评测更精准、高效。此外,榜单算法进行了全新升级,对原始的Bradley-Terry统计算法进行改进,引入控制变量降低混淆因素的影响,使模型排名更科学、精准。新增的模型涵盖国内外商业模型及开源模型,丰富了对战体验。
CompassArena高度重视Judge模型在实际应用中的表现,并积极收集用户反馈以进一步提升Judge模型的综合能力和对齐效果。用户可以通过点击“赞”和“踩”按钮来表达他们对Judge模型的评价。通过拟合包含控制变量的Bradley-Terry统计模型,CompassArena能够估计众多外在因素的影响程度,具体影响程度可以通过几率比的形式表达。
此次升级,CompassArena迎来了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等国内商业模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等国外商业模型和一系列开源模型的加入。新增模型所属机构包括360、DeepSeek、豆包等,为用户提供更丰富的对战选择。
体验地址:https://www.modelscope.cn/studios/opencompass/CompassArena
相关攻略 更多
最新资讯 更多
大模型评测平台CompassArena升级推出全新JudgeCopilot功能
更新时间:2025-05-18
分析师:微软或计划投资Anthropic,AI竞争格局再洗牌!
更新时间:2025-05-18
国家电网与阿里、百度发布电力千亿级大模型“光明电力大模型”
更新时间:2025-05-18
闪极AI拍拍镜正式发布:售价999元起接入多家大模型
更新时间:2025-05-18
人工智能开启视听新篇章
更新时间:2025-05-18
全国报业同行齐聚上海观察“AI+传媒”,他们在观察什么?
更新时间:2025-05-18
四川长虹:将以AI人工智能和创新硬件为主线推进技术创新
更新时间:2025-05-18
中国工程院院士孙凝晖给正国级、副国级讲课的万字长稿《人工智能与智能计算的发展》
更新时间:2025-05-18
AI将如何改变城市?数智城市创新创业大赛彰显美好前景
更新时间:2025-05-18
人工智能如何重塑传媒内容生产模式?这场沙龙上,从业者热议
更新时间:2025-05-18