文章来源:放心AI网发布时间:2025-04-17 16:23:56
近日,字节跳动豆包大模型团队联合M-A-P开源社区发布SuperGPQA,一个覆盖285个研究生级学科、包含26,529道专业问题的知识推理基准测试。
该数据集不仅涵盖数学、物理等主流学科,还首次将轻工业、农业、服务科学等长尾学科纳入评估体系,填补了现有基准测试在长尾知识领域的空白。SuperGPQA已被用于揭示开源与闭源模型的性能差距,成为AI发展的重要工具。
传统基准如MMLU和GPQA学科覆盖不足50个,长尾学科占比不到5%,且因数据来源单一(如维基百科)和众包标注不可靠,难以衡量模型在复杂场景中的推理能力。SuperGPQA通过专家-LLM协同机制,从权威来源筛选问题,历时半年构建而成。其题目平均提供9.67个选项,42.33%需数学计算或形式推理,兼具广度与深度。实验显示,最优模型DeepSeek-R1准确率仅61.82%,表明当前大语言模型在多样知识领域仍有提升空间。
SuperGPQA采用三阶段流程提升质量:专家筛选原始问题、规范化转录、多层质量检验(规则过滤、LLM检测、专家复审)。评测结果表明,指令微调显著提升性能,如DeepSeek-V3得分超基础版,但开源模型在困难题目上仍落后闭源方案。
论文链接:https://arxiv.org/pdf/2502.14739
数据链接:https://huggingface.co/datasets/m-a-p/SuperGPQA
代码链接:https://github.com/SuperGPQA/SuperGPQA
上一篇: GPT-4.5崛起仅六小时便失宠,xAIGrok-3逆袭夺冠
OpenAI 的 GPT-4 5模型在刚刚发布后的六小时内,成功登顶人工智能竞技场,并成为全任务分类的第一名。然而,这一荣耀并未持续太久,马斯克的 xAI Grok-3模型迅速逆袭,反超成为总榜第一名。根据投票数据显示,GPT
下一篇: 中文开源图片模型终于来了!智谱霸气发布CogView4:中文prompt随便喂,汉字都能给你画出来!
还在苦苦寻觅能听懂中文的开源图片模型?现在,你可以彻底告别英文 prompt 的“束缚”了!国内 AI 巨头智谱 AI 霸气开源了全新文生图模型 CogView4,直接把中文图片生成技术推向了新高度! 这下,设计师们、内容创作者
相关攻略 更多
最新资讯 更多
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06
商汤日日新融合大模型交互版开放商用实时音视频对话限时免费
更新时间:2025-05-06