文章来源:放心AI网发布时间:2025-05-22 14:53:30
在人工智能领域,后训练技术正逐渐成为提升模型性能的重要手段。近日,艾伦人工智能研究所(AI2)发布了 Tülu3系列模型,这是一套完全开源的先进语言模型,性能与 GPT-4o-mini 等闭源相媲美。Tülu3不仅包含了模型数据、代码、训练配方,还提供了评估框架,旨在推动开源模型后训练技术的发展。
传统上,仅经过预训练的模型往往无法有效满足实际应用需求,可能会产生有毒或危险的信息,且难以遵循人类指令。因此,后训练阶段如指令微调和人类反馈学习显得尤为重要。然而,如何优化后训练过程仍然是一个技术难题,尤其是在提升模型某一能力的同时,可能会影响到其他能力。
为了攻克这一难题,各大公司纷纷提升了后训练方法的复杂性,尝试多轮训练和结合人工与合成数据,但大部分方法仍为闭源。与之形成对比的是,Tülu3系列的发布,突破了开源模型和闭源模型之间的性能差距,带来了全新的训练思路。
Tülu3的训练过程分为四个阶段:数据构造、监督微调、偏好调整和可验证奖励的强化学习。
首先,研究人员聚焦于模型的核心技能,通过人工数据与合成数据的结合来构建训练数据。
其次,进行监督式微调,以确保模型在特定技能上的表现不逊色于其他先进模型。
第三,采用直接偏好优化的方法来进一步提升模型的整体表现。最后,创新引入可验证奖励强化学习的方法,帮助模型更好地完成可验证结果的任务。
Tülu3模型基于 Llama3.1的基础上进行构建,在推理、数学、编程和指令遵循等领域表现优异。与其他开源和闭源模型相比,Tülu3的综合能力在多个基准测试中表现出色,标志着开源后训练技术的一次重大进步。
论文链接:https://allenai.org/papers/tulu-3-report.pdf
Demo:https://playground.allenai.org/
相关攻略 更多
最新资讯 更多
AI2推出开源Tülu3模型,性能与GPT-4omini相当
更新时间:2025-05-22
亚马逊重磅出招!成立AGI实验室,瞄准数字世界"全能AI助手"
更新时间:2025-05-22
AI医疗革命!台大医院携手NVIDIA,打造智能医疗新生态
更新时间:2025-05-22
MetaAI推出革命性数据加载工具SPDL:让AI训练提速三倍!
更新时间:2025-05-22
人道主义机构将利用人工智能助力应对全球危机
更新时间:2025-05-22
台积电11月销售额增长34%,得益于AI需求持续增长
更新时间:2025-05-22
AIGC、AGI中文名怎么说?人工智能相关词汇中英对照表发布
更新时间:2025-05-22
OpenAI发布Canvas工具提高ChatGPT写作和编码效率
更新时间:2025-05-22
豆包电脑版视频生成功能开启内测每日可免费生成十支视频
更新时间:2025-05-22
视觉中国与生数科技Vidu合作将开发AI视频内容生成解决方案
更新时间:2025-05-22