文章来源:放心AI网发布时间:2025-05-11 16:44:58
近年来,训练大型语言模型(LLM)变得越来越昂贵且复杂,只有少数大型科技公司具备相应的计算资源。不过,谷歌最近推出了一种名为 SALT(小模型辅助大模型训练)的新方法,这一创新可能会彻底改变 AI 训练的格局。
图源备注:图片由AI生成,图片授权服务商Midjourney
根据谷歌研究和 DeepMind 的最新研究论文,“一点帮助就能走得更远:通过利用小型语言模型实现高效的 LLM 训练”,SALT 引入了一种新的两阶段训练过程。这种方法不仅高效,而且更具实用性,改变了我们以往的训练方式。
SALT 的第一阶段是知识蒸馏。在这一阶段中,小型语言模型(SLM)充当教师,将其理解知识传递给更大的模型。小型模型通过 “软标签” 来分享其学习到的知识,帮助大型模型在学习的初期掌握基础概念。这个阶段尤其适用于小型模型在学习区域具有较强预测信心的 “简单” 任务。
第二阶段是自我监督学习。大型模型在这一阶段开始独立学习,专注于掌握更复杂的模式和挑战性任务。这个转变需要经过精心设计的策略,包括线性衰减和线性比例衰减,这确保了大型模型能够平稳过渡,逐步减少对小型模型的依赖。
谷歌研究人员在实验中发现,使用一个15亿参数的小型模型训练一个28亿参数的大型模型,在 “堆栈数据集” 上的训练时间缩短了28%。在经过微调后,大型模型在数学问题的准确率从31.84% 提升至34.87%,阅读理解的准确率也从63.7% 提高到67%。这种新方法不仅提升了训练效率,还在性能上取得了显著进步。
SALT 的出现有望降低 AI 开发的门槛,使得许多原本受限于资源的小型研究机构和公司也能参与到 AI 模型的开发中。研究和开发的机会将更加普及,可能会催生出更多独特和专业化的 AI 解决方案,带动相关领域的创新与应用。
相关攻略 更多
最新资讯 更多
谷歌利用小模型加速AI训练大模型,提升28%效率
更新时间:2025-05-11
LG推出新AI服务,助力家庭、车载和办公日常生活
更新时间:2025-05-11
重磅!TCL海外旗舰电视系列将接入谷歌Gemini模型
更新时间:2025-05-11
苹果公司将更新AI功能以纠正不准确的新闻摘要
更新时间:2025-05-11
Timekettle推出BabelOS:实现实时多语言交流重新定义AI同声传译
更新时间:2025-05-11
奥尔特曼发表新年致辞:OpenAI目标转向“超级智能”
更新时间:2025-05-11
韩国用户每月使用生成式AI应用9亿次,ChatGPT领跑
更新时间:2025-05-11
谷歌组建新团队,致力于构建能够模拟物理世界的AI技术
更新时间:2025-05-11
Avataar推出全新AI视频生成工具,助力产品宣传
更新时间:2025-05-11
中信证券:未来1-2年,中国AI公司和资产将带来较好的超额收益
更新时间:2025-05-11