文章来源:放心AI网发布时间:2025-04-29 13:07:03
Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。
Transformer² 的核心创新在于其独特的两步动态权重调整机制。首先,它分析传入的用户请求,理解任务需求;然后,通过数学技巧,利用奇异值分解 (SVD) 将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件,Transformer² 能够实时优化性能,而无需耗时的重新训练。这与传统的微调方法形成鲜明对比,后者需要在训练后保持参数静态,或者采用低秩自适应 (LoRA) 等方法,仅修改一小部分参数。
Transformer 平方训练和推理(来源:arXiv)
为了实现动态调整,研究人员采用了奇异值微调 (SVF) 的方法。在训练时,SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。在推理时,Transformer² 通过分析提示来确定所需技能,然后配置相应的 z 向量,从而实现为每个提示量身定制的响应。
测试结果显示,Transformer² 在数学、编码、推理和视觉问答等各种任务中均优于 LoRA 模型,且参数更少。更令人瞩目的是,该模型还具有知识迁移能力,即从一个模型学习到的 z 向量可以应用到另一个模型,从而表明了广泛应用的潜力。
Transformer-squared(表中的 SVF)与基础模型和 LoRA 的比较(来源:arXiv)
Sakana AI 在其 GitHub 页面上发布了 Transformer² 组件的训练代码,为其他研究人员和开发人员打开了大门。
随着企业不断探索 LLM 的应用,推理时定制技术正逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等其他技术一道,正在改变 LLM 的应用方式,使用户能够根据其特定需求动态调整模型,而无需重新训练。这种技术的进步将使 LLM 在更广泛的领域内更加有用和实用。
Sakana AI 的研究人员表示,Transformer² 代表了静态人工智能与生命智能之间的桥梁,为高效、个性化和完全集成的人工智能工具奠定了基础。
相关攻略 更多
最新资讯 更多
淘天推出创新对齐方法,解决视觉大模型中的幻觉问题
更新时间:2025-05-06
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06