文章来源:放心AI网发布时间:2025-05-13 11:56:33
生成式语言模型在从训练到实际应用的过程中面临着许多挑战。其中一个主要问题是如何在推理阶段使模型达到最佳表现。
目前的对策,如通过人类反馈的强化学习(RLHF),主要集中在提高模型的胜率上,但往往忽视了推理时的解码策略,例如 Best-of-N 采样和控制解码。这种训练目标与实际使用之间的差距,可能导致效率低下,影响输出的质量和可靠性。
为了解决这些问题,谷歌 DeepMind 和谷歌研究团队开发了 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。InfAlign 将推理时的方法纳入对齐过程,力求弥补训练与应用之间的鸿沟。它通过一种校准的强化学习方法来调整基于特定推理策略的奖励函数。InfAlign 对 Best-of-N 采样(生成多个响应并选择最佳者)和 Worst-of-N(常用于安全评估)等技术特别有效,确保对齐的模型在控制环境和现实场景中都能表现良好。
InfAlign 的核心是校准与变换强化学习(CTRL)算法,该算法遵循三个步骤:校准奖励分数、根据推理策略变换这些分数、解决一个 KL 正则化的优化问题。通过将奖励变换定制化到特定场景,InfAlign 将训练目标与推理需求对齐。这种方法不仅提升了推理时的胜率,还保持了计算效率。此外,InfAlign 增强了模型的鲁棒性,使其能够有效应对各种解码策略,并产生一致的高质量输出。
在使用 Anthropic 的有用性和无害性数据集进行的实验中,InfAlign 的有效性得到了验证。与现有方法相比,InfAlign 在 Best-of-N 采样的推理胜率上提高了8%-12%,在 Worst-of-N 安全评估中则提高了4%-9%。这些改进得益于其校准的奖励变换,有效解决了奖励模型的误校准问题,确保了在不同推理场景下的一致表现。
InfAlign 在生成语言模型的对齐方面代表了一项重要的进展。通过结合推理感知的策略,InfAlign 解决了训练与部署之间的关键差异。它扎实的理论基础和实证结果凸显了其在全面改善 AI 系统对齐方面的潜力。
链接:https://arxiv.org/abs/2412.19792
相关攻略 更多
最新资讯 更多
谷歌DeepMind推新框架InfAlign:提升语言模型推理对齐能力
更新时间:2025-05-13
OpenAI联手吴恩达推出o1系列模型免费课程,聚焦深度推理能力开发
更新时间:2025-05-13
清华大学推出AutoDroid-V2:移动设备上AI自动化控制的新突破
更新时间:2025-05-13
在广州,“人工智能+”落地开花
更新时间:2025-05-13
酷!第一批AI起名企业已“出生”!“人工智能+”融入市场监管局政务服务
更新时间:2025-05-13
人工智能:来自科学,改变科学
更新时间:2025-05-13
国泰基金梁杏:今年A股仍有可能挑战去年高点,看好人工智能产业链
更新时间:2025-05-13
20个月赚100万美元!套壳大模型聊天工具TypingMind怎么做到的?
更新时间:2025-05-13
人工智能+、未来产业等如何发展?北京经信局详解
更新时间:2025-05-13
多家上市公司成果入选工业和信息化部人工智能赋能新型工业化典型应用案例
更新时间:2025-05-13