文章来源:放心AI网发布时间:2025-06-05 10:24:59
近日,Meta AI 的研究团队与加州大学伯克利分校及纽约大学的研究人员合作,推出了一种名为思维偏好优化(Thought Preference Optimization, TPO)的方法,旨在提升经过指令微调的大型语言模型(LLM)的回应质量。
与传统模型仅关注最终答案不同,TPO 方法允许模型在生成回应前进行内部思考,从而产生更加准确和连贯的回答。
这种新技术结合了改进版的思维链(Chain-of-Thought, CoT)推理方法。在训练过程中,该方法鼓励模型在回应前先进行 “思考”,帮助其构建更为系统的内部思维过程。以往的直接 CoT 提示有时会降低准确性,并且由于缺乏明确的思维步骤,训练过程较为困难。TPO 通过允许模型优化和精简其思维过程,克服了这些局限性,并且在用户面前并不展示中间思维步骤。
在 TPO 的流程中,首先提示大型语言模型生成多个思维过程,然后在形成最终回应之前,对这些输出进行抽样和评估。随后,一个评估模型将对输出进行评分,确定最优和最差的回应。通过将这些输出作为选择和拒绝对进行直接偏好优化(Direct Preference Optimization, DPO),这一迭代训练方法增强了模型生成更相关、高质量回应的能力,从而提高了整体效果。
在这个方法中,训练提示经过调整,鼓励模型在回应前进行内部思考。经过评估的最终回应由一个基于 LLM 的评估模型进行评分,这使得模型能在不考虑隐性思维步骤的情况下,仅依据回应的有效性来提升质量。此外,TPO 利用直接偏好优化创建包含隐性思维的偏好与拒绝回应对,经过多次训练循环来进一步细化模型的内部过程。
研究结果显示,TPO 方法在多项基准测试中表现优异,超越了多种现有模型。这一方法不仅适用于逻辑和数学任务,也在创意领域如市场营销和健康等指令跟随任务中展现了潜力。
论文:https://arxiv.org/pdf/2410.10630
相关攻略 更多
最新资讯 更多
MetaAI推出思维偏好优化技术,提升AI模型回应质量
更新时间:2025-06-05
苹果iOS18.2下月第一周推送Apple智能更多功能即将上线
更新时间:2025-06-05
MetaAI的新玩意儿:让AI学会“先思考,后回答”!
更新时间:2025-06-05
生成式AI有望每年为全球银行业增加3400亿美元的收入
更新时间:2025-06-05
有三分之一消费者更愿意使用AI代理来获得更快的服务
更新时间:2025-06-05
迪士尼推出全新AI和混合现实业务部门
更新时间:2025-06-05
OpenAI首席执行官透露年内不会有GPT-5,公司目前专注于GPT-o1的运营
更新时间:2025-06-05
Anthropic发布Claude3.5Haiku:速度更快性能更强
更新时间:2025-06-05
今年才完成破产重整的豆神教育,搭上AI能否翻盘?
更新时间:2025-06-05
前OpenAI高管:AI将很快在计算机上完成人类能做的一切
更新时间:2025-06-05