CMU团队推出元强化微调：提升大语言模型推理能力的新范式

文章来源：放心AI网发布时间：2025-04-14 17:20:15

在人工智能领域，大语言模型（LLM）正在不断进化，最近，卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning，简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率，尤其是在解决复杂推理问题时，表现尤为突出。

研究表明，现有的大语言模型在推理过程中常常消耗过多的计算资源，而 MRT 的目标是让模型在给定的计算预算内，实现更高效的答案发现。该方法将大语言模型的输出分割成多个片段，以便在探索与利用之间取得平衡。通过对训练数据的细致学习，MRT 能够使模型在面对未知难题时，既能利用已知信息，又能够探索新的解题策略。

在研究中，CMU 团队的实验显示，使用 MRT 微调后，模型在多个推理基准测试上取得了显著提升。在与传统结果奖励强化学习（GRPO）的对比中，MRT 的准确率是其2到3倍，且在 token 使用效率上提升了1.5倍。这意味着，MRT 不仅能提高模型的推理能力，还能降低计算资源的消耗，从而在实际应用中更具优势。

此外，研究者们还提出了如何有效评估现有推理模型的有效性，为未来的研究奠定了基础。这一成果不仅展示了 MRT 的潜力，也为大语言模型在更多复杂应用场景中的应用指明了方向。

通过这样的创新，CMU 与 HuggingFace 的研究团队无疑在推动 AI 技术的前沿，赋予机器更强大的推理能力，为实现更智能的应用打下了坚实的基础。

项目地址：https://cohenqu.github.io/mrt.github.io/