文章来源:放心AI网发布时间:2025-05-11 12:04:09
随着企业越来越多地应用大型语言模型(LLMs),如何提升模型的知识准确性并减少幻觉现象,成为了一项重要挑战。Meta AI 的研究人员在一篇新论文中提出了 “可扩展记忆层”,或许能够为这一问题提供解决方案。
可扩展记忆层的核心思想是在不增加推理时计算资源的情况下,向 LLMs 中添加更多参数,从而提升其学习能力。这种架构适用于需要储存大量事实知识但又希望保持推理速度的应用场景。
传统的语言模型使用 “密集层” 来编码大量信息。在密集层中,所有参数在推理时几乎都是同时激活的,能够学习复杂的函数,但这需要额外的计算和能量资源。而对于简单的事实知识,使用具有关联记忆架构的简单层会更加高效和易于理解,这就是记忆层的作用。记忆层通过简单的稀疏激活和键值查找机制来编码和检索知识。尽管稀疏层在内存占用上高于密集层,但其同时仅使用少量参数,从而提高了计算效率。
虽然记忆层已经存在多年,但在现代深度学习架构中却鲜有应用,主要是因为它们并未针对当前硬件加速器进行优化。当前前沿的 LLMs 通常采用某种形式的 “专家混合” 架构,这与记忆层有相似之处。专家混合模型由多个专门化的小型专家组件构成,通过路由机制在推理时激活特定的专家。
为了克服记忆层在计算上轻便但内存占用大的挑战,Meta 的研究人员提出了若干改进措施,使其能够在大规模应用中实现可行性。他们为记忆层配置了并行化,能够在多个 GPU 上存储数百万个键值对,同时不会减慢模型的运行速度。此外,他们还为处理高内存带宽操作开发了特定的 CUDA 内核,并实现了参数共享机制,允许多个记忆层共享一组内存参数。
通过对 Llama 模型的修改,将一个或多个密集层替换为共享记忆层,研究人员对记忆增强模型进行了测试。他们的研究发现,记忆模型在多个任务中表现优异,特别是在需要事实知识的任务上,性能明显超过密集基线,甚至能与使用2到4倍计算资源的模型竞争。
论文入口:https://arxiv.org/abs/2412.09764
相关攻略 更多
最新资讯 更多
Meta提出新型可扩展记忆层,提升语言模型知识储备、减少幻觉现象
更新时间:2025-05-11
阿里通义与雷鸟合作推出AI眼镜,推动大模型应用落地
更新时间:2025-05-11
英伟达CEO:我们的AI芯片改进速度超越摩尔定律
更新时间:2025-05-11
小鹏推出“陆地航空母舰”飞行汽车,计划2026年量产
更新时间:2025-05-11
阅文旗下“AI男友平台”筑梦岛获千万美元融资,开启独立运营
更新时间:2025-05-11
Anthropic计划融资20亿美元,估值有望达600亿美元
更新时间:2025-05-11
数据中心争夺战:AWS在乔治亚州投资110亿美元,AI势不可挡!
更新时间:2025-05-11
科大讯飞将于1月15日推出全新深度推理模型X1,增强智慧办公能力
更新时间:2025-05-11
OpenAICEO回应其妹妹性侵指控,称其“完全不实”
更新时间:2025-05-11
达美航空CES2025推出AI助手与免费YouTube服务,提升乘客体验
更新时间:2025-05-11