文章来源:放心AI网发布时间:2025-05-30 16:49:49
强化学习在近年来取得了许多成功,但其样本效率低下,限制了其在现实世界中的应用。世界模型作为一种环境生成模型,为解决这一问题提供了希望。它可以作为模拟环境,以更高的样本效率训练强化学习智能体。
目前,大多数世界模型通过离散潜变量序列来模拟环境动态。然而,这种压缩成紧凑离散表示的方法可能会忽略对强化学习至关重要的视觉细节。
与此同时,扩散模型已经成为图像生成领域的主导方法,挑战了传统的离散潜变量建模方法。受此启发,研究人员提出了一种名为DIAMOND(环境梦境扩散模型)的新方法,它是一种在扩散世界模型中训练的强化学习智能体。DIAMOND在设计上做出了关键选择,以确保扩散模型在长时间范围内的高效性和稳定性。
DIAMOND在著名的Atari100k基准测试中取得了1.46的平均人类标准化得分,这是完全在世界模型中训练的智能体的最佳成绩。此外,在图像空间中操作的优势在于,扩散世界模型可以直接替代环境,从而更好地理解世界模型和智能体的行为。研究人员发现,某些游戏性能的提升源于对关键视觉细节的更好建模。
DIAMOND的成功得益于EDM(Elucidating the Design Space of Diffusion-based Generative Models)框架的选择。与传统的DDPM(Denoising Diffusion Probabilistic Models)相比,EDM在较少的去噪步骤下表现出更高的稳定性,避免了模型在长时间范围内出现严重的累积误差。
此外,DIAMOND还展示了其扩散世界模型可以作为交互式神经游戏引擎的能力。通过在87小时的静态《反恐精英:全球攻势》游戏数据上进行训练,DIAMOND成功生成了一个可交互的Dust II地图神经游戏引擎。
未来,DIAMOND可以通过整合更先进的记忆机制,例如自回归Transformer,来进一步提升其性能。此外,将奖励/终止预测整合到扩散模型中也是一个值得探索的方向。
论文地址:https://arxiv.org/pdf/2405.12399
相关攻略 更多
最新资讯 更多
扩散模型也能玩游戏?DIAMOND实现Atari100k基准测试新SOTA
更新时间:2025-05-30
全球个人智能音频设备出货量增长15%,市场持续回暖
更新时间:2025-05-30
苹果计划在2026年推出智能安全摄像头集成AI与Siri助手
更新时间:2025-05-30
阶跃星辰:iPhone16相机控制按钮已支持调用跃问「拍照问」
更新时间:2025-05-30
RokidGlasses发布:轻量化AR眼镜售价2499元,支持AI翻译与物品识别
更新时间:2025-05-30
Codeium推出智能IDEWindsurf:支持下文感知、命令执行
更新时间:2025-05-30
戴尔创造行业里程碑!全球首发液冷AI超算系统,算力提升30倍
更新时间:2025-05-30
爱达智能云医务室入驻张江人工智能岛
更新时间:2025-05-30
人工智能如何赋能智慧城市建设?专访百度智能云政务业务部总经理傅鹏
更新时间:2025-05-30
人工智能行业高速发展,硅谷风险投资机构境遇如何?
更新时间:2025-05-30