文章来源:放心AI网发布时间:2025-05-30 18:00:01
近日,字节跳动研究院和清华大学的研究人员联合发布了一项新研究,指出目前的 AI 视频生成模型,比如 OpenAI 的 Sora,虽然能创造出令人惊叹的视觉效果,但在理解基本物理规律方面却存在重大缺陷。这项研究引发了人们对 AI 在模拟现实时能力的广泛讨论。
研究团队对 AI 视频生成模型进行了测试,设定了三种不同的场景,分别是已知模式下的预测、未知模式下的预测,以及熟悉元素的新组合。他们的目标是看看这些模型是否真的学习了物理规律,还是仅仅依赖于训练中的表面特征。
通过测试,研究人员发现这些 AI 模型并没有学习到普遍适用的规则。相反,它们在生成视频时,主要依赖于颜色、大小、速度和形状等表面特征,并且遵循了一种严格的优先顺序:颜色优先,其次是大小、速度和形状。
在熟悉的场景下,这些模型的表现几乎完美,但一旦遇到未知情况,它们就显得无能为力。研究中的一项测试,展示了 AI 模型在处理物体运动时的局限性。例如,当模型训练时使用快速移动的球体来回运动,而在测试时却给它们提供慢速球体,模型竟然在几帧后显示球体突然改变了方向。这一现象在相关视频中也有清晰的体现。
研究人员指出,简单地扩大模型规模或增加训练数据并不能解决问题。尽管更大的模型在熟悉的模式和组合下表现更好,但它们依然无法理解基本的物理规律或处理超出训练范围的场景。研究合著者康炳毅提到:“如果在特定场景下数据覆盖足够好,也许能形成一个过拟合的世界模型。” 但这种模型并不符合真正世界模型的定义,因为真正的世界模型应该能够超越训练数据进行推广。
合著者 Bingyi Kang 在 X 上演示了这一限制,他解释说,当他们用快速移动的球从左到右和向后移动来训练模型,然后用缓慢移动的球进行测试时,模型显示球在仅仅几帧后就突然改变了方向(你可以在1分55秒的视频中看到它)。
这项研究结果对 OpenAI 的 Sora 计划形成了挑战。OpenAI 曾表示,Sora 有望通过不断扩展而发展成为真正的世界模型,甚至声称它已经对物理交互和三维几何有了基本理解。但研究人员指出,单靠简单的规模扩大并不足以让视频生成模型发现基本的物理规律。
Meta 的 AI 负责人 Yann LeCun 对此也表达了怀疑,认为通过生成像素来预测世界的做法是 “浪费时间且注定失败”。尽管如此,很多人仍期待 OpenAI 能在2024年2月中旬如期发布 Sora,展现其视频生成的潜力。
相关攻略 更多
最新资讯 更多
字节联合清华研究:Sora等这类AI视频模型无法理解基本物理规律
更新时间:2025-05-30
谷歌推出适用于iPhone的AI应用程序并推出语音交互功能GeminiLive
更新时间:2025-05-30
英国运营商推出反诈黑科技!AI"奶奶"出马,专坑电话诈骗犯!
更新时间:2025-05-30
印度视频编辑平台InVideo推出"文本生成视频"新功能,月收费近千元
更新时间:2025-05-30
谷歌AI聊天机器人“Gemini”失控,竟建议人类去死
更新时间:2025-05-30
研究发现AI能“听”出电池起火前兆,预警准确率高达94%
更新时间:2025-05-30
AI自习室在县城悄悄兴起,学生成为刷题“机器人”?
更新时间:2025-05-30
AI技术助力手术精准,FastGlioma秒级识别癌症脑肿瘤
更新时间:2025-05-30
抖音推进“V项目”,上线AI分身功能让直播互动更嗨
更新时间:2025-05-30
上新“学术搜索”夸克成为年轻人PC端首选AI应用
更新时间:2025-05-30