文章来源:放心AI网发布时间:2025-05-19 15:09:49
在视频分析领域,物体的持久性是人类理解物体即使在完全遮挡情况下依然存在的重要线索。然而,目前的物体分割方法大多只关注可见(模态)物体,而缺乏对无模态(可见 + 不可见)物体的处理。
针对这一问题,研究人员提出了一种基于扩散先验的两阶段方法Diffusion-Vas,旨在提升视频无模态分割和内容补全的效果,能追踪视频中的指定目标,然后利用扩散模型补全被遮挡的部分。
该方法的第一阶段涉及生成物体的无模态掩码。研究人员通过将可见掩码序列与伪深度图结合,来推断物体边界的遮挡情况。伪深度图是通过对 RGB 视频序列进行单目深度估计得到的。这一阶段的目标是确定物体在场景中可能被遮挡的部分,从而扩展物体的完整轮廓。
在第一阶段生成的无模态掩码基础上,第二阶段则负责对遮挡区域进行内容补全。研究团队利用模态 RGB 内容,运用条件生成模型对遮挡区域进行填补,最终生成完整的无模态 RGB 内容。整个过程采用了一个以3D UNet 为骨干网络的条件潜在扩散框架,确保了生成结果的高保真度。
为了验证其有效性,研究团队在四个数据集上对新方法进行了基准测试,结果表明,较之于多种先进的方法,其在物体被遮挡区域的无模态分割上提高了多达13% 的准确率。尤其是在处理复杂场景时,研究方法展示了出色的稳健性,能够有效应对强烈的相机运动和频繁的完全遮挡。
这一研究不仅提升了视频分析的精确度,也为理解物体在复杂场景中的存在性提供了新的视角。未来,该技术有望被应用于自动驾驶、监控视频分析等多个领域。
项目:https://diffusion-vas.github.io/
相关攻略 更多
最新资讯 更多
Diffusion-Vas:追踪视频目标,可补全遮挡部分
更新时间:2025-05-19
Slack与Salesforce携手推出AI助手,助力企业提高工作效率
更新时间:2025-05-19
苹果公司股价创历史新高,分析师称长期增长不受AI技术威胁
更新时间:2025-05-19
AI视频生成器PolloAI推出四款“魔性”特效,让照片“融化”、“膨胀”
更新时间:2025-05-19
MIT研究团队推开源AI模型Boltz-1,推动生物分子结构预测
更新时间:2025-05-19
气候危机逼近现实!科幻小说家预言成真,揭示AI的“伪智能”本质
更新时间:2025-05-19
AI数据中心构成监管挑战,危及气候目标
更新时间:2025-05-19
智谱再获4.12亿美元融资,本土化策略或成突围关键
更新时间:2025-05-19
“AI+中医”来了!给舌头拍照,10秒出体质报告
更新时间:2025-05-19
OpenAI开放满血o1模型API:成本降低60%新增高级视觉处理能力
更新时间:2025-05-19