文章来源:放心AI网发布时间:2025-05-16 11:35:04
近日,谷歌深度学习团队和多所大学的研究人员联合发布了一项名为 “MegaSaM” 的新系统,该系统能够从普通的动态视频中快速、准确地估计相机参数和深度图。这一技术的问世,将为我们在日常生活中录制的视频带来更多的可能性,特别是在动态场景的捕捉与分析方面。
传统的运动结构重建(Structure from Motion,SfM)和单目同步定位与地图构建(SLAM)技术,通常需要输入静态场景的视频,并且对视差的要求较高。面对动态场景,这些方法的表现往往不尽如人意,因为在缺乏静态背景的情况下,算法容易出现错误。尽管近年来一些基于神经网络的方法试图解决这一问题,但这些方法往往计算开销巨大,且在动态视频中,尤其是当摄像机运动不受控制或者视场未知时,稳定性欠佳。
MegaSaM 的出现,改变了这一局面。研究团队通过对深度视觉 SLAM 框架进行精心的修改,使其能够适应复杂的动态场景,尤其是在摄像机路径不受限制的情况下。经过一系列的实验,研究人员发现 MegaSaM 在相机姿态和深度估计方面,显著优于以往的相关技术,并且在运行时间上也表现出色,甚至可以与某些方法相媲美。
该系统的强大功能,使其能够处理几乎任何视频,包括那些在拍摄过程中可能存在剧烈运动或者场景动态的随意录像。MegaSaM 在约0.7帧每秒的速度下,处理源视频的结果,展现出其卓越的性能。研究团队还在他们的画廊中展示了更多处理结果,以证明其在实际应用中的有效性。
这一研究成果不仅为计算机视觉领域带来了新鲜血液,也为广大用户在日常生活中的视频处理提供了新的可能性,期待未来能够在更多场景中看到 MegaSaM 的身影。
项目入口:https://mega-sam.github.io/#demo
相关攻略 更多
最新资讯 更多
DeepMind项目MegaSaM:输入普通视频即可预估相机视角和景深,构建视频场景
更新时间:2025-05-16
尴尬!谷歌被曝用Claude模型进行对比测试来改进GeminiAI
更新时间:2025-05-16
知情人士透露OpenAI考虑开发人形机器人
更新时间:2025-05-16
AI“艺术家”横空出世!作品拍卖数百万美元,颠覆传统艺术界
更新时间:2025-05-16
广告公司积极拥抱AI!可口可乐冲在人工智能营销前沿
更新时间:2025-05-16
研究发现,OpenAI的o1-preview在诊断复杂医疗病例方面优于医生
更新时间:2025-05-16
谷歌被指“抄作业”?Gemini竟拿竞品Claude做对比,合规性遭质疑
更新时间:2025-05-16
打错字也能“越狱”GPT-4o、Claude:揭秘AI聊天机器人的脆弱性!
更新时间:2025-05-16
美国科技政策大洗牌!AI专家入主白宫,特朗普重组科技团队
更新时间:2025-05-16
消息称OpenAI考虑开发人形机器人,此前已投资多家机器人初创公司
更新时间:2025-05-16