MetaAI发布新型视频学习模型V-JEPA：视频理解新突破

文章来源：放心AI网发布时间：2025-04-21 13:11:37

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则，认为连续感官输入的表示应该能够相互预测。

早期的研究方法通过慢特征分析和谱技术来保持时间一致性，防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模，确保表示能够在时间上不断演变。现代技术不仅专注于时间不变性，还通过训练预测网络来映射不同时间步的特征关系，从而提升了表现。针对视频数据，时空掩蔽的应用进一步提高了学习表示的质量。

Meta 的研究团队与多所知名机构合作，开发了 V-JEPA 模型。这一模型以特征预测为核心，专注于无监督的视频学习，与传统方法不同的是，它不依赖于预训练编码器、负样本、重建或文本监督。V-JEPA 在训练过程中使用了两百万个公共视频，并在运动和外观任务上取得了显著的表现，且无需微调。

V-JEPA 的训练方法是通过视频数据构建对象中心的学习模型。首先，神经网络从视频帧中提取对象中心的表示，捕捉运动和外观特征。这些表示通过对比学习得到进一步增强，以提升对象的可分性。接下来，基于变压器的架构处理这些表示，以模拟对象之间的时间交互。整个框架经过大规模数据集的训练，以优化重建准确性和跨帧一致性。

V-JEPA 在与像素预测方法的比较中表现优越，特别是在冻结评估中，除了在 ImageNet 分类任务中稍显不足。经过微调后，V-JEPA 在使用更少的训练样本的情况下，超越了基于 ViT-L/16模型的其他方法。V-JEPA 在运动理解和视频任务上表现出色，训练效率更高，且在低样本设置下仍然能够保持准确性。

这项研究展示了特征预测作为无监督视频学习独立目标的有效性，V-JEPA 在各类图像和视频任务中表现出色，并且在无需参数适应的情况下超越了以往的视频表示方法。V-JEPA 在捕捉细微运动细节方面具有优势，显示出其在视频理解中的潜力。

论文:https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

博客:https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

上一篇: LiblibAI哩布哩布AI宣布再获数亿元融资一年内连续完成四轮融资

2月24日，LiblibAI（哩布哩布AI）宣布在短短一年内连续完成四轮融资，创下国内AI应用赛道融资速度的新纪录。继2024年7月披露的数亿元融资后，LiblibAI再次成功斩获数亿元资金。最新两轮融资由渶策资本、顺为资本

下一篇: 阿里巴巴宣布创纪录投资：未来三年3800亿加码云与AI硬件建设

今日，阿里巴巴集团CEO吴泳铭宣布，未来三年，阿里将投入超过3800亿元人民币，用于建设云和AI硬件基础设施，总额超过去十年的总和。这一创纪录的投资规模，不仅是中国民营企业在云和AI硬件基础设施建设领域的最大