文章来源:放心AI网发布时间:2025-04-20 12:40:25
今日,阿里巴巴官方宣布全面开源旗下视频生成模型万相2.1模型,14B和1.3B双版本上线。其中,专业版14B,高性能,提供业界顶尖的表现力可满足对视频质量有极高要求的场景;而极速版1.3B,适合消费级显卡,8.2GB显存即可生成480P高质量视频,适用于二次模型开发和学术研究。
据官方介绍,本次开源的 Wan2.1在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循方面展现出显著优势,能够满足创作者、开发者和企业用户的多样化需求。借助于通义万相,用户可以轻松实现高质量的视频生成,尤其在广告和短视频领域,满足了对创意的高要求。
在权威评测集 VBench 中,通义万相以总分86.22% 高居榜首,远超 Sora、Minimax、Luma 等国内外其他视频生成模型。该评测基于主流的 DiT 和线性噪声轨迹 Flow Matching 范式,通过一系列技术创新提升了模型的生成能力。特别是自研的高效3D 因果 VAE 模块,成功实现256倍无损视频隐空间压缩,支持任意长度视频的高效编码与解码。
通义万相在生成视频的过程中,采用了基于主流 DiT 结构的 Full Attention 机制,有效建模时空依赖性,确保生成视频的高质量与一致性。模型的训练策略采用6阶段分步训练法,从初步的低分辨率数据训练逐步引入高分辨率数据,以保证模型在不同条件下的优异表现。此外,通义万相在数据处理方面也采取了严格的清洗流程,以确保训练数据的高质量。
在训练与推理效率优化方面,通义万相采用了多种先进技术,如分布式训练策略、激活值优化和显存管理,确保模型训练的稳定性与推理效率。通过与阿里云训练集群的智能调度结合,模型在训练过程中能够自动识别故障并快速重启,确保训练过程的顺利进行。
通义万相2.1已在 GitHub、Hugging Face 等平台开源,支持多种主流框架,为开发者和研究者提供了便利的使用体验。无论是快速原型开发还是高效生产部署,通义万相都能满足不同用户的需求,为视频生成技术的发展注入了新的活力。
魔塔社区入口:https://modelscope.cn/organization/Wan-AI
上一篇: 从AI主播到无障碍交互:YY深度整合DeepSeek推出“YYDS”
近日,国内互联网企业YY公司宣布正式接入热门开源大语言模型DeepSeek,并发布优化后的“YY-DeepSeekR1-满血版”(以下简称YYDS)。该版本通过服务器架构升级与算法调优,彻底解决DeepSeek此前存在的卡顿、响应延迟
下一篇: DeepSeek开源周第3天:发布DeepGEMM,FP8GEMM库助力AI训练与推理
中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法(GEMM)的开源库。这一工具专为密集型和混合专家(MoE)矩阵运算设计,为DeepSeek V3和R1模型的训练与推理提供强大支持。官
相关攻略 更多
最新资讯 更多
AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿
更新时间:2025-04-29
百川智能推出国内首个全场景深度思考医疗大模型,革新医学推理方式
更新时间:2025-04-29
奥特曼加码长寿科技:RetroBiosciences欲筹10亿美元,挑战人类寿命极限
更新时间:2025-04-29
OpenAI新成立的PBC部门估值达300亿美元,微软投资股份尚未确定
更新时间:2025-04-29
扎克伯格表示,2025年底Meta将拥有130万个用于AI的GPU
更新时间:2025-04-29
德勤:企业在推行生成式AI项目上面临规模化挑战
更新时间:2025-04-29
AI基础设施争夺战愈演愈烈:OpenAI与微软的微妙关系
更新时间:2025-04-29
聊天机器人平台CharacterAI以第一修正案为由申请驳回与青少年自杀案的诉讼
更新时间:2025-04-29
Deezer日均上传超万首AI音乐,平台开始检测与标记
更新时间:2025-04-29
AI创业公司GameOn创始人与律师妻子被控6000万美元投资诈骗
更新时间:2025-04-29