文章来源:放心AI网发布时间:2025-06-02 15:54:47
北京智谱华章科技有限公司宣布,其旗下的CogVideoX系列模型推出了最新版本——CogVideoX v1.5,并已对外开源。自8月初发布以来,该系列模型凭借其行业领先的技术和深受开发者喜爱的特性,已经成为视频生成领域的佼佼者。新版本CogVideoX v1.5在原有基础上进行了显著升级,包括增强了视频生成能力,现在支持5/10秒、768P、16帧的视频生成,并且I2V模型能够支持任意尺寸比例,大幅提升了图生视频的质量和复杂语义理解。
此次开源的内容包括两个模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。新版本也将同步上线到清影平台,并与新推出的CogSound音效模型结合,提供质量提升、超高清分辨率支持、可变比例适应不同播放场景、多通道输出以及带声效的AI视频等特色服务。
在技术层面,CogVideoX v1.5通过自动化筛选框架过滤了缺乏动态连通性的视频数据,并采用端到端的视频理解模型CogVLM2-caption生成精准的视频内容描述,提升了文本理解和指令遵循能力。此外,新版本采用了高效的三维变分自编码器(3D VAE)解决内容连贯性问题,并自主研发了融合文本、时间和空间三维度的Transformer架构,取消了传统的跨注意力模块,通过专家自适应层归一化技术优化了扩散模型中时间步信息的利用。
训练方面,CogVideoX v1.5构建了一个高效的扩散模型训练框架,通过多种并行计算和时间优化技术,实现了对长视频序列的快速训练。公司表示,他们已验证了scaling law在视频生成领域的有效性,并计划在未来扩大数据量和模型规模,探索创新模型架构,以更高效地压缩视频信息,并更好地融合文本与视频内容。
代码:https://github.com/thudm/cogvideo
模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
相关攻略 更多
最新资讯 更多
智谱AI视频生成模型CogVideoXv1.5开源支持5/10秒视频生成
更新时间:2025-06-02
智谱AI开源最新版视频模型CogVideoXv1.5,上线10秒4K"新清影"
更新时间:2025-06-02
MIPS推出基于RISC-V架构的P8700CPU,助力自动驾驶技术发展
更新时间:2025-06-02
AI预计取代300万英国工作岗位,但失业潮或将有限!
更新时间:2025-06-02
微软Xbox引入AI助手迎战索尼PS5Pro,游戏主机AI革新正式开启
更新时间:2025-06-02
吊打人类艺术家?人形机器人Ai-Da首幅画作拍卖成交价超100万美元
更新时间:2025-06-02
微软推全新开源通用AI代理Magentic-One,自动化任务处理
更新时间:2025-06-02
研究发现:AIAgent更易受弹窗干扰,攻击率高达86%
更新时间:2025-06-02
ChatGPT大规模宕机,1.94万名用户受影响
更新时间:2025-06-02
ChatGPT选举期间拒绝超25万张政治图像请求,确保AI不干扰投票!
更新时间:2025-06-02