字节和中国科大出品！VMix：提升扩散模型美学的扩展，即插即用

文章来源：放心AI网发布时间：2025-05-13 13:44:34

在文本生成图像的领域，扩散模型展现出了非凡的能力，但在美学图像生成方面仍存在一定的不足。最近，来自字节跳动和中国科学技术大学的研究团队提出了一种名为 “Cross-Attention Value Mixing Control”（VMix）适配器的新技术，旨在提升生成图像的质量，并保持对各种视觉概念的通用性。

VMix 适配器的核心思想在于，通过设计优越的条件控制方法，增强现有扩散模型的美学表现，同时确保图像与文本之间的对齐。

该适配器主要通过两个步骤实现其目标:首先，它通过初始化美学嵌入，将输入的文本提示分解为内容描述和美学描述;其次，在去噪过程的过程中，通过混合交叉注意力的方式，将美学条件融入其中，，从而提升图片的美学效果，且保持图片和提示词的一致性。。这种方法的灵活性使得 VMix 能够在不进行重训练的情况下，应用于多个社区模型，从而提高视觉表现。

研究人员通过一系列实验验证了 VMix 的有效性，结果显示该方法在美学图像生成方面的表现超越了其他最先进的方法。同时，VMix 还与多种社区模块（如 LoRA、ControlNet 和 IPAdapter）兼容，进一步拓宽了其应用范围。