随着深度学习技术的不断发展,扩散模型作为一种重要的生成模型,近年来受到了广泛关注。
基于Transformer架构的扩散模型更是成为了研究的热点。
近期,Sora的发布让广大研究者及开发者深刻认识到此类模型的巨大潜力。
在此背景下,北大和华为的研究者们针对现有的扩散模型进行了深入研究,并尝试结合U-Net架构与Transformer,以进一步提升扩散模型的效果。
image/article/20241116024224_59496.jpg" loading="lazy" alt="打造全新用户体验从了解U开始">
目前,扩散模型主要使用两种架构:直筒型和U-Net型。
直筒型DiT模型在隐空间生成任务上表现出色,但U-Net结构在图像空间和隐空间的生成效果同样不俗。
因此,研究者们开始思考如何结合两者的优势。
他们产生了这样的疑问:能否重新拾起U-Net,将其与Transformer有机结合,以进一步提升扩散模型的效果?于是,基于U-Net的DiT架构——U-DiT应运而生。
为探索这一结合的可能性,研究者首先进行了一个小实验,尝试将U-Net和DiT模块简单结合。
初步的实验结果显示,在相似的算力比较下,U-Net的DiT(DiT-UNet)仅仅比原始的DiT有略微的提升。
这一结果引发了研究者们的进一步思考。
在此基础上,他们提出了一个核心问题:如何消除在特征图自注意力中的冗余?为此,他们提出了下采样自注意力机制。
这一机制在自注意力之前对特征图进行下采样,以避免冗余计算并强调重要信息。
具体的实验设计和实现细节如下:
1. 在自注意力之前进行特征图的2倍下采样操作。为了避免重要信息的损失,同时生成四个维度相同的下采样图。
2. 在这四个下采样图上使用共用的QKV映射,并分别独立进行自注意力运算。这样可以在降低算力的同时保留关键信息。
3. 最后将四个下采样的特征图重新融合为一个完整的特征图。这种方法的优势在于显著降低了自注意力的算力需求,同时获得了更好的效果。与传统的全局自注意力相比,下采样自注意力机制可以将算力降低约四分之三。这一创新为后续的U-DiT模型提供了坚实的基础。
基于上述发现,研究者提出了基于下采样自注意力机制的U型扩散模型——U-DiT。
与DiT系列模型相比,U-DiT在算力需求上进行了优化,并推出了三个不同版本的模型(S/B/L)。
在完全相同的训练超参设定下,U-DiT在ImageNet生成任务上取得了令人惊讶的生成效果。
具体数据表明,U-DiT-L在400K训练迭代下的表现比直筒型DiT-XL模型高约10FID;而U-DiT-S/B模型相较于同级直筒型DiT模型则高出约30FID。
U-DiT-B模型仅需DiT-XL约六分之一的算力便能达到更好的效果。
这些成果不仅体现在无条件生成任务上,在有条件生成任务和大图生成任务上同样展现出显著优势。
更令人惊喜的是,当训练的迭代次数延长时,U-DiT模型的长时表现也非常出众。
例如,U-DiT-L在600K迭代时的表现便优于DiT在7M迭代时的无条件生成效果。
这些实践验证表明U-DiT模型的巨大潜力和优势。
本文提出的U-DiT模型成功结合了U-Net架构和Transformer的优势,通过创新的下采样自注意力机制显著降低了算力需求并提升了生成效果。
已被NeurIPS 2024接收认可,证明了其在理论和实践上的价值。
未来随着研究的深入和技术的发展我们相信U-DiT模型将在扩散模型的领域取得更广泛的应用并推动相关领域的技术进步和实际应用发展。
本文地址: https://www.gosl.cn/jsjcwz/86bfda0c6598b068a263.html
上一篇:逐步达成,成就非凡...