当前位置：首页 > news >正文

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer 论文解读

news 2025/3/13 11:13:24

一、前置知识

1、Cogview

2、Cogview2

3、Cogvideo

二、CogvideoX概述

三、CogVideoX架构

1、整体架构

2、3D Causal VAE

3、Expert Transformer

一、前置知识

1、Cogview

21年的工作，Cogview是第一个开源的大型文本到图像的转换器并且超过了基于GAN的方法，和zero-shot generation的方法，适应于各种不同下游任务，风格，图像超分辨率等。

首先输入图像到一个VQVAE（但是这里面在codebook后用了GPT来输出token），另外引入了一个Text输入，通过一个text tokenizer得到text tokens并且与image token concat后作为GPT输入，最后取前8192再查codebook，输出到decoder得到预测图像。

2、Cogview2

22年的工作，相较于Cogview来说，攻克了三个问题，建立了一个CogLM模型。

（1）对于Cogview在VQVAE中引入了transformer但只能处理单向的tokens，换句话说，每一个token只关注前面n-1的tokens的问题，在Cogview2中引入了Mask，（应该是学了MaskGIT，但是MaskGIT是bidirect-transformer，或者是学了MAE），Mask掉部分tokens，并行操作，保证可以处理双向上下文。

（2）考虑到高分辨率水平上局部一致性问题，定制了一个新的CUDA内核，而不是在transformer中加交叉注意力，这样减少了内存开销。

（3）另外提出了一个局部并行自回归生成（LoPAR），在从低分辨率上升到高分辨率的过程中（编码器输出20*20，解码器输入60*60），引入了一个局部并行自回归生成来打破生成token的独立性，同时保持并行性，这相比于Cogview的滑动窗口的生成速度快十倍。其中初始mask掉75%的像素，并通过LoPAR从一个初始局部窗开始滑动，并且忽略已经生成的部分，向其他方向滑动生成。

3、Cogvideo

22年的工作，基于Cogview2的CogLM模型，但是输入的是视频帧，原来一张input经过VQVAE后是20*20的tokens，而如果当前输入是5帧图像，那么就需要20*20*5tokens，并且相较于Cogview引入Input text，这里面还要引入视频帧率，最后同样输入到CogLM的transformer结构，但是相较于Cogview2又引入了一个新的时间注意力通道，原有的CogLM所有参数冻结，只有新的注意力机制保持训练，以训练时间信息。

另外提出一个Swin注意力，就是原有Cogview的mask策略在Cogvideo上的改进，是在帧方向的优化。保证不同帧可以进行并行操作。

二、CogvideoX概述

该论文提出了一个基于Diffusion Transformer的大规模文本到视频模型CogVideoX，可以实现生成与文本对齐的10s连续视频，分辨率为768*1360 pixels。为了解决现有视频模型存在移动空间有限，持续时间短，难以生成基于文本的连续视频问题，该论文提出了几种方法。

（1）提出了3D VAE来从时间空间维度压缩视频，以提高视频保真度和压缩率。

（2）为了保证文本-视频对齐，提出了具有exper AdaLN的expert Transformer来促进文本和视频的深度融合。

（3）采用渐进式训练和多分辨率帧包技术，使得CogvideoX擅长连贯的，长时间的，具有显著运动特征的视频。

（4）设计了一个文本-视频数据的处理pipeline，包括预处理，视频字母处理工作，极大地有助于生成质量和语义对齐。

CogvideoX在多种客观指标和人类评估下均达到SOTA性能。

对于CogvideoX的训练，训练了两个不同的参数量大小，CogVideoX-2B，CogVideoX-5B。

The performance of openly-accessible
text-to-video models in different aspects.

三、CogVideoX架构

1、整体架构

CogVideoX整体架构是一个双路DiT结构，相比于以往的DiT把文本作为condition，通过MLP来引导AdaLN的参数，CogVideoX直接用T5将文本编码并经过双路DiT Expert Transformer模块。

模块的改进包括对于输入视频帧（序列图像）经过3D Causal VAE进行编码（他提出的）。

将原有的AdaLN改进为Expert AdaLN。

Self-Attention改为3D full Attention，并且把文本编码tokens concat到视频帧token后面作为条件。

2、3D Causal VAE

由于视频中包含时间空间信息，相比于图像有更大的数据量，所以3D Causal VAE的目的是结合3D Causal Convlution来在空间和时间上压缩视频，保证更高的压缩比，这也在很大程度上提高质量和视频重建的连续性。

这个a图中，模型中所有的3D卷积都替换成了3D Causal Convolution（3D因果卷积），这个因果卷积要求每个时间步的输出只依赖于当前时间步以及之前的时间步数据，而不依赖于未来的时间步，也就是说，一个三维数据是[H,W,T]，先不考虑颜色，从时间层面看那么计算卷积后的 $t_3$ 时刻的特征，只能依赖 $t_1,t_2$ 时刻下的全部特征，而以往的3D卷积会完全考虑 $t_1,t_2,...,t_n$ 所有时刻的特征。