当前位置：首页 > news >正文

Flow-based生成模型理解

news 2025/7/10 14:34:49

Flow-based Generative Model

文章为看视频Flow-Based Model-李宏毅的笔记

1.生成模型的分类

Auto-regressive Model(Component-by-component)
Variational Auto-encoder：优化的是一个下界
Generative Adversarial Network
Flow-based Model：

2.Flow-based Generative Model的数学原理

2.1Jacobian

$x = f (z)$

针对上述函数 $f$ ，它的Jacobian是x的各项对z的各项求偏微分后组合得到的矩阵

针对函数 $f$ 和 $f^{-1}$ ：
$x = f (z)$

$z = f^{-1}(x)$

$f$ 和 $f^{-1}$ 是inverse function，那么它们的Jacobian也是inverse的，即相乘得到 $I$ (单位矩阵)：
$J_f J_{f{-1}}=I$

2.2Determinant

意义：将一个矩阵算出一个scalar，代表高维空间的体积

2.3Change of Variable Theorem

针对变化：
$x = f (z)$
general的变量变化公式如下：
$p(x)|det(J_f)| = \pi(z)$
即：
$\pi(z) |1/det(J_f)| = \pi(z) |det(J_{f{-1}})|$
最终用的是：
$\pi(z) |det(J_{f{-1}})|$

2.4Flow-based Model原理

Generator:
$x = G (z)$
$Generator^{-1}$ :
$z = G^{-1}(x)$
根据变量变化公式：
$p_G(x) = \pi(z)|det(J_{G^{-1}})|$
取log(并将 $z = G^{-1}(x)$ 代入得到)：
$logp_G(x) = log\pi(G^{-1}(x)) + log|det(J_{G^{-1}})|$
Flow-based Model要求：
$G^* = \arg\max_G \sum_{i=1}^{m} \log p_G(x^i)$
其中 $x^i$ 代表从真实分布 $p_{Data}$ 采样得到的真实样本

再具体一些，我们得到的z满足均值为0，方差为1的多变量高斯分布，即z ~ $ N(0, I)$，即
$p_Z(z) = (2\pi)^{-\frac{d}{2}} e^{-\frac{1}{2} z^T z}$
因此，计算x的Log-likelihood可以按照下述公式：
$logp_G(x) = -\frac{d}{2} \log(2\pi) - \frac{1}{2} G^{-1}(x)^T G^{-1}(x) + \sum_{l=1}^L \log \left| \det J_{G^{-1}_l}(y_{l-1}) \right|$
其中， $y_0 = x ∈ X$ ， $y_L = z ∈Z$ ， $y_l = G^{-1}_l(y_{l-1})$ ，其中 $\{y_l\}^{L-1}_{l=1}$ 是 $G^{-1}$ 的中间输出。

其中， $z = G^{-1}(x)$ ，公式也可以写成：
$logp_G(x) = -\frac{d}{2} \log(2\pi) - \frac{1}{2} z^Tz + \sum_{l=1}^L \log \left| \det J_{G^{-1}_l}(y_{l-1}) \right|$

要确保G可逆，z和x的dimension是一样的（G可逆的必要不充分条件）

2.5多个G串联

2.6实际怎么训练

根据公式：
$logp_G(x) = log\pi(G^{-1}(x)) + log|det(J_{G^{-1}})|$
我们要最大化 $p_G(x)$ ，得到 $G^*$ ：
$G^* = \arg\max_G \sum_{i=1}^{m} \log p_G(x^i)$
其实只涉及到 $G^{-1}$ ，所以我们实际是训练 $G^{-1}$ ( $z = G^{-1}(x)$ )， $G^{-1}$ 训练好之后，再把它反过来得到 $G$ ，去完成生成任务( $x = G (z)$ )

2.7Coupling Layer 和 $Coupling\ Layer^{-1}$

Coupling Layer 和 $Coupling\ Layer^{-1}$ 相当于G和 $G^{-1}$

Coupling Layer相当于多个G串联时候的每一个G，是生成器Generator

Generator：由z算x(即：怎么算Coupling Layer)

$Coupling\ Layer^{-1}$ 相当于多个 $G^{-1}$ 串联时候的每一个 $G^{-1}$

$Coupling\ Layer^{-1}$ ：由x算z(即：怎么算Coupling Layer的inverse，代表 $G^{-1}$ )

2.8怎么算Coupling Layer的Jacobian

2.9堆叠Coupling Layer

直接堆Coupling Layer会导致不变的高斯噪声部分会延续到最终结果中，所以不是直接堆叠。GLOW中利用1x1Convolution来交换channel，然后coupling layer就可以每次保留固定index的channel的信息，最终起到每次保留不同channel的信息，从而不会把高斯噪声带到最后。这里的1x1Convolution也是生成器的一部分，所以也需要是可逆的，它的Jacobian见右下角，(只有对角线为3x3的W矩阵，其余为0，因为只有对着的绿色蓝色部分是互相有影响的，求偏微分有值，其余没有相对着的互相无影响，求偏微分为0)，这个Jacobian的det值见左上橙色部分，为 $det(W)^{d*d}$