当前位置：首页 > news >正文

近似推断 - 最大后验推断和稀疏编码篇

news 2025/12/15 5:33:51

前言

在深度学习的广阔领域中，近似推断扮演着至关重要的角色。当面对复杂的概率模型时，精确推断往往难以实施，因此我们需要借助近似推断来寻找解决方案。其中，最大后验推断（ $\text{MAP}$ ）和稀疏编码是两种极具代表性的方法。

序言

最大后验推断 $\text{MAP}$ 是在贝叶斯推断的基础上，结合了先验知识的一种推断方法。与极大似然估计（ $\text{MLE}$ ）只关注当前样本不同， $\text{MAP}$ 还考虑了参数的先验概率，从而能够在数据稀少或有强先验知识的情况下提供更准确的参数估计。这种方法在医学图像处理、自然语言处理等领域有着广泛的应用。

而稀疏编码则是一种通过加入稀疏性先验在隐藏层实现的特征提取和学习机制。它试图在表示数据时，尽可能使用少的特征或基向量，从而提高数据的表示效率和模型的泛化能力。稀疏编码在图像处理、信号处理等领域展现出了巨大的潜力。

最大后验推断和稀疏编码

我们通常使用推断 ( $\text{inference}$ ) 这个术语来指代给定一些其他变量的情况下计算某些变量概率分布的过程。
- 当训练带有潜变量的概率模型时，我们通常关注于计算 $p(\boldsymbol{h} \mid \boldsymbol{v})$ 。
- 在推断中另一个选择是计算一个最有可能的潜变量值来代替在所有可能值的完整分布上的推断。
- 在潜变量模型中，这意味着计算：
  $\boldsymbol{h}^\ast=\argmax\limits_h p(\boldsymbol{h} \mid \boldsymbol{v})$ $\quad\textbf{---\footnotesize{公式1}}$
- 这被称作是最大后验 ( $\text{Maximum A Posteriori}$ ) 推断，简称 $\text{MAP}$ 推断。
$\text{MAP}$ 推断并不是一种近似推断，它只是精确地计算了最有可能的一个 $\boldsymbol{h}^\ast$ 。
- 然而，如果我们希望能够最大化 $\mathcal{L}(\boldsymbol{v},\boldsymbol{h},q)$ ，那么我们可以把 $\text{MAP}$ 推断看成是输出一个 $q$ 值的学习过程。
- 在这种情况下，我们可以将 $\text{MAP}$ 推断看成是近似推断，因为它并不能提供一个最优的 $q$ 。
我们回过头来看看近似推断 - 推断是一个优化问题篇
中所描述的精确推断，它指的是关于一个在无限制的概率分布族中的 $q$ 分布使用精确的优化算法来最大化：
$\mathcal{L}(\boldsymbol{v},\boldsymbol{\theta},q)=\mathbb{E}_{\textbf{h}\sim q}[\log p(\boldsymbol{h},\boldsymbol{v})]+H(q)$ $\quad\textbf{---\footnotesize{公式2}}$
我们通过限定 $q$ 分布属于某个分布族，能够使得 $\text{MAP}$ 推断成为一种形式的近似推断。具体地说，我们令 $q$ 分布满足一个 $\text{Dirac}$ 分布：
$q(\boldsymbol{h}\mid\boldsymbol{v})=\delta(\boldsymbol{h}-\boldsymbol{\mu})$ $\quad\textbf{---\footnotesize{公式3}}$
这也意味着现在我们可以通过 $\mu$ 来完全控制 $q$ 。通过将 $\mathcal{L}$ 中不随 $\mu$ 变化的项丢弃，剩下的我们需要解决的是一个优化问题：
$\boldsymbol{\mu}^\ast=\argmax\limits_{\boldsymbol{\mu}}\log p(\boldsymbol{h}=\boldsymbol{\mu},\boldsymbol{v})$ $\quad\textbf{---\footnotesize{公式4}}$
这等价于 $\text{MAP}$ 推断问题：
$\boldsymbol{h}^\ast=\argmax\limits_{\boldsymbol{h}}\log p(\boldsymbol{h}\mid\boldsymbol{v})$ $\quad\textbf{---\footnotesize{公式5}}$
因此我们能够解释一种类似于 $\text{EM}$ 算法的学习算法，其中我们轮流迭代两步：
- 一步是用 $\text{MAP}$ 推断估计出 $\boldsymbol{h}^\ast$ ，
- 另一步是更新 $\boldsymbol{\theta}$ 来增大 $\log p(\boldsymbol{h}^\ast, \boldsymbol{v})$ 。
从 $\text{EM}$ 算法角度看，这也是对 $\mathcal{L}$ 的一种形式的坐标上升， $\text{EM}$ 算法的坐标上升中，交替迭代时通过推断来优化 $\mathcal{L}$ 关于 $q$ 以及通过参数更新来优化 $\mathcal{L}$ 关于 $\boldsymbol{\theta}$ 。
- 作为一个整体，这个算法的正确性可以得到保证，因为 $\mathcal{L}$ 是 $\log p(\boldsymbol{v})$ 的下界。
- 在 $\text{MAP}$ 推断中，这个保证是无效的，因为这个界会无限地松，由于 $\text{Dirac}$ 分布的熵的微分趋近于负无穷。
- 然而，人为加入一些 $\boldsymbol{\mu}$ 的噪声会使得这个界又有了意义。
$\text{MAP}$ 推断作为特征提取器以及一种学习机制被广泛的应用在了深度学习中。在稀疏编码模型中，它起到了关键作用。
我们回过头来看线性因子模型 - 稀疏编码篇中的稀疏编码，稀疏编码是一种在隐藏单元上加上了鼓励稀疏的先验知识的线性因子模型。
- 一个常用的选择是可分解的拉普拉斯先验，表示为：
  $p(h_i)=\displaystyle\frac{\lambda}{2} e^{(-\lambda| h_i|)}$ $\quad\textbf{---\footnotesize{公式6}}$
可见的节点是由一个线性变化加上噪音生成的：
$p(\boldsymbol{v}\mid\boldsymbol{h})=\mathcal{N}(\boldsymbol{v};\boldsymbol{Wh}+\boldsymbol{b},\beta^{-1}\boldsymbol{I})$ $\quad\textbf{---\footnotesize{公式7}}$
计算或者表达 $p(\boldsymbol{h}\mid\boldsymbol{v})$ 太过困难。
- 每一对 $h_i$ ， $h_j$ 变量都是 $\boldsymbol{v}$ 的母节点。
- 这也意味着当 $\boldsymbol{v}$ 可观察时，图模型包含了一条连接 $h_i$ 和 $h_j$ 的活跃路径。
- 因此 $p(\boldsymbol{h}\mid\boldsymbol{v})$ 中所有的隐藏单元都包含在了一个巨大的团中。
- 如果模型是高斯，那么这些相互作用关系可以通过协方差矩阵来高效地建模。
- 然而稀疏型先验使得这些相互作用关系并不是高斯。
$p(\boldsymbol{v} \mid \boldsymbol{h})$ 的复杂性导致了似然函数的对数及其梯度也很难得到。
- 因此我们不能使用精确的最大似然学习来进行学习。
- 取而代之的是，我们通过 $\text{MAP}$ 推断以及最大化由以 $\boldsymbol{h}$ 为中心的 $\text{Dirac}$ 分布所定义而成的 $\text{ELBO}$ 来学习模型参数。
如果我们将训练集中所有的 $\boldsymbol{h}$ 向量拼在一起并且记为 $\boldsymbol{H}$ ，并将所有的 $\boldsymbol{v}$ 向量拼起来组成矩阵 $\boldsymbol{V}$ ，那么稀疏编码问题意味着最小化：
$J(\boldsymbol{H},\boldsymbol{W})=\sum\limits_{i,j}|H_{i,j}|+\sum\limits_{i,j}\left(\boldsymbol{V}-\boldsymbol{HW}^\top\right)_{i,j}^2$ $\quad\textbf{---\footnotesize{公式8}}$
为了避免如极端小的 $\boldsymbol{H}$ 和极端大的 $\boldsymbol{W}$ 这样的病态的解，许多稀疏编码的应用包含了权值衰减或者对 $\boldsymbol{H}$ 列范数的限制。
我们可以通过交替迭代最小化 $J$ 分别关于 $\boldsymbol{H}$ 和 $\boldsymbol{W}$ 的方式来最小化 $J$ 。两个子问题都是凸的。事实上，关于 $\boldsymbol{W}$ 的最小化问题就是一个线性回归问题。然而关于这两个变量同时最小化 $J$ 的问题并不是凸的。
关于 $\boldsymbol{H}$ 的最小化问题需要某些特别设计的算法诸如特征符号搜索方法 ( $\text{Lee et al., 2007}$ )。