当前位置：首页 > news >正文

Gated CNN:卷积门控

news 2025/12/24 3:16:57

paper： Language Modeling with Gated Convolutional Networks

这篇论文提出了一种基于卷积的语言模型，使用简化的门控机制来提升效率。与传统的循环神经网络（RNN）相比，这种方法可以并行处理序列，从而显著降低计算延迟。尽管它是有限上下文模型，但在处理长依赖时依然表现出色，在WikiText-103和Google Billion Words等大规模数据集上取得了优异的表现，是首个能与RNN竞争的非循环方法。

在这里插入图片描述

什么是Gated CNN？

Gated CNN的核心思想是使用卷积层代替循环结构。与RNN相比，卷积层的计算可以并行，这让Gated CNN能够更快地处理长文本。同时，通过堆叠卷积层，模型可以捕捉更大的上下文，尽管它的上下文范围是有限的，但在实践中已证明这种方法可以达到甚至超越RNN的表现。

Gated CNN的工作原理

Gated CNN的基本流程如下：

词嵌入表示：首先，输入句子中的每个词都会被表示为一个词向量（word embedding）。这个向量包含了词的语义信息，是模型理解上下文的基础。

卷积操作与门控：词向量作为输入，经过多层卷积操作。在每一层卷积中，输出门会为每个词分配权重，用于控制信息的传递强度。卷积层的输出会根据输出门的权重进行筛选，只有重要的信息才能被有效地传递到下一层。

叠加卷积层：通过多层卷积的叠加，模型能够扩展感受野，从而在有限的卷积层中捕捉较大的上下文信息。这个过程相当于从局部到全局的逐步理解，使模型不仅能关注到邻近的词，还能感知到整个句子结构。

残差连接：为了保证信息传递的稳定性，Gated CNN引入了残差连接（Residual Connection），即每一层的输入都会直接添加到输出中，避免信息在多层传递过程中丢失。残差连接的存在可以提高模型的深度和稳定性。

自适应Softmax：在最后的输出层，Gated CNN使用了一种改进的softmax函数——自适应softmax。自适应softmax会根据词的频率调整计算资源的分配，为高频词分配更多容量，为低频词分配更少容量。这一改进有效降低了内存需求，并加快了训练和测试的速度。

$h_l(X) = (X \ast W + b) \odot \sigma(X \ast V + c)$

其中：

$X$ 是输入特征图，表示每层的输入数据；
$W$ 和 $V$ 是可学习的卷积核参数，控制不同特征的生成；
$b$ 和 $c$ 是偏置项；
$\sigma$ 是 sigmoid 函数，将输出压缩到 0 到 1 之间，公式为：
$\sigma(x) = \frac{1}{1 + e^{-x}}$
$\ast$ 表示卷积操作；
$\odot$ 表示逐元素乘积，用来实现门控机制。

Gated Linear Unit（GLU）VS Gated Tanh Unit（GTU）

Gated CNN采用了门控线性单元（Gated Linear Unit, GLU）而不是传统的门控 Tanh 单元（Gated Tanh Unit, GTU）。GLU不使用 tanh 函数，而直接使用 𝑋 本身。因为tanh会将信息压缩到 -1 到 1 的范围，这会导致多层叠加时信息逐渐消失。而GLU通过直接使用 𝑋保持了信息的强度，帮助梯度在多层间稳定地传播。

举例说明

首先

将每个词转换为向量表示（词嵌入）。假设每个词被嵌入到一个 4 维向量空间中。句子中的词变成以下形式：
“我” → $[0.2, 0.5, 0.1, 0.3]$
“喜欢” → $[0.6, 0.7, 0.2, 0.5]$
“喝” → $[0.3, 0.4, 0.9, 0.2]$
“咖啡” → $[0.8, 0.3, 0.7, 0.6]$

将这些词嵌入组合起来，我们得到输入矩阵 $X$ ：

$\begin{bmatrix} 0.2 & 0.5 & 0.1 & 0.3 \\ 0.6 & 0.7 & 0.2 & 0.5 \\ 0.3 & 0.4 & 0.9 & 0.2 \\ 0.8 & 0.3 & 0.7 & 0.6 \end{bmatrix}$

步骤 2：卷积操作与门控机制

每一层中，模型会对 $X$ 进行卷积操作，并通过门控机制选择性地传递信息。

假设我们在卷积层有两个卷积核 $W$ 和 $V$ ，分别用于生成主要特征和门控信号：

卷积核 $W$ 用于提取主要特征。假设 $W$ 的大小为 $\times 4$ 。
卷积核 $V$ 用于生成门控信号。同样假设 $V$ 的大小为 $\times 4$ 。

步骤 3: 卷积生成特征图：

使用 $W$ 卷积 $X$ ，加上偏置项 $b$ ，生成主要特征图： $X * W + b$ 。
使用 $V$ 卷积 $X$ ，加上偏置项 $c$ ，生成门控信号： $X * V + c$ 。

4. 门控机制：将门控信号通过 sigmoid 函数压缩到 0 到 1 之间：

$\sigma(X * V + c)$

然后对主要特征和门控信号逐元素相乘，实现选择性信息传递：

$h_l(X) = (X * W + b) \odot \sigma(X * V + c)$

假设我们得到了以下结果：

主要特征图 $X * W + b$ ： $\begin{bmatrix} 0.5 & 0.8 \ 0.3 & 0.7 \end{bmatrix}$
门控信号 $\sigma(X * V + c)$ ： $\begin{bmatrix} 0.9 & 0.1 \ 0.7 & 0.8 \end{bmatrix}$
则输出 $h_l(X)$ 为：

$h_l(X) = \begin{bmatrix} 0.5 \times 0.9 & 0.8 \times 0.1 \\ 0.3 \times 0.7 & 0.7 \times 0.8 \end{bmatrix} = \begin{bmatrix} 0.45 & 0.08 \\ 0.21 & 0.56 \end{bmatrix}$