【循环神经网络】RNN介绍
在人工神经网络中,”浅层网络”是指具有一个输入层、一个输出层和最多一个没有循环连接的隐藏层的网络。随着层数的增加,网络的复杂性也在增加。更多的层或循环连接通常会增加网络的深度,并使其能够提供不同级别的数据表示和特征提取,称为“深度学习”。循环神经网络(Recurrent Neural Network, RNN)是一类有监督的机器学习模型,由具有一个或多个反馈回路的人工神经元组成,反馈回路使得网络具备记忆能力,可以存储一部分之前的信息,适用构建时间序列分析、文本情感分析等模型。本文主要阐述简单人工神经网络存在的局限,并介绍 RNN 的基本结构。
一、ANN 存在的局限
在人工神经网络中,”浅层网络”是指具有一个输入层、一个输出层和最多一个没有循环连接的隐藏层的网络。随着层数的增加,网络的复杂性也在增加。更多的层或循环连接通常会增加网络的深度,并使其能够提供不同级别的数据表示和特征提取,称为“深度学习”。
然而对于输入或输出是序列的问题, ANN 存在着如下局限:
1)输入、输出是固定长度,无法适应可变长度的问题,例如文本生成;
2)不是共享权重,无法共享不同位置的特征,且随着网络深度的增加,训练难度也随之增大。
二、RNN 的基本结构
循环神经网络(Recurrent Neural Network, RNN)是一类有监督的机器学习模型,由具有一个或多个反馈回路的人工神经元组成。反馈回路是随时间或序列的循环(在 RNN 中称之为时间)。
在单层感知器中,神经元需要完成两个阶段的计算,分别为对输入进行线性组合,以及非线性激活。激活函数通常为 sigmoid、ReLU 等函数。单层感知器网络任意时刻的输出,仅取决于当前时刻的输入,与时间无关。
假设网络的初始输出为 0,将网络上个时刻的输出连接到输入端,就得到带反馈回路的神经网络。网络不同时刻的输入、线性组合与激活值使用下标进行区分。
在循环神经网络中,通常使用 表示网络状态( 代表 hidden layer)。让网络上个时刻的激活值 作为网络当前的状态 ,并输出网络当前的状态值,就得到了最简单的 RNN 网络。可以看到,RNN 任意时刻的输出,不仅取决于当前输入,还跟网络当前的状态有关。
对于多维情况,输入、隐藏与输出层神经元的数量不再为 1,假设输入层包含 N 个单元,隐藏层包含 M 个单元,输出层包含 P 个单元,网络的输入、状态和输出分别记为
在时间上展开网络,得到如下图结构:
图中 , , 分别为输入层到隐藏层、隐藏层到隐藏层、隐藏层到输出层的权重。
网络模型为
三、RNN 的训练
以监督方式训练 RNN 需要输入和目标值成对的训练数据集。训练的目标是通过优化网络的权重来最小化输出和目标值之间的差异。
损失函数用于评估网络的性能,将输出与预期的目标进行比较,损失函数在所有的时间步上进行累加,
RNN 训练的难点在于正确初始化网络中的权重,并使用优化算法对其进行调整,以尽量减少训练损失。网络参数之间的关系和隐藏状态随时间的动态变化会导致不稳定。通常算法需要大量的迭代来训练模型。