论文阅读笔记-Incorporating Copying Mechanism in Sequence-to-Sequence Learning
前言
最近看了一篇ACL2021的Dialog Policy Learning模型的文章,阅读笔记如下:
阅读笔记
模型结构里面使用到了一个Copying Mechanism的技巧,因此比较感兴趣的翻了这篇原文阅读。本篇论文提出了CopyNet模型,能够自动的,决定下一步的预测是生成模式还是复制模式。生成模式就是我们常说的注意力机制,复制模式就是这篇文章的一个创新点。复制模式其实不难理解,从我们人类的经验视角来看,在阅读文章或者做一些摘要的时候,除了自己会生成一些概括语句之外,还会从文章当中去摘抄一些核心句子。因此我们在生成句子时,可以选择性的复制某些关键词,比如如下这样:
如上述的一些人名等OOV_token,如果单单使用传统的Attention是无法处理的,所以需要通过某种手段来解决。Copying Mechanism从一定程度上解决这个问题,用原Paper的说法,模型只需要更少的理解,就能够确保文字的保真度,对于摘要,对话系统等来说,能够提高文字的流畅度和准确率,并且也是端到端进行训练。
模型细节
模型依旧是Encoder-Decoder的结构,不过是在Decoder中,融入了Copying Mechanism,首先看一下模型的整体结构,如下图:
模型的Encoder部分就是使用了Bi-RNN,编码得到的hidden state 统一用 M M M 表示(上图右侧的 M M M),下面我们重点来讲一下Decoder。
Decoder
Decoder也是使用RNN来获取 M M M 的信息从而预测目标序列,只不过并不是直接解码,而是做了如下三个改动:
生成模式&复制模式
设有一个词表 V = { v 1 , v 2 , . . . , v n } V=\{v_1,v_2,...,v_n\} V={v1,v2,...,vn},使用UNK表示OOV,输入表示为 X = { x 1 , x 2 , . . . , x T s } X=\{x_1,x_2,...,x_{T_s}\} X={x1,x2,...,xTs}。因为 X X X 当中包含一些词汇表中没有的单词,所以使用copy mode,可以输出部分OOV单词,这样就使得我们整个词表为 V ∪ U N K ∪ X V\cup UNK\cup X V∪UNK∪X。在第 t t t 步解码的state 表示为 s t s_t st, y t y_t yt 表示生成目标词概率,则两个模式的混合概率模型表示为:
p ( y t ∣ s t , y t − 1 , c t , M ) = p ( y t , g ∣ s t , y t − 1 , c t , M ) + p ( y t , c ∣ s t , y t − 1 , c t , M ) p(y_t|s_t,y_{t-1},c_t,M)=p(y_t,g|s_t,y_{t-1},c_t,M)+p(y_t,c|s_t,y_{t-1},c_t,M) p(yt∣st,yt−1,ct,M)=p(yt,g∣st,yt−1,ct,M)+p(yt,c∣st,yt−1,ct,M)
其中, g g g 表示生成模式, c c c 表示复制模式,则两个模式的概率模型分别为:
p ( y t