当前位置: 首页 > news >正文

论文阅读笔记-Incorporating Copying Mechanism in Sequence-to-Sequence Learning

前言

最近看了一篇ACL2021的Dialog Policy Learning模型的文章,阅读笔记如下:
阅读笔记
模型结构里面使用到了一个Copying Mechanism的技巧,因此比较感兴趣的翻了这篇原文阅读。本篇论文提出了CopyNet模型,能够自动的,决定下一步的预测是生成模式还是复制模式。生成模式就是我们常说的注意力机制,复制模式就是这篇文章的一个创新点。复制模式其实不难理解,从我们人类的经验视角来看,在阅读文章或者做一些摘要的时候,除了自己会生成一些概括语句之外,还会从文章当中去摘抄一些核心句子。因此我们在生成句子时,可以选择性的复制某些关键词,比如如下这样:
在这里插入图片描述
如上述的一些人名等OOV_token,如果单单使用传统的Attention是无法处理的,所以需要通过某种手段来解决。Copying Mechanism从一定程度上解决这个问题,用原Paper的说法,模型只需要更少的理解,就能够确保文字的保真度,对于摘要,对话系统等来说,能够提高文字的流畅度和准确率,并且也是端到端进行训练。

模型细节

模型依旧是Encoder-Decoder的结构,不过是在Decoder中,融入了Copying Mechanism,首先看一下模型的整体结构,如下图:
在这里插入图片描述
模型的Encoder部分就是使用了Bi-RNN,编码得到的hidden state 统一用 M M M 表示(上图右侧的 M M M),下面我们重点来讲一下Decoder。

Decoder

Decoder也是使用RNN来获取 M M M 的信息从而预测目标序列,只不过并不是直接解码,而是做了如下三个改动:

生成模式&复制模式

设有一个词表 V = { v 1 , v 2 , . . . , v n } V=\{v_1,v_2,...,v_n\} V={v1,v2,...,vn},使用UNK表示OOV,输入表示为 X = { x 1 , x 2 , . . . , x T s } X=\{x_1,x_2,...,x_{T_s}\} X={x1,x2,...,xTs}。因为 X X X 当中包含一些词汇表中没有的单词,所以使用copy mode,可以输出部分OOV单词,这样就使得我们整个词表为 V ∪ U N K ∪ X V\cup UNK\cup X VUNKX。在第 t t t 步解码的state 表示为 s t s_t st y t y_t yt 表示生成目标词概率,则两个模式的混合概率模型表示为:
p ( y t ∣ s t , y t − 1 , c t , M ) = p ( y t , g ∣ s t , y t − 1 , c t , M ) + p ( y t , c ∣ s t , y t − 1 , c t , M ) p(y_t|s_t,y_{t-1},c_t,M)=p(y_t,g|s_t,y_{t-1},c_t,M)+p(y_t,c|s_t,y_{t-1},c_t,M) p(ytst,yt1,ct,M)=p(yt,gst,yt1,ct,M)+p(yt,cst,yt1,ct,M)
其中, g g g 表示生成模式, c c c 表示复制模式,则两个模式的概率模型分别为:
p ( y t


http://www.mrgr.cn/news/47674.html

相关文章:

  • linux下中文输入法ibus
  • 智能合约:区块链世界的自动化契约
  • 基于Thinkphp6+uniapp的陪玩陪聊软件开发方案分析
  • Mysql--架构篇--体系结构(连接层,SQL层,存储引擎层,文件存储层)
  • Docker 拉取镜像速度慢,容易失败?
  • 6 分布式限流框架
  • QFontComboBox Class
  • Redis 数据类型list(列表)
  • 系统架构设计师教程 第16章 16.2 嵌入式系统软件架构原理与特征 笔记
  • 十、索引优化与查询优化
  • 解决 IntelliJ IDEA 运行时 “Command line is too long“ 问题
  • 地级市-专利申请与获得情况(1990-2022年)
  • 2024年编程资料【9月份部分】
  • Keil生成lst文件,creating preprocessor file
  • 【分布式技术】简单聊聊什么是区块链
  • 【拥抱AIGC】应该如何衡量AI辅助编程带来的收益
  • 大数据开发基础实训室设备
  • Java项目实战II基于Java+Spring Boot+MySQL的中药实验管理系统(源码+数据库+文档)
  • Spring MVC:精通JSON数据返回的几种高效方式
  • 数据库数据加密的实际作用
  • ElasticsearchClient入门指南
  • 如何使用子查询(Subquery)?
  • 【openwrt-21.02】T750 openwrt 出现nat46_ipv4_input+0x90/0x4b4问题分析及解决方案
  • YOLOv11训练自己数据集_笔记1
  • Json-Rpc框架(项目设计 —— 服务端客户端 模块功能划分简介)
  • OpenAI元老级人物Luke Metz官宣离职