当前位置: 首页 > news >正文

【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers

【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers

Note: 持续更新中,未完。。。


目录

文章目录

  • 【大语言模型-论文精读】谷歌-BERT:用于语言理解的预训练深度双向Transformers
    • 目录
    • 1. 引言
    • 2. 简介


1. 引言

@article{devlin2018bert,title={Bert: Pre-training of deep bidirectional transformers for language understanding},author={Devlin, Jacob},journal={arXiv preprint arXiv:1810.04805},year={2018}
}

在这里插入图片描述

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年首次提出的一种预训练深度双向Transformers模型,具有较强的自然语言理解能力。这篇论文发表后,Bert模型迅速从自然语言理解(NLP)领域扩展应用到计算机视觉、多媒体、图形学图像等诸多领域,取得令人瞩目的效果。这篇经典的论文发表至今,已经被引用113695次!可以肯定地说:这是一篇几乎所有从事自然语言处理(Natural Lanugage Processing, NLP),深度学习(Deep Learning, DL)和大语言模型(Large language model, LLM)相关方向的研究者,必看且必了然于胸的一篇佳作。
在这里插入图片描述

2. 简介

语言模型预训练已经被证明可以有效地改善许多自然语言处理任务。这些任务包括:句子级任务和词符级任务。句子级任务,比如自然语言推理和释义,目的是通过对句子进行整体分析来预测句子之间的关系;词符级人物,比如命名实体识别和问题回答,要求模型在词符级产生细粒度的输出。

自然语言处理与理解(Natural Language Process & Understanding)
在这里插入图片描述

现有的两种策略可以将预训练好的语言表征(表示)应用于下游任务中:基于特征和微调(fine-tuning, FT)。

  • 基于特征的方法,比如ELMo,使用特定于任务的架构,将预先训练好的表征作为额外的特征。
  • 微调方法,比如生成式预训练Transformer(OpenAI GPT),引入最少得任务相关的参数,在下游任务中通过简单的微调所有预训练的模型参数。

这两种方法在预训练期间具有相同的目标函数,它们都使用单向语言模型来学习通用语言表征(表示)形式。

在谷歌的这篇论文中,作者认为:当前的技术限制了预训练表示的能力,特别是对于微调的方法。 最主要的限制是:标准语言模型是单向的,并且这限制了可以在预训练期间使用的模型结构的选择。 举个例子,


http://www.mrgr.cn/news/44448.html

相关文章:

  • FredNormer: 非平稳时间序列预测的频域正则化方法
  • Java之String类
  • 论文阅读笔记-Are Pre-trained Convolutions Better than Pre-trained Transformers?
  • node版本管理nvm详细教程
  • Qt-QTabWidget容器类控件(40)
  • 如何在 Redis 中管理副本和客户端??
  • Stable Diffusion绘画 | IP角色多视图生成技巧
  • C++:模板初阶
  • 国外电商系统开发-运维系统文件上传
  • java注解的处理器
  • 第6篇:三大渗透测试框架权限维持技术
  • 轻松部署大模型:Titan Takeoff入门指南
  • [CKA]十五、添加 Sidecar 容器并输出⽇志
  • Spring Boot驱动的现代医院管理系统
  • 怎么成为年薪53万的AI产品经理?我分析了200份大厂的招聘要求
  • js 字符串下划线转驼峰 驼峰转下划线
  • Polars的Functions
  • 一行代码轻松搞定!Sq.io让你的数据库查询像玩JSON一样简单
  • ChatGPT写论文全流程揭秘:从构思到成稿!
  • Python知识点:结合Python工具,如何使用TfidfVectorizer进行文本特征提取