当前位置：首页 > news >正文

【大语言模型-论文精读】谷歌-BERT：用于语言理解的预训练深度双向Transformers

news 2025/4/23 21:20:03

【大语言模型-论文精读】谷歌-BERT：用于语言理解的预训练深度双向Transformers

Note：持续更新中，未完。。。

目录

文章目录

【大语言模型-论文精读】谷歌-BERT：用于语言理解的预训练深度双向Transformers
- 目录
- 1. 引言
- 2. 简介

1. 引言

@article{devlin2018bert,title={Bert: Pre-training of deep bidirectional transformers for language understanding},author={Devlin, Jacob},journal={arXiv preprint arXiv:1810.04805},year={2018}
}

在这里插入图片描述

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年首次提出的一种预训练深度双向Transformers模型，具有较强的自然语言理解能力。这篇论文发表后，Bert模型迅速从自然语言理解（NLP）领域扩展应用到计算机视觉、多媒体、图形学图像等诸多领域，取得令人瞩目的效果。这篇经典的论文发表至今，已经被引用113695次！可以肯定地说：这是一篇几乎所有从事自然语言处理（Natural Lanugage Processing, NLP），深度学习(Deep Learning, DL)和大语言模型(Large language model, LLM)相关方向的研究者，必看且必了然于胸的一篇佳作。
在这里插入图片描述

2. 简介

语言模型预训练已经被证明可以有效地改善许多自然语言处理任务。这些任务包括：句子级任务和词符级任务。句子级任务，比如自然语言推理和释义，目的是通过对句子进行整体分析来预测句子之间的关系；词符级人物，比如命名实体识别和问题回答，要求模型在词符级产生细粒度的输出。

自然语言处理与理解（Natural Language Process & Understanding）

现有的两种策略可以将预训练好的语言表征(表示)应用于下游任务中：基于特征和微调（fine-tuning, FT）。

基于特征的方法，比如ELMo，使用特定于任务的架构，将预先训练好的表征作为额外的特征。
微调方法，比如生成式预训练Transformer(OpenAI GPT)，引入最少得任务相关的参数，在下游任务中通过简单的微调所有预训练的模型参数。

这两种方法在预训练期间具有相同的目标函数，它们都使用单向语言模型来学习通用语言表征（表示）形式。

在谷歌的这篇论文中，作者认为：当前的技术限制了预训练表示的能力，特别是对于微调的方法。最主要的限制是：标准语言模型是单向的，并且这限制了可以在预训练期间使用的模型结构的选择。 举个例子，

http://www.mrgr.cn/news/44448.html

相关文章：

FredNormer: 非平稳时间序列预测的频域正则化方法

Java之String类

论文阅读笔记-Are Pre-trained Convolutions Better than Pre-trained Transformers?

node版本管理nvm详细教程

Qt-QTabWidget容器类控件(40)

如何在 Redis 中管理副本和客户端？？

Stable Diffusion绘画 | IP角色多视图生成技巧

C++：模板初阶

国外电商系统开发-运维系统文件上传

java注解的处理器

第6篇：三大渗透测试框架权限维持技术

轻松部署大模型：Titan Takeoff入门指南

[CKA]十五、添加 Sidecar 容器并输出⽇志

Spring Boot驱动的现代医院管理系统

怎么成为年薪53万的AI产品经理？我分析了200份大厂的招聘要求

js 字符串下划线转驼峰驼峰转下划线

Polars的Functions

一行代码轻松搞定！Sq.io让你的数据库查询像玩JSON一样简单

ChatGPT写论文全流程揭秘：从构思到成稿！

Python知识点：结合Python工具，如何使用TfidfVectorizer进行文本特征提取