当前位置: 首页 > news >正文

大语言模型(2)--GPT-1

GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型(《Improving Language Understanding by Generative Pre-Training》),它采用了无监督预训练和有监督微调相结合的方法,以增强模型的通用任务求解能力。在此之前,NLP领域的深度模型主要采用监督学习,从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用,训练超大模型的成本过高且耗时。另外,与之前的RNN注意力增强不同,GPT模型使用的Transformer架构比RNN实现的结构化记忆更强。下面介绍一些GPT-1的基础知识:

模型架构

GPT-1模型使用Transformer的Decoder结构,专注于预测下一个词,它进行了一些优化:普通的Decoder包含两个Multi-Head Attention结构,但GPT-1只保留了Mask Multi-Head Attention。GPT-1的核心结构由12个Transformer Decoder的block堆叠而成,GPT-1拥有约1.17亿个参数。
GPT-1的模型以及微调后用于下游任务的训练

GPT-1的模型以及微调后用于下游任务的训练

预训练&微调

GPT-1的核心思想是通过二段式的训练来提高语言理解能力,第一步是利用大量未标注数据进行无监督预训练,使用语言建模目标来设置初始参数,当时使用的预训练来源是BookCorpus,它包含大量的长篇连续文本(号称几千本小说),因而有助于模型学习处理长距离信息,语料库的数据量约为5GB。第二步微调:监督的判别式“微调”阶段,主要根据目标任务进行调整参数,解决下游任务。

效果

GPT-1使用了半监督学习,GPT-1可以很好地完成若干下游任务(文本分类、问答等)。在多个下游任务中,微调后的GPT-1系列模型型在分类任务、问答等的性能均超过了当时针对特定任务训练的SOTA模型(下图)。然而,GPT-1在生成文本的连贯性和多样性有限,并且在学术界没有引起足够的关注。
问答上的效果对比

问答上的效果对比

在这里插入图片描述

分类、语义相似性上的效果对比

小结

GPT-1作为GPT系列的起点,并且开启了预训练语言模型在NLP领域应用的大门。同时,为后续更强大的GPT模型,如GPT-3和GPT-4等都提供了很好的经验和技术积累,在自然语言处理(NLP)领域具有重要意义。


http://www.mrgr.cn/news/79319.html

相关文章:

  • WireShark 下载、安装和使用
  • 软考-软件设计师-基础知识Chapter01-计算机系统
  • 【Python】【Conda 】Conda 与 venv 虚拟环境优缺点全解:如何做出明智选择
  • LLM大语言模型私有化部署-OpenEuler22.03SP3上容器化部署Ollama与OpenWebUI
  • 【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数(三)
  • 解决 Nginx 部署 React 项目时的重定向循环问题
  • 【C语言】C语言的潜规则:运行环境对C程序执行特性的影响
  • 高级 CEF 内核集成与 VC++——CEF系统架构与开发环境搭建
  • 数据结构代码归纳
  • 大数据新视界 -- 大数据大厂之 Hive 临时表与视图:灵活数据处理的技巧(上)(29 / 30)
  • [创业之路-169]:《BLM战略规划》- 战略洞察 (战略能力中最最核心的能力) - 市场洞察 -1- 看宏观/行业 - 行业:激光器行业的详细分析
  • 【STM32 Modbus编程】-作为主设备读取保持/输入寄存器
  • 如何在鸿蒙API9和x86模拟器中使用MQTT
  • ️️耗时一周,肝了一个超丝滑的卡盒小程序
  • 图生3d 图生全景 学习笔记
  • 开发基础(3):开发应用沉浸式效果 组件安全区方案
  • Android学习14--charger
  • react hooks的理解
  • 点云标注软件SUSTechPOINTS的安装和使用,自测win10和ubuntu20.04下都可以用
  • 小白爬虫——selenium入门超详细教程
  • 人大金仓(KingBaseEs)数据库操作手册
  • Docker-Compose环境变量
  • web基础和http协议
  • 「Mac畅玩鸿蒙与硬件43」UI互动应用篇20 - 闪烁按钮效果
  • Mysql数据库基础篇笔记
  • LearnOpenGL学习(高级OpenGL -- 深度测试,模板测试,)