当前位置: 首页 > news >正文

神经网络通俗理解学习笔记(5) 自然语言处理

自然语言处理

    • 词嵌入和word2vec
    • 词义搜索和句意表示
    • 预训练模型
    • Hugging Face库介绍
    • 经典NLP数据集
    • 代码案例-电影评论情感分析

词嵌入和word2vec

词嵌入是一种 将高维的数据表示映射到低维空间的方法

word embedding 是将语言中的词编码成向量便于后续的分析和处理
词嵌入和词向量基本上是同一个东西

独热编码 one hot
独热编码是一种对分类数据进行编码的方法
独热编码给每种类别分配了一列,属于该类别的该列为1,其他列为0

在这里插入图片描述

独热编码的缺陷
词袋模型,丢失了词的顺序信息
词间正交,难以表示词义
大词表导致矩阵稀疏

在这里插入图片描述

更好的词向量表示方法
Word2Vec 方法
《Efficient Estimation of Word Representations in Vector Space》

在这里插入图片描述
CBOW 是上下文预测当前词
Skip是当前词预测上下文

连续词袋模型!CBOW

在这里插入图片描述

跳元模型 Skip-Gram
在这里插入图片描述
近似训练技巧
在这里插入图片描述

代码实现

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

词义搜索和句意表示

文本搜索方法

在这里插入图片描述

正则搜索

优点

  • 匹配精准
  • 代码简洁
    问题
  • 难以理解语义·
  • 可读性差
  • 性能较低
  • 维护困难
  • 灵活性低

在这里插入图片描述

词义搜索

  • 基于词嵌入
  • 相似度搜索
  • 类比搜索
    在这里插入图片描述
    相比传统关键词搜索,词义搜索可以更加准确理解文本的内容,无需人工配置规则或者 同义词典,可以很好实现信息的检索,文本分类 机器翻译等NLP任务

距离计算方法

在这里插入图片描述

句子向量 Doc2vec

加权平均法
PV-DM
PV-DBOW

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
按句号 叹号 问号来换行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
训练代码看之前的博客
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

应用:
搜索引擎
推荐系统
机器翻译

在这里插入图片描述

预训练模型

word2vector和doc2vector并不是当前最佳解决方案
对一词多义 和上下文信息把握并不好
对长难句也难以学到全部信息

随着transformer的发展
效果更好的词嵌入训练方法更好

比如gpt、bert、t5模型

预训练和迁移学习

迁移学习
特征转移:将有效的特征表征引入到目标任务中
参数传递:将知识编码进共享模型参数中

在这里插入图片描述
在这里插入图片描述
自回归语言模型主要用于文本生成任务
根据上下文生成下一个词,从而实现对语言的理解和生成
自回归模型优势在于可以生成 流畅自然的文本适合于文本生成对话系统等任务
但生成时需要一步步生成每一个词,计算量比较大,不太适合实时应用场景

自编码语言模型主要用于文本编码和表示学习
将文本输入编码进行转化成固定维度向量从而实现对语言的理解和表示
优势在于可以捕获文本和句子的语义信息,适合文本分类、文本相似度的计算等任务
但不擅长生成任务
而且对于较长的文本输入可能出现信息损失的情况

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GPT4 多模态

在这里插入图片描述

存在的问题

  • 模型架构设计
  • Finetune的知识迁移·
  • 可解释性
  • 结果可靠性

在这里插入图片描述

Hugging Face库介绍

方便调用预训练模型

Transformers 模型库·

  • AutoModel模型库
  • AutoTokenizer 工具库
    Datasets 数据集库

在这里插入图片描述
在这里插入图片描述
一种代码直接调用,另一种克隆项目

在这里插入图片描述

数据集

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

经典NLP数据集

预训练语料集

  • Penn Treebank
  • WikiText
    下游任务数据集
  • Glue
  • Super glue
  • Kaggle数据集

Penn Treebank数据集
语料来源:华尔街日报(1989)·
语料规模:1M+
中文树库:
中文宾州树库
清华树库
台湾中研树库

在这里插入图片描述

在这里插入图片描述

代码案例-电影评论情感分析

情感分析
分类任务
负面·
正面
(中性 | 偏正面 | 偏负面)

用途
舆情监控
投资决策
产品口碑
电影评价

在这里插入图片描述
hugging face提供

在这里插入图片描述
预训练模型效果已经很不错
但一般还需要根据实际业务场景对模型进行加训或者微调

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.mrgr.cn/news/28601.html

相关文章:

  • 京东Q3收入2064亿,活跃用户连续三季度双位数增长该咋看?
  • 「QT」文件类 之 QDir 目录类
  • Scala入门基础(17.1)Set集习题
  • WPF-控件的属性值的类型转化
  • Vector Optimization – Stride
  • 【MySQL】explain之type类型
  • LeetCode题练习与总结:多数元素 Ⅱ--229
  • 嵌入式开发—CAN通信协议详解与应用(上)
  • 进程相关的系统调用
  • redis实现分布式锁详细教程,可续锁(看门狗)、可重入
  • 鸿蒙读书笔记2:《鸿蒙操作系统设计原理与架构》
  • C++学习笔记----7、使用类与对象获得高性能(二)---- 理解对象生命周期(2)
  • 3176. 求出最长好子序列 I
  • 计算机组成原理——计算机硬件组成与原理
  • Docker 容器网络技术
  • 【例题】lanqiao4425 咖啡馆订单系统
  • 基于python+django+vue的学生管理系统
  • Great_Data
  • Redis 主从复制
  • MaintenanceController
  • 鱼类计数与识别系统源码分享
  • 英语学习之fruit
  • a√跳房子
  • 英语学习之vegetable
  • 设计模式之原型模式
  • 深度揭秘:日志打印的艺术与实战技巧,让你的代码会说话!