当前位置: 首页 > news >正文

[自然语言处理]概述

1 概念

  • 自然语言处理(natural processing laguage)是计算机科学与语言学中关注于计算机与人类语言间转换的领域。
  • 简史:
    • 1950年,计算机科学之父图灵在论文中提出“机器可以思考吗”;这一划时代的问题,从此促成了人类语言学与计算机科学的交融
    • 1957-1970年,自然语言处理开始形成“两大阵营”,基于规则和基于统计
    • 1994-1999年,基于统计的方法逐渐取得胜利,概率计算开始引入到NLP领域的每个任务中
    • 2000-2008年,机器学习开始兴起,迅速占领了NLP的主流市场
    • 2015-2023年,人工智能时代到来,深度学习技术将深刻改变NLP的未来
    • 2023年至今,大模型AIGC时代
  • 应用场景:语音助手、机器翻译、搜索引擎、智能问答

2 文本处理的基本方法

  • 将文本语料处理成符合模型输入的要求
  • 文本处理的基本方法:分词、词性标注、命名实体识别
  • 文本张量表示方法
    • one-hot编码:get_dummies
  • jieba的特性
    • 支持多种分词模式(粗粒度&细粒度)
      • 精确模式
      • 全模型
      • 搜索引擎模式
    • 支持中文繁体分词
    • 支持用户自定义词典
import jieba# 精确模式:按照人类日常用语表达习惯来分词
def dm01_test():content = '分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。'result1 = jieba.cut(content, cut_all=False)# print(result1)# for value in result1:#     print(value)# print(list(result1))# 返回生成器,默认cut_all=Falseresult2 = jieba.lcut(content, cut_all=False)print(result2)# 全模式:只要能成词的都进行切分,容易造成歧义
def dm02_test():content = '分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。'result1 = jieba.cut(content, cut_all=True)# print(result1)# for value in result1:#     print(value)# print(list(result1))result2 = jieba.lcut(content, cut_all=True)

http://www.mrgr.cn/news/45161.html

相关文章:

  • 桌面时钟哪个好?今年最热门的桌面时钟主题
  • SpringBoot实现电子文件签字+合同系统!
  • 找出n个自然数(1,2,3,……,n)中取r个数的组合。
  • wsl环境下安装Ubuntu,并下载MySQL5.7
  • 倍思M2s Pro推动TWS蓝牙耳机新风尚:技术革新与未来趋势解析
  • python 实现最小路径和算法
  • 华为 HCIP-Datacom H12-821 题库 (33)
  • 【CKA】CKA第一次考试经验总结
  • 大数据-158 Apache Kylin 安装配置详解 集群模式启动
  • 爱心曲线公式大全
  • 【FastAPI】在FastAPI中实现用户登录和Token认证(JWT)并展示到Swagger UI
  • 移动语义和完美转发
  • 容器化技术:Docker的基本概念和使用
  • 全是细节|大模型SFT的100个关键点
  • 【Android】限制TextView大小并允许滑动
  • 【自动驾驶】《Planning-oriented Autonomous Driving》UniAD论文阅读笔记
  • AI绘图创造无限可能,以参考图片为灵感生成图片
  • scrapy 爬取微博(六)【最新超详细解析】:情感分析+保存数据库
  • BeeS CMS 靶场漏洞攻略
  • 33 基于单片机的智能窗帘控制系统