1 概念
- 自然语言处理(natural processing laguage)是计算机科学与语言学中关注于计算机与人类语言间转换的领域。
- 简史:
- 1950年,计算机科学之父图灵在论文中提出“机器可以思考吗”;这一划时代的问题,从此促成了人类语言学与计算机科学的交融
- 1957-1970年,自然语言处理开始形成“两大阵营”,基于规则和基于统计
- 1994-1999年,基于统计的方法逐渐取得胜利,概率计算开始引入到NLP领域的每个任务中
- 2000-2008年,机器学习开始兴起,迅速占领了NLP的主流市场
- 2015-2023年,人工智能时代到来,深度学习技术将深刻改变NLP的未来
- 2023年至今,大模型AIGC时代
- 应用场景:语音助手、机器翻译、搜索引擎、智能问答
2 文本处理的基本方法
- 将文本语料处理成符合模型输入的要求
- 文本处理的基本方法:分词、词性标注、命名实体识别
- 文本张量表示方法
- jieba的特性
- 支持多种分词模式(粗粒度&细粒度)
- 支持中文繁体分词
- 支持用户自定义词典
import jieba# 精确模式:按照人类日常用语表达习惯来分词
def dm01_test():content = '分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。'result1 = jieba.cut(content, cut_all=False)# print(result1)# for value in result1:# print(value)# print(list(result1))# 返回生成器,默认cut_all=Falseresult2 = jieba.lcut(content, cut_all=False)print(result2)# 全模式:只要能成词的都进行切分,容易造成歧义
def dm02_test():content = '分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。'result1 = jieba.cut(content, cut_all=True)# print(result1)# for value in result1:# print(value)# print(list(result1))result2 = jieba.lcut(content, cut_all=True)