当前位置: 首页 > news >正文

05.AI搭建preparationの(transformers01)BertTokenizer实现分词编码

一、下载 

bert-base-chinese镜像下载

二、简介作用:

模型每个参数占用的字节大小模型大小模型大小层数头数
GPT-14 个字节的 FP32 精度浮点数117M446MB1212
GPT-22 个字节的 FP161.5亿到1.75亿0.5GB到1.5GB4816
GPT-32 个字节的 FP161.75万亿(17500亿)350GB17596个头

BERT(Bidirectional Encoder Representations from Transformers)

针对中文语言,HuggingFace 团队推出了 bert-base-chinese 模型,提供语言处理能力。

Transformers提供两大类的模型架构,一类用于语言生成NLG任务,比如GPT、GPT-2、Transformer-XL、XLNet和XLM,

另一类主要用于语言理解任务,如Bert、DistilBert、RoBERTa、XLM.

三、环境依赖

pip install transformers==4.20.0

transformers · PyPI

四、实践

1、 vocab.txt 是已经设定好的词表

2、分词编码

利用transformers库中的BertTokenizer实现分词编码

from transformers import BertTokenizer#111
bert_name = './bert-base-chinese'
tokenizer = BertTokenizer.from_pretrained(bert_name)
text = '窗前明月光,'
input_ids = tokenizer.encode(text,#需要编码的文本;
add_special_tokens=True,#是否添加特殊token,即CLS分类token和SEP分隔token;
max_length=128,#文本的最大长度
truncation=True,#使用truncation=True来明确地将示例截断为最大长度。
padding='max_length',#将批次中所有序列填充到最长序列的长度
return_tensors='pt'# 返回的tensor类型,有4种为 [‘pt’, ‘tf’, ‘np’, ‘jax’] 分别代表 pytorch tensor、tensorflow tensor、int32数组形式和 jax tensor;
)
print('text:\n', text)
print('text字符数:', len(text))
print('input_ids:\n', input_ids)
print('input_ids大小:', input_ids.size())

3、特殊标记

整个词表的大小为21128个字,共有5种特殊token标记:

[PAD]: 填充标记,编码为0;
[UNK]: 未知字符标记,即该字不在所定义的词表中,编码为100;
[CLS]: 分类标记,蕴含整个文本的含义,编码为101;
[SEP]: 分隔字符标记,用于断开两句话,编码为102;
[MASK]: 掩码标记,该字被遮挡,编码为103;


4、补充:

某些transformers版本 或者会产生一些提醒,但是可以正常运行,我们可以加上以下语句来清除警告

from transformers import logging

logging.set_verbosity_error()


http://www.mrgr.cn/news/96074.html

相关文章:

  • EMC知识学习一
  • 2.7 进度控制习题-2
  • 【AI学习】Transformer 模型
  • ffmpeg+QOpenGLWidget显示视频
  • Microi吾码界面设计引擎之基础组件用法大全【内置组件篇·上】
  • Deepseek API+Python 测试用例一键生成与导出 V1.0.4 (接口文档生成接口测试用例保姆级教程)
  • 深度学习框架PyTorch——从入门到精通(10)PyTorch张量简介
  • Windows命令提示符(CMD) 中切换目录主要通过 cd(Change Directory)命令实现
  • WPF InkCanvas 控件详解
  • package.json版本前缀
  • 零拷贝原理面试回答(参考小林Coding)
  • 蓝桥杯题型分布2
  • LLM - R1 强化学习 DRPO 策略优化 DAPO 与 Dr. GRPO 算法 教程
  • 可视化工具TensorBoard
  • AI小白的第八天:梯度下降(含代码实现)
  • AI数据分析:一键生成数据分析报告
  • Unity URP自定义Shader支持RenderLayer
  • 云资源开发学习应用场景指南,场景 1 云上编程实践平台
  • F1C200S编译
  • 【深度学习与实战】2.3、线性回归模型与梯度下降法先导案例--最小二乘法(向量形式求解)