当前位置：首页 > news >正文

【OpenAI】第二节（Token）关于ChatGPT的Token你了解多少？最全Token讲解过程！

news 2025/12/31 12:04:59

在当今的人工智能领域，GPT（Generative Pre-trained Transformer）无疑是最受关注的技术之一。无论是在文本生成、对话系统，还是在内容创作中，GPT都展现出了强大的能力。然而，很多人对GPT的工作原理仍然存在疑惑，尤其是在Token的计算方面。本文将为你详细解析GPT如何计算Token数，并提供实用的教程，帮助你更好地理解这一重要概念。

在这里插入图片描述

一、什么是Token？🤔

在大语言模型领域，Token 通常用来表示文本数据中的一个单元。在不同的语境下，一个Token可能代表一个字、一个词，或者是一个句子。在英文中，一个Token通常是一个词或者是标点符号。而在一些汉语处理系统中，一个Token可能是一个字，也可能是一个词。Token是处理和理解文本数据的基本单元。

1.1 Token的类型

词Token：将每个单词视为一个Token，适用于处理结构化的文本。
子词Token：将单词进一步拆分为更小的单位，适用于处理复杂词汇和拼写错误，提高模型对罕见词汇的理解能力。
字符Token：将每个字符视为一个Token，适用于某些特定的应用场景，如字符级生成任务。

在深度学习的语言模型中，如Transformer，输入的文本首先被切分成一系列的tokens。这些tokens被转换成向量，然后被输入到神经网络中进行处理。因此，Token可以被理解为语言模型接收和处理的最小的信息单元。在训练过程中，每个Token会关联一个预测，这个预测可以是下一个Token的预测，也可以是该Token的属性预测，如词性、情感等。

Token与字节的类比

很多同学将Token理解为中文语义里的“字节”，这种理解在类比关系上有一定的相似度，因为“字节”是计算机存储和处理数据的基本单元，而“Token”则是语言模型处理文本信息的基本单元。然而，这种理解并不完全准确。

复杂性：Token在语言模型中的作用比字节更加复杂和多元。每个Token不仅代表文本数据中的一个单位，还携带了丰富的语义信息。
语义信息：在处理一句话时，Token可能表示一个字，一个词，甚至一个短语，每个Token在模型中都有一个对应的向量表示，包含了该Token的语义信息、句法信息等。

因此，尽管Token和字节都是基本的处理单位，但Token在大语言模型中的含义和作用要比字节更加丰富和复杂。

Token类型示意图

二、为什么会有Token？

GPT的输入和输出并不是直接以中文字符或词语为单位进行处理。实际上，GPT不仅能处理中文，还能处理几乎世界上所有流行的自然语言。因此，我们需要引入Token的概念，以适应多语言的需求。

Token是自然语言处理的最细粒度，简单来说，GPT的输入是一个个的Token，输出也是一个个的Token。这种设计使得GPT能够兼容和处理多种语言。

Token与Unicode编码

要实现多语言兼容，GPT使用了Unicode编码。Unicode是一种在计算机上使用的字符编码，旨在为每种语言中的每个字符设定统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换和处理的要求。

例如，中文中的“你”字对应的Unicode编码为：

\u4F60

具体解析：

\u 表示后面是一个Unicode编码。
4F60 是16进制数，转换成10进制为20320，表示Unicode编码中的第20320个编码对应“你”字。
最后将20320转换为2进制，得到 0100 1111 0110 0000。

因此，GPT实际上是将我们输入的文字转换成Token，通过GPT模型预测Token，再将Token转换成文字，最后输出给我们。
在这里插入图片描述

Token限制

ChatGPT-4-32k 模型的上下文上限

ChatGPT-4-32k模型的上下文上限是32k Token（即32000个Token）。这一限制会影响以下两个方面：

一次性输入：一次性输入的Token数量不能超过上限。
一次对话的总体上下文长度：整个对话中所有Token的总数不能超过上限。如果超过，模型会遗忘最前面的对话内容。

这种机制类似于鱼的短时记忆，确保模型能够在有限的上下文中进行有效的对话。不同模型可能具有不同的Token限制，选择合适的模型时需要考虑这一因素，以满足具体应用需求。

三、GPT如何计算Token数？🔍

GPT的Token计算主要依赖于其Token化算法，以下是计算Token数的基本步骤：

3.1 文本预处理

在计算Token数之前，GPT会对输入文本进行预处理。这包括：

去除多余的空格
标点符号的标准化
转换为统一的字符编码（如Unicode）

3.2 Token化

GPT使用**Byte Pair Encoding（BPE）**算法进行Token化。BPE是一种基于频率的算法，通过合并最常见的字节对来生成Token。具体步骤如下：

初始化：将文本中的每个字符视为一个Token。
统计频率：计算所有Token的频率。
合并Token：选择频率最高的Token对进行合并，生成新的Token。
重复：重复步骤2和3，直到达到预设的Token数量或没有更多的合并可能。

这种方法能够有效地生成适应多语言、多词汇的Token化方案，尤其在处理复合词和罕见词汇时表现出色。

3.3 计算Token数

一旦文本被Token化，GPT可以轻松计算出Token的数量。每个Token都被分配一个唯一的ID，GPT通过这些ID来识别和处理Token。最终，Token数即为Token化后的Token列表的长度。

Token计算流程图

四、如何在Python中计算Token数？🖥️

如果你使用的是GPT-4或其他模型，可以选择相应的Token化器，以获得更准确的结果。

针对GPT-4的示例

由于GPT-4可能使用不同的Token化算法或词汇表，你可以使用OpenAI提供的tiktoken库来计算Token数：

pip install tiktoken

import tiktoken# 初始化tiktoken的Token化器
enc = tiktoken.get_encoding("gpt-4")# 输入文本
text = "你好，GPT！今天我们来学习如何计算Token数。"# Token化
tokens = enc.encode(text)# 计算Token数
token_count = len(tokens)print(f"输入文本的Token数为：{token_count}")

五、其他计算Token的方法

除了使用编程方法计算Token数，还有一些在线工具可以帮助你快速计算Token数量：

OpenAI Tokenizer
这是OpenAI官方提供的Token计算工具，支持多种语言和模型，界面简洁，使用方便。
Tiktoken计算器
该工具支持不同的OpenAI模型，提供详细的Token分解信息，适合需要深入了解Token结构的用户。
Hugging Face Tokenizer
Hugging Face也提供在线的Token计算工具，支持多种预训练模型，适合开发者和研究人员使用。

这些工具提供了便捷的界面，适合不熟悉编程的用户快速计算Token数。此外，部分工具还支持批量处理和详细的Token分解，满足不同用户的需求。

在这里插入图片描述

六、Open API KEY

1、API Key的介绍

在使用OpenAI的GPT模型时，API Key扮演着非常关键的角色。

通过API Key，用户可以调用GPT进行文本生成、对话系统和内容创作等多种任务。同时，API Key帮助OpenAI跟踪每个用户的Token使用情况，确保在订阅计划内合理使用资源。

了解Token的计算及其限制对于优化API调用、降低成本至关重要。

2、如何获取API Key

这个在之前的文章讲过，可以查看之前的文章。

【OpenAI】第一节（OpenAI API）获取OpenAI API KEY的两种方式，开发者必看全方面教程！

3、如何用代码调API KEY

下面是Python代码调用的方式

from openai import OpenAI
client = OpenAI(# 能用AI平台 Api Key地址：# https://www.nyai.chat/chat?invite=nyai_1141439&fromChannel=csdn241021_27_tokenapi_key = "能用AI-平台生成的key",base_url = ""
)response = client.chat.completions.create(messages=[# 用户提示词：鲁迅为什么打周树人？{'role': 'user', 'content': "鲁迅为什么打周树人？"},],model='gpt-4',  # 模型stream=True
)for chunk in response:print(chunk.choices[0].delta.content, end="", flush=True)