当前位置：首页 > news >正文

N-gram 详解

news 2024/10/25 1:58:06

一、什么是N-gram?

在自然语言处理中，n-gram是一种重要的文本表示方法。n-gram是指给定文本中连续的n个项目，这些项目可以是声音、单词、字符或者像素等。n-gram模型常常用于语言模型，以预测接下来的一个项目（比如一个单词）。

根据项目个数的不同，n-gram模型可以被分为不同的种类：

当 $n = 1$ 时，称为unigram。比如对于句子 “I love dogs”，unigram就是 “I”, “love”, “dogs”
$P(w_i)=\frac{C(w_i)}{M}$

$M$ : 语料库中的单词总数

e.g.: $\frac{C(barks)}{M}$
当 $n = 2$ 时，称为bigram。对于同样的句子，bigram就是 “I love”, “love dogs”
$P(w_i|w_{i-1})=\frac{C(w_{i-1},w_{i})}{C(w_{i-1 ...})}$

$C(w_{i-1}...)$ : 是指以 $w_{i-1}$ 作为第一个词的所有二元词组的总数。在计算二元词组的概率时，我们需要考虑的是 $w_{i-1}$ 作为第一个词出现的次数，而不仅仅是 $w_{i-1}$ 这个词在整个语料库中出现的次数。
当 $n = 3$ 时，称为trigram。如 “I love dogs” 的trigram为 “I love dogs”。
以此类推，你可以得到更高的n-gram模型。
$P(w_i|w_{i-n+1},...,w_{i-1})=\frac{C(w_{i-n+1},...,w_i)}{C(w_{i-n+1},...,w_{i-1})}$

优点

它考虑了词与词之间的顺序信息，从而能更好地捕捉到语义信息。

缺点

模型的数据稀疏性问题（随着n的增大，会出现许多从未在训练数据中出现过的n-gram），以及它无法捕捉到更长距离的依赖关系（超过n的范围）。

因此，在实际应用中，n-gram模型通常会与其他模型如词袋模型（Bag of Words）、TF-IDF等结合使用，以获得更好的效果。

处理 未见过的n-gram（unseen n-grams）时的一些平滑技术。

Laplacian (Add-one) 平滑：

Unigram：
对于单个词的概率计算，使用加一平滑的方法公式为：
$P_{add1}(w_i)=\frac{C(w_i)+1}{M+|V|}$

这里， $C(w_i)$ 表示词 $w_i$ 在语料库中出现的次数， $M$ 是语料库中所有词的总数， $∣ V ∣$ 是词汇表的大小，也就是不同词的总数。加一平滑通过在每个词的计数中加1来避免某些词的概率为零的情况。
Bigram：
对于两个连续词的概率计算，使用加一平滑的方法公式为：

$P_{add1}(w_i|w_{i-1})=\frac{C(w_{i-1},w_i)+1}{C(w_{i-1})+|V|}$

这里， $C(w_{i-1}, w_i)$ 表示词对 $w_{i-1}, w_i)$ 在语料库中出现的次数， $C(w_{i-1})$ 表示词 $w_{i-1}$ 出现的总次数。通过在词对的计数中加1，避免了某些词对组合的概率为零。