当前位置：首页 > news >正文

自然语言处理实战：《七剑下天山》文本分析

news 2025/7/13 17:04:46

自然语言处理实战：《七剑下天山》文本分析

引言
实验目的
实验环境
实验原理
实验步骤与代码
- 1. 环境准备与库安装
- 2. 语料获取与分词
- 3. 词频统计
- 4. 上下文分析
- 5. 词分布离散图
完整代码
讨论与结论

引言

在人工智能的浪潮中，自然语言处理（NLP）技术正变得越来越重要。作为一名计算机科学的学生，我对NLP充满了浓厚的兴趣。在高华玲老师的指导下，我通过《自然语言处理》这门课程，完成了一次有趣的实验——使用NLTK工具包对《七剑下天山》进行文本分析。今天，我想和大家分享这次实验的详细过程，包括代码思路和完整代码。

实验目的

本次实验的目标包括：

学习如何安装和下载nltk工具集。
掌握从语料库中获取文本的方法，以及如何进行文本的部分切片。
学习如何统计词频，以及如何使用词频分布函数FreqDist和长度函数len。
理解如何分析指定单词的上下文、相似词语，以及如何绘制词分布离散图。

实验环境

开发环境：Visual Studio Code，Windows系统
所需库：nltk，jieba，matplotlib

实验原理

NLTK是一个强大的开源NLP工具包，它提供了丰富的文本处理模块。我们选择了《七剑下天山》这部武侠小说作为语料库，通过分析和处理文本，来掌握基本的NLP技巧。这不仅让我们了解武侠小说的语言特点，也加深了对中华文化的理解。

实验步骤与代码

1. 环境准备与库安装

首先，我们需要安装必要的Python库。打开你的终端或命令提示符，运行以下命令来安装nltk和jieba库。

pip install nltk
pip install jieba

2. 语料获取与分词

我们将《七剑下天山》的文本内容存储在名为"qijian.txt"的文件中。使用jieba分词库对文本进行分词处理。

import jieba# 读取文本内容
with open('qijian.txt', 'r', encoding='utf-8') as f:raw_text = f.read()# 使用jieba进行分词
tokens = list(jieba.cut(raw_text))

3. 词频统计

使用nltk的FreqDist函数来统计词频分布，并通过len函数获取文本的总长度（词汇数量）。

from nltk.probability import FreqDist# 统计词频分布
freq_dist = FreqDist(tokens)# 打印最常见的50个词汇
print("文本中最常见的50个词汇：")
print(freq_dist.most_common(50))# 获取文本的总长度（词汇数量）
text_length = len(tokens)
print(f"文本总长度：{text_length}")

4. 上下文分析

使用nltk的Text类和concordance方法来分析指定词汇的上下文，并通过similar方法查找与给定词汇具有相似上下文的其他词汇。

from nltk.text import Text# 创建Text对象
nltk_text = Text(tokens)# 分析指定词汇的上下文
words = ["七剑", "天山", "侠客", "武功", "江湖"]
for word in words:print(f"\n上下文分析：{word}")nltk_text.concordance(word, lines=10)nltk_text.similar(word)

5. 词分布离散图

使用matplotlib库绘制词分布离散图，直观地展示特定词汇在文本中的分布情况。

import matplotlib.pyplot as plt
import matplotlib as mpl# 设置matplotlib支持中文显示
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False# 绘制词分布离散图
plt.figure(figsize=(12, 6))
nltk_text.dispersion_plot(words)
plt.show()

完整代码

import jieba
from nltk.probability import FreqDist
from nltk.text import Text
import matplotlib.pyplot as plt
import matplotlib as mpl# 1. 语料获取
with open('qijian.txt', 'r', encoding='utf-8') as f:raw_text = f.read()# 使用jieba分词对文本进行分词处理
tokens = list(jieba.cut(raw_text))# 2. 词频统计
words = ["七剑", "天山", "侠客", "武功", "江湖"]
for word in words:word_count = tokens.count(word)print(f"{word}出现次数：{word_count}")# 使用FreqDist统计词频分布
freq_dist = FreqDist(tokens)
print("文本中最常见的50个词汇：")
print(freq_dist.most_common(50))# 获取文本的总长度（词汇数量）
text_length = len(tokens)
print(f"文本总长度：{text_length}")# 3. 上下文分析
nltk_text = Text(tokens)for word in words:print(f"\n上下文分析：{word}")nltk_text.concordance(word, lines=10)nltk_text.similar(word)# 4. 词分布离散图
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False# 绘制词分布离散图
plt.figure(figsize=(12, 6))
nltk_text.dispersion_plot(words)