中文文本词性分析-技术实现-python
在Python中进行中文分词的同时,通常会涉及到词性标注。词性标注是指为分词结果中的每个词标注一个词性标签,这些标签代表了词在句子中的语法角色。中文词性标注使用的标签集通常遵循一定的规范。
以下是 jieba 分词器中常见的词性标注标签及其含义:
n:名词
v:动词
a:形容词
d:副词
m:数词
q:量词
r:代词
p:介词
c:连词
u:助词
xc:其他虚词
w:标点符号
nr:人名
ns:地名
nt:机构团体
nz:其他专名
t:时间词
f:方位词
s:处所词
vn:名动词
an:名形词
j:简称略语
l:习用语
i:成语
eng:外语
x:非语素字
un:未知词
代码实现:
import jieba.posseg as psegtext = "我爱我的伟大的祖国中国!"
words = pseg.cut(text)
for word, flag in words:print(f'{word}/{flag}')
输出信息:
我/r
爱/v
我/r
的/uj
伟大/a
的/uj
祖国/n
中国/ns
!/x