《自然语言处理技术》
PAGE2
《自然语言处理技术》
PAGE2
初识文本基础处理
——应用中文分词技术
实训目标
掌握安装jieba库的方法。
掌握使用jieba库中的cut函数获取语料库中的文本标识列表的方法。
掌握全模式、精确模式、搜索引擎模式进行中文分词的流程。
实训环境
环境
版本
说明
Windows10
64
电脑操作系统
Python
3.8.5
Python语言版本
pandas
1.3.0
主要用于数据读取、清洗等操作
NumPy
1.21.6
主要用于Python中的数值计算
jieba
0.42.1
主要用于文本分词
Gensim
4.2.0
主要用于检索文本、计算文本相似度、训练词向量、建模主题等
Matplotlib
3.3.0
主要用于数据可视化
PaddlePaddle
2.4.2
是一个深度学习框架,提供了高效的计算框架和优化算法
PaddleSpeech
1.2.0
主要用于语音和音频中的各种关键任务的开发
scikit-learn
1.0.2
广泛地用于统计分析和机器学习建模等数据科学领域
Librosa
0.8.1
主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库
NLTK
3.5
是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等
SciPy
1.7.3
是一个科学计算工具包,可用于数学、科学、工程学等领域
pyttsx3
2.9.0
主要用于将文本转换成语音
实训说明
中文分词技术是自然语言处理中的重要基础技术之一,也是中文文本处理的关键步骤。在处理中文文本时,需要将连续的文本序列切分成词汇单元,这个处理过程即为中文分词。中文分词的结果对于后续的自然语言处理任务至关重要,如文本分类、信息检索、机器翻译等。因此,掌握中文分词技术(如基本简介、分词工具等)是进行中文文本处理的基础,也是实现中文文本相关应用的前提条件。本实训将通过jieba库,分别以全模式、精确模式、搜索引擎模式对中文文本进行分词。
实训步骤
以全模式进行中文分词
首先进入NLP虚拟环境,执行“condainstalljieba”或“pipinstalljieba”命令安装jieba,安装成功后检查安装列表中是否出现jieba,若出现,则表示安装成功。
以“热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用全模式进行中文分词,如REF_Ref133761029\h代码41所示。
代码STYLEREF2\s4SEQ代码\*ARABIC\s21使用全模式进行中文分词
importjieba
text=热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。
seg_list=jieba.cut(sentence=text,cut_all=True)
print(全模式:,/.join(seg_list))
在REF_Ref133761029\h代码41中,使用到jieba库中的cut函数获取语料库中的文本标识列表,其中,cut函数的常用参数说明如REF_Ref133761049\h表41cut函数的常用参数说明所示。
表STYLEREF2\s4SEQ表\*ARABIC\s21cut函数的常用参数说明
参数名称
参数说明
sentence
接收str,表示需要进行分词的文本内容。无默认值
cut_all
接收bool,表示是否采用全模式分词。默认为False
运行REF_Ref133761064\h代码41使用全模式进行中文分词REF_Ref133761029\h代码41,得到分词结果如下。
全模式:
热爱/学习/是/一种/积极/积极向上/向上/的/品质/,/它/可以/让/我们/不断/地/探索/新/的/知识/领域/,/不断/地/拓展/我们/的/视野/和/思维/。
全模式会输出所有可能的分词结果。
以精确模式进行中文分词
以“热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。”为例,使用精确模式进行中文分词,如REF_Ref133761089\h代码42所示。
代码STYLEREF2\s4SEQ代码\*ARABIC\s22使用精确模式进行中文分词
importjieba
text=热爱学习是一种积极向上的品质,它可以让我们不断地探索新的知识领域,不断地拓展我们的视野和思维。
seg_list=jieba.c