《自然语言处理技术》基础案例】使用停用词表对文本进行过滤V1.0.docx

基本信息

文件名称：《自然语言处理技术》基础案例】使用停用词表对文本进行过滤V1.0.docx

文件大小：193.03 KB

总页数：3 页

更新时间：2025-06-24

总字数：约3.75千字

文档摘要

《自然语言处理技术》

PAGE2

项目2初识文本基础处理

——使用停用词表对文本进行过滤

学习目标

掌握停用词表的概念和作用。

学习如何创建和使用停用词表对文本进行过滤。

了解停用词表在文本挖掘、自然语言处理中的应用。

通过实际操作，提高数据分析和决策能力，培育学生的创新思维和动手能力。

深入理解自然语言处理技术发展和科技创新，增强学生的社会责任感。

案例要求

创建停用词表。

使用jieba库对中文文本进行分词。

使用创建的停用词表对分词后的文本进行过滤。

案例内容

本教学案例主要介绍如何使用停用词表对中文文本进行过滤。通过停用词表去除文本中的常见词、无意义词等，是自然语言处理和文本挖掘领域中常用的一种文本预处理方法。通过使用停用词表，我们可以减少文本分析过程中的噪声，提高分析的准确性和效率，还可以提升学生的编程实践能力，为在自然语言处理领域的进一步探索和研究奠定基础。本案例将采用Python和jieba库进行去停用词操作，其主要步骤包括创建停用词表、分词和过滤停用词。

案例步骤

创建停用词表

在本案例中，首先需要创建一个停用词表，如REF_Ref132710987\h代码41所示。停用词表通常包含一些对文本分析没有实际意义的词汇，如“的”“和”“在”等。

代码STYLEREF1\s4SEQ代码\*ARABIC\s11创建停用词表

#创建一个简单的停用词表

stopwords=set([的,和,在,是,了])

进行分词

在对文本进行过滤之前，我们需要先将文本进行分词。通过导入jieba库，并使用jieba库对中文文本进行分词，如REF_Ref132711155\h代码42所示。

代码STYLEREF1\s4SEQ代码\*ARABIC\s12进行分词

importjieba

#待处理的中文文本

text=学习是一项伟大而持久的旅程，它能够开拓我们的思维，拓展我们的视野，让我们更好地理解这个世界。学习可以使我们变得更聪明、更有见识、更富有创造力，这种成长过程是无价的。热爱学习就是对这种成长过程的不断追求和探索。当我们充满好奇心、热情和动力地去学习时，我们会发现自己在不断进步和成长。无论是通过书本、网络或社交媒体，我们都可以获得新的知识和技能，而这些都会为我们的未来奠定基础。尽管学习的道路可能会充满挑战和困难，但是我们可以从中获得最宝贵的经验和教训。当我们愿意学习并接受挑战时，我们会变得更加自信和勇敢，同时也会意识到自己的潜力是无限的。所以，让我们热爱学习，坚持不懈地追求知识和成长，这是一条通向成功和幸福的重要路径。

#使用jieba库进行分词

words=list(jieba.cut(text))

print(分词结果：\n,words)

运行REF_Ref132711155\h代码42，得到文本的分词结果如下。

分词结果：

[学习,是,一项,伟大,而,持久,的,旅程,，,它,能够,开拓,我们,的,思维,，,拓展,我们,的,视野,，,让,我们,更好,地,理解,这个,世界,。,学习,可以,使,我们,变得,更,聪明,、,更,有,见识,、,更,富有,创造力,，,这种,成长,过程,是,无价,的,。,热爱,学习,就是,对,这种,成长,过程,的,不断,追求,和,探索,。,当,我们,充满,好奇心,、,热情,和,动力,地去,学习,时,，,我们,会,发现自己,在,不断进步,和,成长,。,无论是,通过,书本,、,网络,或,社交,媒体,，,我们,都,可以,获得,新,的,知识,和,技能,，,而,这些,都,会,为,我们,的,未来,奠定,基础,。,尽管,学习,的,道路,可能,会,充满,挑战,和,困难,，,但是,我们,可以,从中,获得,最,宝贵,的,经验,和,教训,。,当,我们,愿意,学习,并,接受,挑战,时,，,我们,会,变得,更加,自信,和,勇敢,，,同时,也,会,意识,到,自己,的,潜力,是,无限,的,。,所以,，,让,我们,热爱,学习,，,坚持不懈,地,追求,知识,和,成长,，,这是