基本信息
文件名称:自然语言及语音处理项目式教程 习题库05-实操题.docx
文件大小:252.17 KB
总页数:29 页
更新时间:2025-06-24
总字数:约4.62万字
文档摘要

实操题

初识文本基础处理

使用TF-IDF算法提取科研论文摘要中的关键词

随着科研领域的快速发展,越来越多的研究者们撰写并发表科研论文。通过对科研论文摘要的文本分析,找出关键词汇,有助于更好地了解当前研究的热点和趋势。针对一篇科研论文摘要文本abstract.txt,要求如下:

1.进行数据读取。

2.使用jieba库对文本进行分词。

3.使用TF-IDF模块提取关键词。

4.输出提取到的关键词及其权重。

5.绘制关键词词云图。

【考察知识点】jieba库中文分词,TF-IDF提取关键词。

【答案解析】

进行数据读取。

代码STYLEREF1\s2SEQ代码\*ARABIC\s11进行数据读取

#读取科研论文摘要文本

withopen(abstract.txt,r,encoding=utf-8)asf:

text=f.read()

运行REF_Ref134492830\h代码21,输出科研论文摘要文本如下。

摘要内容:

为了提高运输安全管理水平和运输效率,对运输车辆安全性进行客观评价,提出了一种结合多算法的行车安全评价模型。首先,根据交通运输部公路科学研究院所给车联网数据,设计并定义了驾驶人行为的特征指标和评价指标;其次,采用回归分析方法对驾驶人的驾驶风格进行分析;接着,分别采用K-means聚类和DBSCAN聚类算法对驾驶人的不良行为进行分析;经过对比,最终选用K-means聚类算法和因子分析的结果对驾驶行为进行评价,共分为6类。该模型将机器学习中的数据挖掘和数据分析算法与道路运输行业相结合,为道路运输安全管理的研究提供了一个量化分析的工具。

使用jieba库对文本进行分词。

代码STYLEREF1\s2SEQ代码\*ARABIC\s12使用jieba库对文本进行分词

importjieba

#对科研论文摘要进行分词

words=jieba.lcut(text)

print(摘要内容分词:\n,words)

运行REF_Ref134492844\h代码22,得到摘要内容分词结果如下。

摘要内容分词:

[为了,提高,运输,安全,管理水平,和,运输,效率,,,,对,运输,车辆,安全性,进行,客观,评价,,,,提出,了,一种,结合,多,算法,的,行车,\n,安全,评价,模型,。,首先,,,,根据,交通运输,部,公路,科学,研究院所,给,车,联网,数据,,,,设计,并,定义,了,驾驶,人,行为,的,特征,指标,和,\n,评价,指标,;,其次,,,,采用,回归,分析方法,对,驾驶,人,的,驾驶,风格,进行,分析,;,接着,,,,分别,采用,K,-,means,,聚类,和,DBSCAN,,聚,\n,类,算法,对,驾驶,人,的,不良行为,进行,分析,;,经过,对比,,,,最终,选用,K,-,means,,聚类,算法,和,因子分析,的,结果,对,驾驶,行为,进行,\n,评价,,,,共,分为,6,,类,。,该,模型,将,机器,学习,中,的,数据挖掘,和,数据分析,算法,与,道路,运输,行业,相结合,,,,为,道路,运输,安全,管,\n,理,的,研究,提供,了,一个,量化,分析,的,工具,。]

使用TF-IDF模块提取关键词。

代码STYLEREF1\s2SEQ代码\*ARABIC\s13使用TF-IDF模块提取关键词

importjieba.analyse

#提取关键词及其权重

keywords=jieba.analyse.extract_tags(text,topK=10,withWeight=True)

输出提取到的关键词及其权重。

代码STYLEREF1\s2SEQ代码\*ARABIC\s14输出提取到的关键词及其权重

#输出关键词及其权重

forkeyword,weightinkeywords:

print(f{keyword}:{weight})

运行REF_Ref134492812\h代码24,输出提取到的关键词及其权重如下。

驾驶:0.4017321978955556

算法:0.3862751777391111

运输:0.3