基本信息
文件名称:机器语音语言应用技术-文本信息提取.docx
文件大小:434 KB
总页数:5 页
更新时间:2025-05-24
总字数:约1.44千字
文档摘要

文本信息提取

一、实验目的

1.熟悉文本关键词提取技术原理。

2.熟悉词语TF-IDF指标特征计算过程。

3.熟悉基于TF-IDF特征的关键词提取算法实际操作流程。

二、实验内容

1.算法原理

1.1基本描述

关键词提取是指从文献中提炼出能够概括文献内容的词或词组,是文本挖掘的重要手段。通常关键词提取算法分为基于统计和基于理解两类方法。基于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词,其过程一般是将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词,其中比较常用的是基于词权重的量化特征,包括词性、词频、逆文档频率、相对频率和词长等。本实验基于词语的TF-IDF特征指标,实现文本关键词的提取。

1.2专业术语

?TF-IDF

TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频次算法)是一种用于信息检索与数据挖掘的常用加权技术,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程

度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,也就可以作为上文中所提到的关键字。

2.功能设计

2.1功能描述

AiNLP人工智能轻量化应用框架是一款面向于人工智能自然语言应用的开发框架,采用统一模型调用、统一硬件接口、统一算法封装和统一应用模板的设计模式,实现了嵌入式边缘计算环境下进行快速的应用开发和项目实施。

AiNLP为模型算法的调用提供RESTful调用接口,实时返回自然语言算法处理结果,同时通过物联网云平台的应用接口,实现与硬件的连接和互动,最终形成各色智联网产业应用。AiNLP框架如下图所示:

三、实验步骤

1.工程部署

1.1硬件部署

1)准备人工智能边缘应用平台,给边缘计算网关正确连接Wi-Fi天线、电源。

2)按下电源开关上电启动边缘计算网关,将启动ubuntu操作系统。

3)系统启动后,连接局域网内的Wi-Fi网络,记录边缘计算网关的IP地址

1.2工程部署

1)运行MobaXterm工具,通过SSH登录到边缘计算网关(参考附录2)。

2)在SSH终端创建实验工作目录

3)通过SSH将本实验工程代码和ainlp工程包(DISK-AILab\02-软件资料\02-综合应用\ainlp.zip)

上传到~/ainlp-exp目录下(文件的上传参考附录2)。

4)在SSH终端输入以下命令解压缩实验工程:

2.工程运行

1)通过MobaXterm工具创建的SSH连接,将修改好的文件上传到边缘计算网关(参考附录2)。

2)在SSH终端输入以下命令运行实验工程:

3.文本信息提取

1)点击应用左侧的菜单选择“TF-IDF关键词提取”,进入到实验页面。

2)在实验交互部分,下面的文本框为需要提取信息的文本内容,填写好后点击“发送”按钮将会调用算法进行计算,并在上方的窗口显示返回应用需要的结果内容,同时在右边的实验结果部分会显示算法返回的所有内容。

3)修改需要提取信息的文本内容,查看算法返回的结果。