文本分类
实验目的
1.熟悉文本分类技术原理。
2.熟悉K-近邻分类算法。
二、实验内容
1.算法原理
1.1基本描述
本实验文本分类采用K最近邻(KNN)分类算法来实现,文本分类是在给定的分类体系下,让计算机根据给定的文本内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在垃圾文本过滤、智能检索、元数据提取、歧义消解等方面有很重要的应用。
1.2专业术语
?文本分类
一个完整的文本分类过程包括文本预处理、文本标注、文本特征提取、构建分类模型、测试并调优分类模型,以及使用分类模型进行文本分类预测,具体流程如下图:
以下是文本分类各个步骤的具体内容:
1)文本预处理:是将普通的文本转换为计算机可以理解的形式,包括中文分词、去停止词、词干化等;
2)文本表示:使用向量空间模型(VectorSpaceModel)将文本转换为特征向量集合;
3)特征降维:一般文本特征向量集合都是非常稀疏的,为了减少训练分类器的计算量,提高训练和分类的速度和精度,需要对文本特征向量集合进行降维操作;
4)构建分类器:采用机器学习的分类算法,如K-近邻、朴素贝叶斯或支持向量机SVM,对训练数据集进行训练建模;
5)测试和调优:基于测试数据集,对训练的分类模型进行性能测试,并调整训练的参数,优化分类器模型的性能;
6)文本分类预测:对未知类别文本进行预处理和文本表示转换后,使用训练的分类器模型进行分类预测。
?K-近邻文本分类
K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最
邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。
2.功能设计
2.1功能描述
AiNLP人工智能轻量化应用框架是一款面向于人工智能自然语言应用的开发框架,采用统一模型调用、统一硬件接口、统一算法封装和统一应用模板的设计模式,实现了嵌入式边缘计算环境下进行快速的应用开发和项目实施。
AiNLP为模型算法的调用提供RESTful调用接口,实时返回自然语言算法处理结果,同时通过物联网云平台的应用接口,实现与硬件的连接和互动,最终形成各色智联网产业应用。
AiNLP框架如下图所示:
三、实验步骤
1.工程部署
1.1硬件部署
1)准备人工智能边缘应用平台,给边缘计算网关正确连接Wi-Fi天线、电源。
2)按下电源开关上电启动边缘计算网关,将启动ubuntu操作系统。
3)系统启动后,连接局域网内的Wi-Fi网络,记录边缘计算网关的IP地址
1.2工程部署
1)运行MobaXterm工具,通过SSH登录到边缘计算网关(参考附录2)。
2)在SSH终端创建实验工作目录:
3)通过SSH将本实验工程代码和ainlp工程包(DISK-AILab\02-软件资料\02-综合应用\ainlp.zip)
上传到~/ainlp-exp目录下(文件的上传参考附录2)。
4)在SSH终端输入以下命令解压缩实验工程:
2.工程运行
1)通过MobaXterm工具创建的SSH连接,将文件上传到边缘计算网关(参考附录2)。
2)在SSH终端输入以下命令运行实验工程:
3.文本分类
1)点击应用左侧的菜单选择“KNN文本分类”,进入到实验页面。
2)在实验交互部分,下面的文本框为需要分类的文本内容,填写好后点击“发送”按钮将会调用算法进行计算,并在上方的窗口显示返回应用需要的结果内容,同时在右边的实验结果部分会显示算法返回的所有内容。
3)修改需要分类的文本内容,查看算法返回的结果。