自然语言及语音处理项目式教程课件3.3.1-2文本预处理.pptx

基本信息

文件名称：自然语言及语音处理项目式教程课件3.3.1-2文本预处理.pptx

文件大小：14.98 MB

总页数：18 页

更新时间：2025-06-24

总字数：约1.41千字

文档摘要

基于SVM实现新闻文本分类

爬取并分析新闻文本数据预处理新闻文本数据构建SVM模型模型评价模型预测

预处理新闻文本数据数据预处理：常见的数据预处理包括去除数据中非文本部分、中文分词、去停用词等。文本向量化处理：将文字转换成机器所识别的数字化内容，便于后续文本的计算和模型的构建。

文本基础处理文本基础处理jieba分词去停用词划分数据集（滚动与原创栏目为预测集；其他的5个栏目为训练集）对划分数据集后的分词结果中的段落符进行处理

文本基础处理从图可以看出，在训练集的新闻文本中所表现较多的高频词主要有学生、教育、学校、孩子和发展等词。

文本基础处理从图可以看出，排名前10的高频词从高到低的顺序依次为学生、教育、学校、孩子、发展、工作、中国、职业、教师和学习。

文本向量化对文本构建词向量矩阵，通过调用预训练好的语料库模型，生成每篇新闻中的每个分词的词向量。再将词向量进行求和，得出该篇新闻的最终1×192维词向量矩阵。

文本向量化随机选取训练集中的5篇新闻的词向量矩阵进行展示。栏目名称data_afterdata_proVec留学[花着,昂贵,房租…花着昂贵房租…[36.43002840364352,-120.47…婴幼儿[幼师,保育员,缺…幼师保育员缺…[80.7091096174845,-140.01…中小学[本报,上海,17…本报上海17…[-35.064373414963484,18.01…大学[15,上午,10,点…15上午10点…[366.3885929523967,-729.9…职业教育[人民网,北京,25…人民网北京25…[-31.265052042901516,9.69…

爬取并分析新闻文本数据预处理新闻文本数据构建SVM模型模型评价模型预测

构建SVM模型构建SVM模型的具体流程。数据划分按照20%和80%的比例划分测试集并对其进行数据标准化构建模型与模型优化1、分类算法的选取2、利用训练好的词向量获取关键词的词向量

构建模型与模型优化模型模型精确率测试集准确率SVM0.6390.611高斯朴素贝叶斯0.4090.411选取分类算法，各个模型的选取及表现出的模型精确率与测试集的准确率如下。

构建模型与模型优化采用网格搜索法对模型进行优化，优化后结果如下。模型最优参数网格搜索在测试集上的最优得分SVMC=20,degree=10,gamma=0.1,kernel=linear0.721

爬取并分析新闻文本数据预处理新闻文本数据构建SVM模型模型评价模型预测

模型评价模型精度与测试集的准确率结果：指标名称数值结果模型精确率0.9166666666666666测试集的准确率0.7314285714285714

模型评价混淆矩阵图：

模型预测由于支持向量机模型表现良好，所以使用SVM模型进行预测。预测集的预测结果为：[留学,留学,职业教育,婴幼儿,职业教育’…留学,中小学,职业教育,职业教育,职业教育]由于预测集并没有对应的类别答案，所以可以通过预测结果的多样性和一致性来判断模型的预测效果。#模型预测fromsklearnimportsvmrc=list(clf.predict(xx_test1)#原创与滚动栏目的预测结果print(预测集的预测结果为：\n,rc)