基于SVM实现新闻文本分类
爬取并分析新闻文本数据预处理新闻文本数据构建SVM模型模型评价模型预测
预处理新闻文本数据数据预处理:常见的数据预处理包括去除数据中非文本部分、中文分词、去停用词等。文本向量化处理:将文字转换成机器所识别的数字化内容,便于后续文本的计算和模型的构建。
文本基础处理文本基础处理jieba分词去停用词划分数据集(滚动与原创栏目为预测集;其他的5个栏目为训练集)对划分数据集后的分词结果中的段落符进行处理
文本基础处理从图可以看出,在训练集的新闻文本中所表现较多的高频词主要有学生、教育、学校、孩子和发展等词。
文本基础处理从图可以看出,排名前10的高频词从高到低的顺序依次为学生、教育、学校、孩子、发展、工作、中国、职业、教师和学习。
文本向量化对文本构建词向量矩阵,通过调用预训练好的语料库模型,生成每篇新闻中的每个分词的词向量。再将词向量进行求和,得出该篇新闻的最终1×192维词向量矩阵。
文本向量化随机选取训练集中的5篇新闻的词向量矩阵进行展示。栏目名称data_afterdata_proVec留学[花着,昂贵,房租…花着昂贵房租…[36.43002840364352,-120.47…婴幼儿[幼师,保育员,缺…幼师保育员缺…[80.7091096174845,-140.01…中小学[本报,上海,17…本报上海17…[-35.064373414963484,18.01…大学[15,上午,10,点…15上午10点…[366.3885929523967,-729.9…职业教育[人民网,北京,25…人民网北京25…[-31.265052042901516,9.69…
爬取并分析新闻文本数据预处理新闻文本数据构建SVM模型模型评价模型预测
构建SVM模型构建SVM模型的具体流程。数据划分按照20%和80%的比例划分测试集并对其进行数据标准化构建模型与模型优化1、分类算法的选取2、利用训练好的词向量获取关键词的词向量
构建模型与模型优化模型模型精确率测试集准确率SVM0.6390.611高斯朴素贝叶斯0.4090.411选取分类算法,各个模型的选取及表现出的模型精确率与测试集的准确率如下。
构建模型与模型优化采用网格搜索法对模型进行优化,优化后结果如下。模型最优参数网格搜索在测试集上的最优得分SVMC=20,degree=10,gamma=0.1,kernel=linear0.721
爬取并分析新闻文本数据预处理新闻文本数据构建SVM模型模型评价模型预测
模型评价模型精度与测试集的准确率结果:指标名称数值结果模型精确率0.9166666666666666测试集的准确率0.7314285714285714
模型评价混淆矩阵图:
模型预测由于支持向量机模型表现良好,所以使用SVM模型进行预测。预测集的预测结果为:[留学,留学,职业教育,婴幼儿,职业教育’…留学,中小学,职业教育,职业教育,职业教育]由于预测集并没有对应的类别答案,所以可以通过预测结果的多样性和一致性来判断模型的预测效果。#模型预测fromsklearnimportsvmrc=list(clf.predict(xx_test1)#原创与滚动栏目的预测结果print(预测集的预测结果为:\n,rc)