Python爬虫大数据采集与挖掘-11-1.ppt

基本信息

文件名称：Python爬虫大数据采集与挖掘-11-1.ppt

文件大小：1.49 MB

总页数：60 页

更新时间：2025-04-01

总字数：约5.02千字

文档摘要

提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析VSM模型的维度是随着文本集的不同而不同，这样会导致大规模文本集处理的困难，因此，希望能将不同文本集的词汇都表示为一个等长向量。分布式表示(DistributedRepresentation)将长短不一的句子表示为一个定长向量,而向量的每个维度不再是词汇,而是代表某种语义特征。具有更加丰富的语义。文本向量表示的技术发展SVD--LDA–word2vec--Glove–FastText—Doc2vec—Elmo—GTP—BertWord2vec之后采取的是神经网络训练学习的方法。Fromgenism.models.doc2vecimportDoc2Vec,TaggedDocument准备训练语料，需要分词训练文档模型model.train使用模型进行文本分析提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析分类技术概要在分类中涉及到的概念有：分类器、训练、训练样本、测试样本等。分类器是对数据挖掘中对样本进行分类的总称，训练是指对模型的参数进行优化，选取最优的模型参数使得算法能够建立具有很好泛化能力的模型。训练样本是由类别已知的样本组成，用于模型的训练。测试样本是由类别未知的样本组成，用于测试模型的性能。根据文本表示方法的不同，文本分类方法总体上有两大类基于概率模型的分类使用概率文本模型，如n-gram等基于向量空间模型的分类使用文本向量表示，如VSM、Doc2vec等不管是哪类方法，基本流程大都相似。分类的流程基于概率模型的分类器朴素Bayes分类训练：求解以下两组参数分类：按照极大后验例子假设有以下A类、B类共7个训练样本。其中斜体的词汇为特征词，共8个不同的特征词，即：元旦、旅游、假期、计划、跑步、运动、身材、方法。A类4个文本共有10个特征词，B类3文本有7个特征词模型训练-采用unigram,加一平滑分类X=“元旦里，跑步、运动不可少”P(x|A)*P(A)=0.167*0.056*0.056*4/7=0.000299,P(x|B)*P(B)=0.067*0.2*0.2*3/7=0.001149，根据最大后验概率判定准则可见，应当把该文本分为B类。基于向量空间表示的分类KNN分类KNN算法的思想比较简单，即如果一个样本(向量)在特征空间中的个最近邻样本(向量)中的大多数属于某一个类别，则该样本(向量)也属于这个类别。对文本分类而言，在给定新文本后，考虑在训练文本集中与该新文本距离最近的篇文本，根据这篇文本所属的类别判断新文本所属类别。SVM分类简单分类器可以避免过拟合分类方法常用的核函数有线性核函数、多项式核函数、径向基核函数、Sigmoid核函数和复合核函数。SVM在应对多类情况下，常用的方法是将类问题转化为个两类问题性能评估分类模型的性能评估真实类别为正例真实类别为负例算法判断为正例ab算法判断为负例cd查全率（召回率，Recall，简记为r）和查准率（准确率，Precision,简记为p），Python实现：新闻分类为例具体实现方法，其中使用到的主要开源函数包或函数有：gensim.corpora、sklearn.svm、sklearn.feature_extraction.text.TfidfVectorizer、sklearn.metrics.confusion_matrix、sklearn.metrics.classification_report等，用于数据集的表示、TFIDF的计算、SVM模型以及性能分析等。训练和分类两个过程见教材提纲文本预处理文本的向量空间模型文本的分布式表示文本分类及实现技术文本情感分析情感分析也称为观点挖掘,是互联网大数据挖掘应用中的一项重要技术。目标是从文本中识别出显性或隐性表达的褒贬情感,在社会事件、服务评论、票房预测、金融市场等众多领域具有广泛的应用。情感分析分为词汇级别、属性级别、句子级别和篇章级别。以“手机用很久了,今天买了一个新的,屏幕大,分辨率高。如果过几天觉得不好用,还可以退货。”词汇级别情感分析目标是提取文本中词汇的情感,“很久”“新”“大”“高”“不好”都是包含情感的词汇。属性级别是提取文本中的描述对象及其情感,如(手机,新)(屏幕,大)(分辨率,高)(手机,不好用)句子级别是为整条评论文本输出其情感,基于机器学习的方法SnowNLP是一个常用的中文文本处理库，其包