授课教师:xxx自然语言处理技术及应用
搭建自然语言处理开发环境项目1构建语料库项目2词法分析项目3关键词提取项目4文本向量化项目5句法分析项目6全课导航
语义分析项目7情感分析项目8智能问答机器人的设计与实现项目9全课导航
关键词提取4
项目目标理解关键词提取的基本概念。掌握关键词提取算法TF-IDF和TextRank。掌握常见的主题模型算法LSA和LDA。了解词云的基本概念与生成方法。项目目标知识目标
项目目标能够使用TF-IDF、TextRank和LDA算法进行关键词提取。能够使用WordCloud库生成词云。能够使用基于统计的方法实现自动文摘。自觉培养创新思维能力,养成良好的思考习惯。培养严谨的专业精神和职业操守,通过实践不断提升自己的专业能力和素质。项目目标技能目标素养目标
项目描述互联网每天都会产生大量的文本数据,用户从中查找自己所关注的话题,需要花费大量的时间和精力,使用自动文摘技术可以快速归纳和提炼文档的中心思想,形成简洁、准确的文本摘要。小旌了解到,基于统计方法的自动文摘技术无需复杂的语料预处理即可实现这一功能,因此他决定试一试。小旌打算根据北京冬奥会的新闻报道文档(mess.txt)生成自动文摘。为此,他需要先对新闻报道文档进行分句,并计算句子的位置权重、线索词权重和关键词权重,然后根据3种权重计算句子的总权重,选择权重较大的句子生成文本摘要。
实现中文文本自动文摘的具体步骤分解如下。第1步:文本分句。对中文文本进行分句,并为每个句子添加位置信息和标记。第2步:提取关键词。调用jieba库中的extract_tags()函数提取关键词。第?3?步:计算句子权重。分别计算每个句子的位置权重、线索词权重和关键词权重,并根据3种权重计算句子的总权重。第?4?步:生成自动文摘。根据句子权重对句子进行排序,并从中选择权重较大的句子生成文本的摘要。项目分析
项目分析实施中文文本自动文摘之前,需要先学习关键词提取的基础知识。本项目将对相关内容进行介绍,包含关键词提取的基本概念和分类,TF-IDF?算法与?TextRank?算法的基本原理和具体步骤,LSA算法与LDA算法的基本原理,以及生成词云的方法。
项目准备全班学生以3~5人为一组进行分组,各组选出组长,组长组织组员扫码观看“关键词提取的应用领域”视频,讨论并回答下列问题。问题1:简述关键词提取的主要应用领域。问题2:举例说明推荐系统是如何应用关键词提取技术的。关键词提取的应用领域
010203目录
CONTENT关键词提取概述关键词提取算法词云
关键词提取概述第01节
4.1关键词提取概述关键词提取是从文本中识别和提取最重要的词或短语的过程,这些词或短语能够代表文本的主题。关键词提取算法可以分为有监督的关键词提取算法和无监督的关键词提取算法两类,如下图所示。关键词提取算法分类
4.1关键词提取概述(1)有监督的关键词提取算法将关键词提取过程视为一个二分类问题,先提取出候选词,然后与已构建好的词表进行匹配,判断每个候选词是否为关键词。有监督的关键词提取算法的优点是可以获取较高的精度,缺点是需要大量的标注数据,人工成本较高。对数据要求较低,不需要人工生成的词表和标注数据,通常利用某些方法发现文本中比较重要的词作为关键词。(2)无监督的关键词提取算法
关键词提取算法第02节TF-IDF算法TextRank算法主题模型算法
视频导入
4.2.1TF-IDF算法词频-逆文档频率(termfrequency-inversedocumentfrequency,TF-IDF)算法是一种常用于信息检索和文本挖掘的加权技术,其基本思想是词的重要性随着它在文档中出现次数的增加而上升,同时会随着它在语料库中出现频率的升高而下降。TF-IDF算法由两部分组成:TF算法和IDF算法。词频(termfrequency,TF)算法统计一个词w在一篇文档d中出现的次数,其出现的次数越多对文档d的重要性就越强。TF算法的计算公式为逆文档频率(inversedocumentfrequency,IDF)算法统计词w在语料库的多少篇文档中出现。IDF算法的计算公式为
4.2.1TF-IDF算法高手点拨IDF?算法的计算公式中分母之所以加?1?是采用了拉普拉斯平滑,以避免部分词在语料库中不出现而导致分母为0的情况,增强了算法的健壮性。
4.2.1TF-IDF算法TF-IDF算法的计算公式:0102对文本进行分词并过滤停用词,得到候选词列表030405计算每个候选词在文档中的TF值计算每个候选词在语料库中的IDF值计算每个候选词的TF-IDF值(TFxIDF)将每个候选词的TF-IDF值进行降序排列,选择排在前面的词作为关键词TF-IDF算法提取关键词的具体步骤
4.2