基本信息
文件名称:自然语言及语音处理项目式教程 课件2.2.4-1初识关键词提取.pptx
文件大小:7.82 MB
总页数:19 页
更新时间:2025-06-24
总字数:约1.89千字
文档摘要

掌握关键词提取?初识文本基础处理

关键词提取概述关键词提取算法

关键词提取概述关键词:能够反映文本主题或内容的词语。关键词提取:单个文本或一个语料库中,根据核心词语的统计和语义分析,选择适当的、能够完整表达主题内容的特征项的过程。

关键词提取概述应用人类用户:要求所提取的关键词具有很高的可读性、信息性和简约性。新闻阅读、广告推荐、历史文化研究、论文索引。机器用户:文本聚类、文本分类、机器翻译、语音识别。

关键词提取概述实用性表现——可读性由于中文的字与字之间是没有空格隔开的,需要分词工具对文本进行切分。分词工具对于专有名词的切分准确率还很低。词的表达能力也非常有限。“市场/经济”“市场”或“经济”任何一个词都无法表达整个短语的含义。

关键词提取概述实用性表现——高速性系统应具有较快的速度,能够及时处理大量的文本。针对各类新闻的关键词提取系统:新闻产生后,应能在数秒内提取出该新闻的关键词,以保证新闻的实时性。

关键词提取概述实用性表现——学习性系统应能处理非常广泛的领域的文本。未登录词、网络新词频频出现。系统应具有较强的学习能力。

关键词提取概述实用性表现——健壮性系统应具有处理复杂文本的能力。中、英文混杂的文本,文字、图表、公式混杂的文本。

关键词提取概述关键词提取算法

关键词提取算法常见的关键字提取算法:算法说明TF-IDF算法TF-IDF算法是基于统计的算法,拥有简单又迅速的优点。TF-IDF算法的主要思想是字词的重要性随着它在文档中出现次数的增加而上升,并随着它在语料库中出现频率的升高而下降TextRank算法TextRank算法是一种基于图的文本排序算法,它可以用于自动摘要和提取关键词。与TF-IDF算法相比,TextRank算法不同之处在于,它不需要依靠现有的文档集提取关键词,只需利用局部词汇之间的关系对后续关键词进行排序,随后从文本中提取词或句子,实现提取关键词和自动摘要。TextRank算法的基本思想来自Google的PageRank算法主题模型算法主题模型算法认为文档是由主题组成的,而主题是词的一个概率分布,即每个词都是通过“文档以一定的概率选择某个主题,再在这个主题中以一定的概率选择某个词”这一过程得到的。主题模型算法能自动分析每个文档,统计文档内的词语,根据统计的信息断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。常见的主题模型算法主要有LSA、概率潜在语义分析(ProbabilisticLatentSemanticAnalysis,PLSA)、LDA,以及基于深度学习的lda2vec等

TF-IDFTF-IDF:权重。思想:如果一个词在某个文档中出现次数较多,同时在其他文档中出现次数较少,那么这个词能很好地反映该文档的内容。组成词频(TF):某词在文档中出现的次数/文档中的总词数。逆文档频率(IDF):所有文档的总数/包含该词的文档数,取对数。TF-IDF=TF×IDF

TF-IDFTF-IDF流程计算TF:计算IDF:计算TF-IDF:

TF-IDFTF-IDF示例文档1:“科技/公司/推出/新款/智能手机/系统/更新/用户/体验/功能/优秀/产品/创新/”。文档2:“农民/种植/蔬菜/水果/收获/销售/产量/农业/市场/价格/波动/农产品/投入/”。文档3:“教授/发表/研究/论文/探讨/人工智能/技术/应用/领域/优秀/成果/创新/科研/”。

TF-IDF以文档1为例,计算TF:计算每个词在文档1中的TF值。词TF值科技1/13公司1/13推出1/13新款1/13智能手机1/13系统1/13更新1/13用户1/13体验1/13功能1/13优秀1/13产品1/13创新1/13

TF-IDF计算IDF例如,“科技”的计算方法。词IDF值科技0.405公司0.405推出0.405新款0.405智能手机0.405系统0.405更新0.405用户0.405体验0.405功能0.405优秀0产品0.405创新0

TF-IDF计算TF-IDF例如,“科技”的计算方法。词TF-IDF值科技0.031公司0.031推出0.031新款0.031智能手机0.031系统0.031更新0.031用户0.031体验0.031功能0.031优秀0产品0.031创新0

TF-IDF提取关键词:提取TF-IDF值最高的几个为关键词。文档1关键词:科技/公司/推出/新款/智能手机……文档2关键词:农民/种植/蔬菜/水果/收获……文档3关键词:教授/发表/研究/论文/探讨……