基本信息
文件名称:智能科学与技术导论 课件 第7章-自然语言处理及其应用.ppt
文件大小:1.84 MB
总页数:50 页
更新时间:2025-05-21
总字数:约1.57万字
文档摘要

7.2自然语言处理的基本技术 7.2.4句法分析2.上下文无关文法一门语言一定有语法(也称文法),也就是词语形成句子的规则。上下文无关文法(Context-FreeGrammar,CFG),即乔姆斯基2型文法,是一种语法的形式化表达方式,它将语法表示为4元组G=(N,T,S,R),其中:1)N是“非终结”符号或变量的有限集合。N中的元素表示句子中不同类型的短语结构或子句结构。2)T是“终结符”的有限集合。T与N不相交。例如,将中文的词视作终结符。3)S是开始符,用来表示整个句子,它是N中的元素。4)R是一个规则集。每条规则(也叫产生式)表示为U→w,其中U∈N,w∈(N∪T)*。由上下文无关文法定义的语言是上下文无关语言。很多计算机语言都是上下文无关语言,自然语言的语法也可以表示为上下文无关文法,但是可能会生成诸如“咬死猎人的猎人”、“咬死狗的狗”和“咬死狗的猎人”这样的合法句子,显然这些句子不太可能出现在人们日常的对话中。这也意味着CFG产生的合法句子数量将是无限的,但是大多数都没有意义。因此,一门采用CFG表示的自然语言的合法语句理论上是无限的,但实际上人类常用的语句并不是无限的。7.2自然语言处理的基本技术 7.2.4句法分析3.概率上下文无关文法根据CFG文法,采用不同的推导规则,计算机可以为句子“咬死了猎人的狗”自动构建出如前面图所示的两棵句法分析树,也就是存在语法歧义。这两棵树分别表示咬死的是猎人或咬死的是狗,因此存在语义歧义。为了消除歧义,计算机需要对这两棵句法树进行评价。概率上下文无关文法(PCFG)方法是常见的句法树评价方法,也就是句法分析方法。PCFG方法计算每棵句法树(也就是句子结构)在树库中出现的概率,概率越大表示这棵句法树的句法分解越可能是正确的,这就是概率上下文无关文法(PCFG)方法的基本思想。PCFG表示为5元组(N,T,S,R,P),其中,非终结符集合N、终结符集合T、开始符S和规则集R的定义与CFG相同,P是概率集合,P包含R中每条规则的概率。当一句话有多棵候选句法树时,PCFG计算每棵树的得分,选择得分最高的句法树作为这句话的句法分析结果,达到消岐的目的。例如,可以算出前面图中两棵树的PCFG得分,得分高者即为句法分析结果。7.3自然语言处理的其它常见技术7.3.1文本向量化1.词袋词袋(BagofWord,BoW)模型是以词为基本处理单元的文本向量化方法。词袋模型简化了自然语言处理中的数据表示。词袋模型将一段文字表示为向量,可以用于表示一个句子或者一个文档。词袋不考虑语法或词序,只保留词和词的数量。下面举例说明词袋的表示方法。假设语料库中仅包含3句简单的话,如下:1)我在北京上大学。2)我在广州上大学。3)我在北京大学上大学。将这3句话分词后,可得到词典{1:我,2:在,3:广州,4:北京,5:大学,6:上},其中数字表示词序,也就是词语的位置。按照每句话包含的词语在词典中的位置和词语在句子中出现的次数,这3句话的词袋向量表示如图所示。7.3自然语言处理的其它常见技术7.3.1文本向量化2.TF-IDFTF(TermFrequency,TF)指词频。词频表示一个词在文档(包括新闻、评论、文章等各种形式)中出现的频率,等于这个词在一篇文档中出现的次数除以这篇文档的总词数。IDF(InverseDocumentFrequency)指逆文档频率。逆文档频率是为了反映一个词对文档的重要性,它的基本思想是一个词在越少的文档中出现过,那么它的IDF值越高。TF-IDF指词频-逆文档频率,是基于统计方法。假设语料库包含n篇文档d1,d2,…,dn,词典为{w1,w2,…,wn}。TF、IDF由下式计算。从公式可以看出,当包含wj的文档越多时,公式分母越大,IDF值也就越小。词wj对文档di的重要程度可由TF-IDF值反映出来,TF-IDF值由公式计算。式中wj表示第j个词;di表示第i篇文档。TF-IDF的文档向量形式与词袋向量类似,但是向量的每个元素不是词在文档中出现的次数,而是词的TF-IDF值。7.3自然语言处理的其它常见技术7.3.2词云词云(WordCloud)是一种基于自然语言处理的文本可视化形式,它是一种文本数据的可视化表示,通常用于描述文章的关键字。词云包含若干个标记,每个标记是一个词,词重要性用字体大小或颜色表示。词云有助于读者快速发现文章最突出的关键词和这些关键词的突出程度。