基本信息
文件名称:《自然语言处理技术及应用》教案 项目3 词法分析.docx
文件大小:8.16 MB
总页数:12 页
更新时间:2025-05-26
总字数:约1.38万字
文档摘要

PAGE12

PAGE12

PAGE11

PAGE11

课题

词法分析

课时

10课时(450min)

教学目标

知识目标:

(1)理解中文分词的基本概念

(2)掌握常用的基于规则的分词方法

(3)掌握常用的基于统计的分词方法

(4)理解词性标注的基本概念

(5)了解词性标注的规范

(6)理解命名实体识别的基本概念

(7)理解CRF模型的基本原理

技能目标:

(1)能够使用jieba进行分词和词性标注

(2)能够使用CRF模型进行中文命名实体识别

素养目标:

(1)掌握专业领域的知识和技能,能够应对各种复杂问题和挑战

(2)提升职业操守,在面临重大选择时,能够做出有利于国家和民族的决策

教学重难点

教学重点:中文分词的基本概念,常用的基于规则的分词方法,常用的基于统计的分词方法,词性标注的基本概念,词性标注的规范,命名实体识别的基本概念,CRF模型的基本原理

教学难点:能够使用jieba进行分词和词性标注,能够使用CRF模型进行中文命名实体识别

教学方法

案例分析法、问答法、讨论法、讲授法

教学用具

电脑、投影仪、多媒体课件、教材

教学过程

主要教学内容及步骤

课前任务

【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,收集词法分析的相关知识,并进行了解

【学生】提前上网观看相关资料,熟悉教材

考勤

【教师】使用APP进行签到

【学生】按照老师要求签到

问题导入

【教师】播放“词法分析”视频,并提出以下问题:

问题?1:在自然语言处理中,语言的处理过程一般包括哪几个层次?词法分析是第几层次?

问题2:词法分析主要包括哪几部分?

【学生】观看、思考、讨论、回答

传授新知

【教师】通过学生的回答,引入新知,讲解中文分词的基本概念,常用的基于规则的分词方法,常用的基于统计的分词方法,词性标注的基本概念,词性标注的规范,命名实体识别的基本概念,CRF模型的基本原理等知识

3.1中文分词技术

分词是实现文本理解的基础。英文以空格作为单词天然的分隔符,分词时以空格为单位进行划分。中文以字为基本单位,而文本的语义表达是以词作为单位的,且中文词之间没有空格,因此中文分词难度较大。

……(详见教材)

3.1.1基于规则的分词方法

基于规则的分词方法是一种机械的分词方法,它需要事先建立好分词词典。在切分语句时,将语句的每个字符串与词典中的词进行逐一匹配,如果找到该词则进行切分,否则不予切分。这种方法简单、高效,但对没有录入词典的新词很难进行处理。故在实际应用中,一般将基于规则的分词方法作为初分手段,再利用语言信息提高切分准确率。

按照匹配切分方式的不同,基于规则的分词方法主要有正向最大匹配法、逆向最大匹配法和双向最大匹配法3种。

1.正向最大匹配法

正向最大匹配法(forwardmaximummatching,FMM)的基本思想是假设分词词典中的最大词长为?maxLen?个字符,从左向右扫描待分词文本,每次将最左边的?maxLen?个字符作为匹配字符串与词典中的词进行匹配。如果匹配成功,则将匹配字符串作为一个词切分出来,并产生新的待分词文本;如果匹配失败,则将匹配字符串的最后一个字符去掉,将剩余的?maxLen?1?个字符作为匹配字符串继续与词典中的词进行匹配,直到匹配成功或匹配字符串只剩余一个字符,这样就完成一轮匹配。然后在新的待分词文本中,取下一个长度为maxLen个字符进行匹配处理,直到整个待处理文本全部处理完毕。

……(详见教材)

?【教师】通过例题,帮助学生掌握正向最大匹配法的应用

【例?3-1】使用正向最大匹配法对句子“南京市长江大桥非常宏伟”进行分词,词典dict1.txt中有“南京”“南京市”“南京市长”“市长”“长江大桥”“长江”“大桥”“非常宏伟”“宏伟”“建筑的风格”等词,词典的最大词长maxLen为5。

【解】按照正向最大匹配法的基本思想,具体分词步骤如下。

(1)在待分词文本中从左向右取出?maxLen?个字符,得到“南京市长江”,与词典中的词进行匹配,发现词典中不存在该词,匹配失败。

(2)删除“南京市长江”的最后一个字符“江”,得到“南京市长”,发现词典中存在该词,完成第一次分词,切分出“南京市长”一词。此时,文本切分为“南京市长”和“江大桥非常宏伟”。

(3)从第一次分词后的待分词文本“江大桥非常宏伟”中,重新取出匹配字符串“江大桥非常”,按照同样的方式进行匹配,当匹配字符串为5个字符、4个字符、3个字符、2个字符时都没有匹配成功,得到第二次分词结果为“江”。此时,文本切分为“南京市长”“江”和“大桥非常宏伟”。

(4)继续从待分词文本中重新取出字符串进行匹配,直到整个待分词文本全部处理完毕。最终得到的分词结果为“南京市长”“江”“大桥”和“