《自然语言处理技术及应用》教案项目3 词法分析.docx

基本信息

文件名称：《自然语言处理技术及应用》教案项目3 词法分析.docx

文件大小：8.16 MB

总页数：12 页

更新时间：2025-05-26

总字数：约1.38万字

文档摘要

PAGE12

PAGE11

课题

词法分析

课时

10课时（450min）

教学目标

知识目标：

（1）理解中文分词的基本概念

（2）掌握常用的基于规则的分词方法

（3）掌握常用的基于统计的分词方法

（4）理解词性标注的基本概念

（5）了解词性标注的规范

（6）理解命名实体识别的基本概念

（7）理解CRF模型的基本原理

技能目标：

（1）能够使用jieba进行分词和词性标注

（2）能够使用CRF模型进行中文命名实体识别

素养目标：

（1）掌握专业领域的知识和技能，能够应对各种复杂问题和挑战

（2）提升职业操守，在面临重大选择时，能够做出有利于国家和民族的决策

教学重难点

教学重点：中文分词的基本概念，常用的基于规则的分词方法，常用的基于统计的分词方法，词性标注的基本概念，词性标注的规范，命名实体识别的基本概念，CRF模型的基本原理

教学难点：能够使用jieba进行分词和词性标注，能够使用CRF模型进行中文命名实体识别

教学方法

案例分析法、问答法、讨论法、讲授法

教学用具

电脑、投影仪、多媒体课件、教材

教学过程

主要教学内容及步骤

课前任务

【教师】布置课前任务，和学生负责人取得联系，让其提醒同学通过APP或其他学习软件，收集词法分析的相关知识，并进行了解

【学生】提前上网观看相关资料，熟悉教材

考勤

【教师】使用APP进行签到

【学生】按照老师要求签到

问题导入

【教师】播放“词法分析”视频，并提出以下问题：

问题?1：在自然语言处理中，语言的处理过程一般包括哪几个层次？词法分析是第几层次？

问题2：词法分析主要包括哪几部分？

【学生】观看、思考、讨论、回答

传授新知

【教师】通过学生的回答，引入新知，讲解中文分词的基本概念，常用的基于规则的分词方法，常用的基于统计的分词方法，词性标注的基本概念，词性标注的规范，命名实体识别的基本概念，CRF模型的基本原理等知识

3.1中文分词技术

分词是实现文本理解的基础。英文以空格作为单词天然的分隔符，分词时以空格为单位进行划分。中文以字为基本单位，而文本的语义表达是以词作为单位的，且中文词之间没有空格，因此中文分词难度较大。

……（详见教材）

3.1.1基于规则的分词方法

基于规则的分词方法是一种机械的分词方法，它需要事先建立好分词词典。在切分语句时，将语句的每个字符串与词典中的词进行逐一匹配，如果找到该词则进行切分，否则不予切分。这种方法简单、高效，但对没有录入词典的新词很难进行处理。故在实际应用中，一般将基于规则的分词方法作为初分手段，再利用语言信息提高切分准确率。

按照匹配切分方式的不同，基于规则的分词方法主要有正向最大匹配法、逆向最大匹配法和双向最大匹配法3种。

1．正向最大匹配法

正向最大匹配法（forwardmaximummatching,FMM）的基本思想是假设分词词典中的最大词长为?maxLen?个字符，从左向右扫描待分词文本，每次将最左边的?maxLen?个字符作为匹配字符串与词典中的词进行匹配。如果匹配成功，则将匹配字符串作为一个词切分出来，并产生新的待分词文本；如果匹配失败，则将匹配字符串的最后一个字符去掉，将剩余的?maxLen?1?个字符作为匹配字符串继续与词典中的词进行匹配，直到匹配成功或匹配字符串只剩余一个字符，这样就完成一轮匹配。然后在新的待分词文本中，取下一个长度为maxLen个字符进行匹配处理，直到整个待处理文本全部处理完毕。

……（详见教材）

?【教师】通过例题，帮助学生掌握正向最大匹配法的应用

【例?3-1】使用正向最大匹配法对句子“南京市长江大桥非常宏伟”进行分词，词典dict1.txt中有“南京”“南京市”“南京市长”“市长”“长江大桥”“长江”“大桥”“非常宏伟”“宏伟”“建筑的风格”等词，词典的最大词长maxLen为5。

【解】按照正向最大匹配法的基本思想，具体分词步骤如下。

（1）在待分词文本中从左向右取出?maxLen?个字符，得到“南京市长江”，与词典中的词进行匹配，发现词典中不存在该词，匹配失败。

（2）删除“南京市长江”的最后一个字符“江”，得到“南京市长”，发现词典中存在该词，完成第一次分词，切分出“南京市长”一词。此时，文本切分为“南京市长”和“江大桥非常宏伟”。

（3）从第一次分词后的待分词文本“江大桥非常宏伟”中，重新取出匹配字符串“江大桥非常”，按照同样的方式进行匹配，当匹配字符串为5个字符、4个字符、3个字符、2个字符时都没有匹配成功，得到第二次分词结果为“江”。此时，文本切分为“南京市长”“江”和“大桥非常宏伟”。

（4）继续从待分词文本中重新取出字符串进行匹配，直到整个待分词文本全部处理完毕。最终得到的分词结果为“南京市长”“江”“大桥”和“