《语音识别技术及应用》教案项目六构建语音识别系统.docx

基本信息

文件名称：《语音识别技术及应用》教案项目六构建语音识别系统.docx

文件大小：1.8 MB

总页数：9 页

更新时间：2025-05-26

总字数：约1.07万字

文档摘要

PAGE6

PAGE7

课题

项目六构建语音识别系统

课时

4课时（180min）

教学目标

知识目标：

（1）理解加权有限状态转换器的解码原理

（2）理解端到端语音识别系统的工作流程

（3）掌握连接时序分类模型的基本原理和训练方法

（4）掌握连接时序分类模型的解码算法

（5）了解注意力机制的基本原理和注意力权重的编程实现方法

技能目标：

（1）能够编写程序，对大词汇量的语音数据进行处理

（2）能够使用连接时序分类模型构建端到端的语音识别系统

素养目标：

（1）提升使用科学方法解决实际问题的能力

（2）培养一丝不苟，精益求精的工作态度

教学重难点

教学重点：加权有限状态转换器的解码原理，端到端语音识别系统的工作流程，注意力机制的基本原理，注意力权重的编程实现方法

教学难点：连接时序分类模型的基本原理和训练方法，连接时序分类模型的解码算法

教学方法

案例分析法、问答法、讨论法、讲授法

教学用具

电脑、投影仪、多媒体课件、教材

教学过程

主要教学内容及步骤

考勤

【教师】使用APP进行签到

【学生】班干部报请假人员及原因

问题导入

【教师】播放“端到端自动语音识别”视频（详见教材），并提出以下问题：

（1）什么是端到端学习？

（2）请画出端到端语音识别的流程图。

（3）请简述端到端语音识别的优点。

【学生】聆听、思考、举手回答

传授新知

【教师】通过学生的回答引入要讲的知识，讲解传统语音识别系统，端到端语音识别系统的工作流程，连接时序分类模型的基本原理和训练方法，连接时序分类模型的解码算法，连接时序分类模型的编程实现，注意力机制的基本原理，以及注意力权重的编程实现方法等知识

6.1传统语音识别系统

?【教师】利用多媒体展示“语音序列的转换过程”图片（详见教材），并进行讲解

在传统语音识别系统中，声学模型的建模单位是音素序列，语言模型的建模单位是词序列，如此在声学模型与语言模型之间就产生了单位不统一的空隙。为了填补这个空隙，需要准备一份能够记录音素序列与词序列之间对应关系的发音词典。故声学模型、发音词典和语言模型就成了传统语音识别系统中不可或缺的3个部分，它们对于语音序列的转换过程如图所示。

?【教师】利用多媒体展示“语音识别中的搜索网络”图片（详见教材），并进行讲解

在传统语音识别系统中，语音识别的实质是使用“声学模型—发音词典—语言模型”求得概率最高的词序列。对于少量孤立词的语音识别来说，可能的词序列数量是有限的，可以通过对所有词进行概率计算，然后再取概率最大的值对应的词即可。但对于大词汇量语音识别系统来说，对所有词进行概率计算几乎是不可能的。这种情况下，可以按从前到后的顺序组合词语，生成如图所示的搜索网络。从搜索网络中筛选出概率最高的路径，得到语音识别结果。像这样，在搜索网络中寻找最优解的处理过程，称为搜索。而使用特定算法求得概率最高的词序列的处理称为解码，执行解码处理的程序称为解码器。

……（详见教材）

（1）合并运算。

?【教师】利用多媒体展示“加权有限状态转换器WFST”图片（详见教材），并进行讲解

合并运算用于将两个不同的WFST整合成一个WFST。WFST通常用节点和状态转移弧来表示，如图所示。

在WFST中，每个节点代表一个状态，两个状态之间的连线代表状态转移，称为转移弧，每条转移弧上均需标明输入标签、输出标签和对应的权重。在图“加权有限状态转换器WFST”中，状态0和状态1之间的输入标签是a，输出标签是x，权重是0.3。

?【教师】利用多媒体展示“WFST的合并运算”图片（详见教材），并进行讲解

两个不同的WFST进行合并运算的计算过程如图所示。首先，分别合并图（a）和图（b）中的起始状态和结尾状态，得到图（c）中的起始状态(0,0)和结尾状态(3,2)，权重分别相加，得到0.3和1.3。其次，图（a）中的状态0到状态1的输出标签与图（b）中的状态0到状态1的输入标签一致，可以合并，把权重相加，同时将两个状态1合并在一起。再次，图（a）中的状态1到状态3的输出标签与图（b）中状态1到状态2的输入标签一致，也可以合并成一条转移弧，对应图（c）中的状态(1,1)到状态(3,2)的转移。以此类推，可以获得图（c）中的所有状态转移，但由于图（a）中的状态0到状态2的转移无法被合并，故丢弃。

（2）确定化运算。

?【教师】利用多媒体展示“WFST的确定化运算”图片（详见教材），并进行讲解

确定化运算可确保每个状态对应每个输入有唯一的输出。例如，如图所示，状态0到状态1和状态0到状态2的两条路径有共同的输入标签和输出标签，进行确定化运算后，通常只保留权重较小的一条路径，故应将状态2删除并将状态2到状态3的转移弧改为状态1到状态3的转移弧。

（3）最小化运算。

?【教师】利用