PAGE6
PAGE6
PAGE7
PAGE7
课题
项目六构建语音识别系统
课时
4课时(180min)
教学目标
知识目标:
(1)理解加权有限状态转换器的解码原理
(2)理解端到端语音识别系统的工作流程
(3)掌握连接时序分类模型的基本原理和训练方法
(4)掌握连接时序分类模型的解码算法
(5)了解注意力机制的基本原理和注意力权重的编程实现方法
技能目标:
(1)能够编写程序,对大词汇量的语音数据进行处理
(2)能够使用连接时序分类模型构建端到端的语音识别系统
素养目标:
(1)提升使用科学方法解决实际问题的能力
(2)培养一丝不苟,精益求精的工作态度
教学重难点
教学重点:加权有限状态转换器的解码原理,端到端语音识别系统的工作流程,注意力机制的基本原理,注意力权重的编程实现方法
教学难点:连接时序分类模型的基本原理和训练方法,连接时序分类模型的解码算法
教学方法
案例分析法、问答法、讨论法、讲授法
教学用具
电脑、投影仪、多媒体课件、教材
教学过程
主要教学内容及步骤
考勤
【教师】使用APP进行签到
【学生】班干部报请假人员及原因
问题导入
【教师】播放“端到端自动语音识别”视频(详见教材),并提出以下问题:
(1)什么是端到端学习?
(2)请画出端到端语音识别的流程图。
(3)请简述端到端语音识别的优点。
【学生】聆听、思考、举手回答
传授新知
【教师】通过学生的回答引入要讲的知识,讲解传统语音识别系统,端到端语音识别系统的工作流程,连接时序分类模型的基本原理和训练方法,连接时序分类模型的解码算法,连接时序分类模型的编程实现,注意力机制的基本原理,以及注意力权重的编程实现方法等知识
6.1传统语音识别系统
?【教师】利用多媒体展示“语音序列的转换过程”图片(详见教材),并进行讲解
在传统语音识别系统中,声学模型的建模单位是音素序列,语言模型的建模单位是词序列,如此在声学模型与语言模型之间就产生了单位不统一的空隙。为了填补这个空隙,需要准备一份能够记录音素序列与词序列之间对应关系的发音词典。故声学模型、发音词典和语言模型就成了传统语音识别系统中不可或缺的3个部分,它们对于语音序列的转换过程如图所示。
?【教师】利用多媒体展示“语音识别中的搜索网络”图片(详见教材),并进行讲解
在传统语音识别系统中,语音识别的实质是使用“声学模型—发音词典—语言模型”求得概率最高的词序列。对于少量孤立词的语音识别来说,可能的词序列数量是有限的,可以通过对所有词进行概率计算,然后再取概率最大的值对应的词即可。但对于大词汇量语音识别系统来说,对所有词进行概率计算几乎是不可能的。这种情况下,可以按从前到后的顺序组合词语,生成如图所示的搜索网络。从搜索网络中筛选出概率最高的路径,得到语音识别结果。像这样,在搜索网络中寻找最优解的处理过程,称为搜索。而使用特定算法求得概率最高的词序列的处理称为解码,执行解码处理的程序称为解码器。
……(详见教材)
(1)合并运算。
?【教师】利用多媒体展示“加权有限状态转换器WFST”图片(详见教材),并进行讲解
合并运算用于将两个不同的WFST整合成一个WFST。WFST通常用节点和状态转移弧来表示,如图所示。
在WFST中,每个节点代表一个状态,两个状态之间的连线代表状态转移,称为转移弧,每条转移弧上均需标明输入标签、输出标签和对应的权重。在图“加权有限状态转换器WFST”中,状态0和状态1之间的输入标签是a,输出标签是x,权重是0.3。
?【教师】利用多媒体展示“WFST的合并运算”图片(详见教材),并进行讲解
两个不同的WFST进行合并运算的计算过程如图所示。首先,分别合并图(a)和图(b)中的起始状态和结尾状态,得到图(c)中的起始状态(0,0)和结尾状态(3,2),权重分别相加,得到0.3和1.3。其次,图(a)中的状态0到状态1的输出标签与图(b)中的状态0到状态1的输入标签一致,可以合并,把权重相加,同时将两个状态1合并在一起。再次,图(a)中的状态1到状态3的输出标签与图(b)中状态1到状态2的输入标签一致,也可以合并成一条转移弧,对应图(c)中的状态(1,1)到状态(3,2)的转移。以此类推,可以获得图(c)中的所有状态转移,但由于图(a)中的状态0到状态2的转移无法被合并,故丢弃。
(2)确定化运算。
?【教师】利用多媒体展示“WFST的确定化运算”图片(详见教材),并进行讲解
确定化运算可确保每个状态对应每个输入有唯一的输出。例如,如图所示,状态0到状态1和状态0到状态2的两条路径有共同的输入标签和输出标签,进行确定化运算后,通常只保留权重较小的一条路径,故应将状态2删除并将状态2到状态3的转移弧改为状态1到状态3的转移弧。
(3)最小化运算。
?【教师】利用