语音识别分析的关键技术分析综述
1.1语音前端信号处理
所谓的语音前端信号处理就是对原始的语言数据进行相关的处理,其目的就
在于将源的前端语音信号进行更加清晰的细化和相关特征的提取。其核心处理
关键点有:
语音活动的检测:语音活动的检测它们的作用是通过一个特定的模块、检测
到语音信号在一起点位置、把自身需要的语音添加到那里,而不必对这些添加到
那里进行删减和去除。所谓非语音是指静态或者噪音。
降噪:降噪就是将生活中一些提取目标之外的声音通过降噪比的手段方式,
让目标声音更加的清晰明了,从而提高识别效率。常用的降噪为自适应LMS和
维纳滤波等。
消除回声:一些空旷或山涧等地方,声音的传播会受到物体的碰撞,从而造
成回声,因此要考虑回声对其影响。自适应算法是一种可以调节滤波器的参数,
来模拟由于这种滤波而产生的信道环境。计算得到回波信号的形态和其路线是否
被去掉。
混响抵消:一般混响抵消方法主要有:逆滤波法、以及声波的波束的进一步
深度研究等。
声音定位:这是关键点的重要核心部分,麦克风阵列用于犯罪嫌疑人对话的
大致的位置,并为其下一识别阶段做准备。
1.2声学模型的建立
所谓的声学模型就是把语音信号进行简单的语音特征与之相关的句子相关
联起来。例如有一段音频数据,需要识别出该音频数据对应的文字一样,这里的
音频数据就是观测变量,而文字就是隐藏变量。这就是我们通常所说的隐马尔可
夫模型,用来解决发音和文本之间的关系。我们常用到的声学模型就是隐马尔可
夫模型,如图1所示。其作用就是为公安识别声音的精)隹度打好了铺垫。
图1隐马尔科夫模型
HMM声学模型一般被应用于语音识别系统,如图3:
图3GMM-HMM的声学模型
换句话说,GMHMM语音识别只是停留在语音学习浅层的一面,而无法深
入其本质特征。它也不能获得其它信息之间的高阶算法的关联性。DNNHMM运
用DNN强大的学习能力以改善识别度。如图4:
转移概率
HMM
DNN
语音
特征
图4DNN-HMM
GMMHMM模型的优点是具有较强的计算能力和处理能力。DNNHMM模型大
大提高了识别率,但它需要更高的硬件计算能力。因此,选型时可结合实际情况
进行相关处理和应用调整。
1.3语音识别特征提取方法
在语音识别中其特征的相关参数有其自身的要求在里面,其具体的要求有:
可以将语音信号转换成语音特征向量,并由计算机处理。同时,语音识别特征提
取的结果能够满足听觉感知的要求范围和相应的特性,它可以增强语音信号,在
一定程度上减少噪声等因素的干扰常用的特征提取方法如下:
1.3.1线性预测分析(LPC)
它的基本原理就是利用说话者的声音发声特点,再通过其它的参考模型进行
自身信号的检测与分析从而进一步推导出下一步。说白了就是用一个模型来表示
被分析的信号,也就是把信号看成一个模型的输出,这样就可以用模型参数来描
述信号。通常模型只包含有限不为零的极点。
1.3.2感知线性预测系数(PLP)
所谓的感知线性预测系数的特征提取方法就是通过电脑的计算从而运用到
频谱分析当中去,将原有的地信息语音信号经过处理之后可以用人耳听觉模型从
而利于抗噪语音相应的特征提取等,其可以带入到公安业务中,运用到相应环境
中的抗噪处理后可以大大的缩短了犯罪语音证据的提取。从而推动侦查破案率的
提升。
1.3.3Tandem特征和Bottleneck特征