机器语音语言应用技术-语音识别.doc

基本信息

文件名称：机器语音语言应用技术-语音识别.doc

文件大小：652 KB

总页数：5 页

更新时间：2025-06-14

总字数：约1.88千字

文档摘要

实验13语音识别

一、实验目的

1.了解识别的基本原理。

2.熟悉Transformer模型的基本原理。

3.熟悉Transformer的语音识别算法模型。

二、实验内容

1.算法原理

1.1基本描述

语音识别，就是将一段语音信号转换成相对应的文本信息，语音识别系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来；之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量。

然后在声学模型中根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

1.2语音识别原理

数据预处理：主要包括静音切除、降噪以及语音增强。静音切除又称语音边界检测或端点检测，指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点然后从连续的语音流中检测出有效的语音段。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

特征提取：接收端接收到的语音信号经过上文的预处理以后便得到有效的语音信号，对每一顿波形进行声学特征提取便可以得到一个多维向量，这个向量便包含了一顿波形的内容信息，为后续的进一步识别做准备。

声学模型：声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。

1.3Transformer介绍

Transformer由论文《AttentionisAllYouNeed》提出，是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。Transformer可以并行训练，训练时间更短。

从编码器输入的序列首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入序列的其他单词。

自注意力层的输出会传递到前馈（feed-forward）神经网络中。每个位置的单词对应的前馈神经网络都完全一样。

解码器中也有编码器的自注意力（self-attention）层和前馈（feed-forward）层。除此之外，这两个层之间还有一个注意力层，用来关注输入序列的相关部分（和seq2seq模型的注意力作用相似）。

2.功能设计

2.1功能描述

AiNLP人工智能轻量化应用框架是一款面向于人工智能自然语言应用的开发框架，采用统一模型调用、统一硬件接口、统一算法封装和统一应用模板的设计模式，实现了嵌入式边缘计算环境下进行快速的应用开发和项目实施。

AiNLP为模型算法的调用提供RESTful调用接口，实时返回自然语言算法处理结果，同时通过物联网云平台的应用接口，实现与硬件的连接和互动，最终形成各色智联网产业应用。

AiNLP框架如下图所示：

三、实验步骤

1.工程部署

1.1硬件部署

1）准备人工智能边缘应用平台，给边缘计算网关正确连接Wi-Fi天线、麦克风（麦克风阵列或者

Ai语音摄像头）、电源。

2）按下电源开关上电启动边缘计算网关，将启动ubuntu操作系统。

3）系统启动后，连接局域网内的Wi-Fi网络，记录边缘计算网关的IP地址，比如：192.168.100.200。

1.2工程部署

1）运行MobaXterm工具，通过SSH登录到边缘计算网关

2）在SSH终端创建实验工作目录，若文件夹已存在则跳过此步：

3）通过SSH将本实验工程代码和ainlp工程包上传到目录下

2.工程运行

1）在SSH终端输入以下命令运行实验工程：

3.语音识别

1）在实验交互区右下角有录音图标，点击可进行录音（点击录音后，chrome浏览器会弹出提示使用麦克风的权限，需要点击“允许”继续）。

2）处于录音状态时，录音图标显示动态效果，提示“录音中”，对着麦克风（边缘网关摄像头内部集成了麦克风）进行说话录音，再次点击录音图标则完成录音，算法将进行语音识别并弹窗提示识别状态，识别完成后在实验交互区和实验结果区都可以看到识别的语音文字结果。

本实验由于模型精度，发音和吐字的清晰对于模型识别率有很大影响，建议以慢速进行录制简单且短小的语句。