基本信息
文件名称:自然语言及语音处理项目式教程 课件5.3.1-1语音数据加载和预处理+5.3.3-1MFCC特征提取.pptx
文件大小:9.96 MB
总页数:17 页
更新时间:2025-06-24
总字数:约1.14千字
文档摘要

项目任务?初识语音数据加工处理

任务描述为实现高级语音应用提供基础提高语音信号的质量和可用性语音数据加工处理技术的应用和算法的优化技术的突破和发展

任务描述语音数据加工处理总体流程。音频文件读取音频数据读取数据可视化AMFCC特征提取提取MFCC特征进行特征可视化C音频预处理数据降噪移除静音音量处理分帧和重叠B

加载并预处理语音数据提取MFCC特征

加载并预处理语音数据音频数据在当今数字世界中占据着举足轻重的地位,具有极高的价值。音频数据分析与处理在数据科学领域中显得尤为重要。数据读取与预处理流程。数据读取数据可视化数据读取模块1数据降噪移除静音音量处理分帧和重叠数据预处理模块2

音频数据读取并可视化使用的示例音频数据为“file.wav”。

音频数据读取并可视化librosa库中的load函数常用参数说明。参数名称参数说明audio_file接收str,表示要加载的音频文件的路径。无默认值sr接收int,表示采样率。默认为None

音频数据读取并可视化从图可以看出,原始音频数据是由一组震荡的声波组成的。

音频数据预处理音频数据可能包含自然噪音、电磁噪音、操作噪音等多种噪音。预处理可以消除噪音和不相关的信息,仅保留最相关的信息。音频数据预处理流程。02移除静音04分帧和重叠01音频数据降噪03音量处理

音频数据预处理nn_filter函数的常用参数说明。参数名称参数说明S接收Numpy,表示一个音频特征的时间序列数据。无默认值aggregate接收函数,表示对特征向量求平均值。默认为np.mean

音频数据预处理trim函数的常用参数说明。参数名称参数说明audio_data接收数组,表示输入音频信号。无默认值top_db接收float,表示被认为是静音的最大分贝值(单位:分贝)。默认为20

音频数据预处理frame函数的常用参数说明。参数名称参数说明audio_data_louder接收数组,表示输入音频信号。无默认值frame_length接收int,表示帧的长度。无默认值hop_length接收int,表示相邻帧之间的跳跃长度。无默认值

加载并预处理语音数据提取MFCC特征

提取MFCC特征提取MFCC特征流程。MFCC特征提取可视化展示

提取MFCC特征mfcc函数的常用参数说明。参数名称参数说明y接收数组,表示原始音频信号。默认为Nonesr接收int,表示音频采样率。默认为22050n_mfcc接收int,表示返回的MFCC数量。默认为20n_fft接收int,表示计算STFT时的FFT窗口大小,以音频样本数为单位。默认为2048hop_length接收int,表示当计算音频信号时,帧之间的跳跃量,以音频样本数为单位。默认为512