声音信号处理与项目实践课件第2章声音信号简介.pptx

基本信息

文件名称：声音信号处理与项目实践课件第2章声音信号简介.pptx

文件大小：1.2 MB

总页数：14 页

更新时间：2025-05-24

总字数：约2.04千字

文档摘要

第2章声音信号简介2.1人类语音信号的产生2.2语音信号的基本特征2.3声音的特征提取2.4人类的听觉感知2.5语音数据库

2人类语音信号是如何产生的2.1人类语音信号的产生

32.1人类语音信号的产生人类语音信号的产生可以等效为下图所示的过程，包括噪声源(NoiseSource)、声门源(GlottalSource)、声道滤波器(Vocal-TractFilter)和辐阻抗(RadiationImpedance)。图语音信号的产生

42.1人类语音信号的产生?Z变换??

52.1人类语音信号的产生??Z反变换

62.2语音信号的基本特征音质特征：频率微扰、声门参数、共振峰韵律特征：基频、时长、过零率、对数能量谱相关特征：线性谱特征（线性预测系数）倒谱特征（线性预测倒谱系数、Mel频率倒谱系数）深度学习特征语音信号的基本特征

72.3声音的特征提取声音特征手工声音特征：韵律特征、音质特征、谱特征、 Mel频率倒谱系数深度语音特征：卷积神经网络（CNN）、长短期记忆网络（LSTM）、 SincNet、Transformer和注意力机制

82.4人类的听觉感知因为语音增强效果的最终度量是人的主观感受,所以语音感知对语音增强研究有重要的作用:1、人耳对语音的感知是通过语音信号中各频谱分量幅度获取的,对各分量的相位则不敏感。2、人耳对频谱分量强度的感受是频率与能量谱的二元函数,响度与频谱幅度的对数成正比。3、人耳对频率高低的感受近似与该频率的对数值成正比。4、人耳有掩蔽效应，即强信号对弱信号有掩蔽抑制作用。掩蔽的程度是声音强度与频率的二元函数。5、短时谱中的共振峰对语音的感知十分重要，特别是第二共振峰比第一共振峰更为重要，因此对语音信号进行一定程度的高通滤波不会对可懂度造成影响。6、人耳在两人以上的讲话中有能力分辩出需要聆听的声音。

92.5语音数据库语音数据库是语音信号处理研究的基础，包括数据库建设的目的、类型、创建与采集过程、标准化与共享原则以及伦理和法律方面的考量。自然语音数据库语音识别数据库声音情感数据库语音合成数据库

CallHome数据集TIMIT数据集LibriSpeech数据集2.5.1语音识别数据集

112.5.2声音情感数据库图二维的Arousal-Valence状态空间图语料库年龄语言情感表现形式样本数采样频率kHzDMO-DB成人德语表演型49416CASIA成人中文表演型960016ABC成人德语表演型43016FAUAIBO儿童德语自然型1821616eNTERFACE成人英语引导型127716SUSAS成人英语自然型35938VAM成人德语自然型94716TUMAVIC成人英语自然型300244表不同语音情感数据库间差异

122.5.3多模态情感数据库数据集名称建立年份数据类型情感标签简要描述eNTERFACE’052006语音、视频愤怒、厌恶、恐惧、快乐、悲伤、惊讶来自14个不同国家的42名参与者，录制了1277个视听样本RML2008语音、视频愤怒、厌恶、恐惧、幸福、悲伤、惊讶8名参与者，录制了720个视听情感样本IEMOCAP2008语音、视频、文本、人体姿态中性、快乐、悲伤、愤怒、惊讶、恐惧、厌恶、沮丧、兴奋10名演员，录制了共10039段对话，平均对话时间为4.5sSAVEE2011语音、视频生气、厌恶、恐惧、高兴、中性、悲伤、惊讶来自萨里大学的4位母语英语男性，每人录制了120个音视频片段AFEW2012语音、视频愤怒、厌恶、恐惧、幸福、悲伤、惊讶、中性由1426个试听片段构成BAUM-1s2016语音、视频快乐、愤怒、悲伤、厌恶、恐惧、惊讶31名土耳其参与者，共录制了1222个视听样本CHEAVDI2016语音、视频愤怒、快乐、悲伤、担心、焦虑、惊讶、厌恶、中性从电影、电视剧、电视节目中获取了140min的自发情感片段CMU-MOSI2016语音、视频、文本消极、积极由93段视频，2199个评论话语组成RAMAS2018语音、视频、人体姿态、生理信号愤怒、厌恶、快乐、悲伤、恐惧、惊讶由10名演员录制的7h高清晰度特写视频RAVDESS2018语音、视频中性、平静、快乐、悲伤、愤怒、恐惧、厌恶、惊讶24位演员，每人录制60段讲话、44首歌曲CMU-MOSEI2018语音、视频、文本快乐、悲伤、愤怒、恐惧、厌恶、惊讶从YouTube上获取了1000多名在线演讲者的3837段视频MELD2019语音、视频、文本愤怒、厌恶、恐惧、喜悦、中立、悲伤、惊讶截取自电视剧Friends中的1433段对话表常见的多模态情感数据集

13练习题

2.请描述人类语音产生的模型？并且说明为什么人类语音可以分为周期性信号和非周期性信号