摘要
摘要
语音鉴伪(VoiceAnti-spoofing,VAS)是声纹识别、音频取证、医疗康复等应
用领域的关键性技术,也逐渐成为智能语音信息处理的新兴研究热点之一。近年
来,随着深度学习和语音合成技术的快速发展,音频数据在社交媒体上及日常交流
中产生和传播的数量激增,而这些数据的安全性和真实性问题日益受到关注,这
也使得语音鉴伪成为迫切的需要且具有重要意义。
当前,语音鉴伪已取得一定的研究进展,但研究仍然存在以下几个方面的困
难与挑战:(1)如何在伪造语音算法、说话人及信道等多重不匹配的情况下,构
建具有鲁棒性的语音鉴伪系统来解决域泛化问题;(2)如何真实有效地对真伪语
音的区分性信息进行鲁棒性特征提取也存在着一定的挑战;(3)随着语音鉴伪场
景的复杂化,如何构建轻量化的语音鉴伪系统也是当前面临的挑战。本文主要针
对上述三个难点具体展开研究,主要包括以下三个创新点:
(1)针对人耳听觉系统对语音信号处理的掩蔽机制,设计了一种基于掩蔽效
应的鲁棒语音鉴伪系统,主要设计了一种基于注意力机制的通道掩蔽模块,结合
了注意力机制与通道掩蔽机制,以模拟听觉系统对区分性真伪信息的处理,提高
了合成语音检测系统的鲁棒性。
(2)针对如何有效利用特征进行真伪语音鉴别的问题,设计了一种基于时频特
征交互的双通路端到端语音鉴伪系统,通过模型层面时频域信息交互的方法,增
强了原有特征融合的能力,实现了时频域特征的高效融合。
(3)为解决现有端到端语音鉴伪系统参数量较大的问题,设计了一种基于多
尺度注意力机制的掩蔽卷积轻量化端到端语音鉴伪系统,通过多尺度特征提取和
多尺度信息交互,提取到更加细粒度的伪造信息,在保证系统性能的情况下,实现
了端到端语音鉴伪系统的轻量化。
本文使用ASVspoof2019和ASVspoof2021挑战赛的数据集进行相关的实验,
以此来验证上述所提方法的有效性。首先,在ASVspoof2019LogicalAccess(LA)
和ASVspoof2021LA以及Deepfake(DF)的评估集上,基于掩蔽效应的鲁棒语音
鉴伪系统的等错误率(EqualErrorRate,EER)相对于基线系统RawNet2分别降低
了18.26%、12.00%和14.97%。其次,在ASVspoof2019LA的评估集上,基于时频
特征交互的双通路端到端语音鉴伪系统的等错误率相对于RawNet2从5.64%降到
2.19%。最后,在ASVspoof2019LA的评估集上,基于多尺度注意力机制的掩蔽
卷积轻量化端到端语音鉴伪系统的等错误率相对于原来的Res2Net50从9.74%降
至6.38%,并且与RawNet2性能几乎持平,但模型参数量却从17.68M降到0.88M。
I
摘要
综上所述,本文通过多组相关实验分析,证明了所提出的三种端到端的语音
鉴伪系统的方法的正确性和有效性。本文的研究成果为解决语音鉴伪领域中的问
题提供了新的思路和方法,也为语音技术的进一步发展奠定了坚实的基础。
关键词:语音鉴伪;端到端网络;RawNet2;特征交互;轻量化
II
Abstract
Abstract
VoiceAnti-spoofing(VAS)isacrucialtechnologyinapplicationssuchasspeaker
recognition,audioforensics,andmedicalrehabilitation,andithasgraduallyemergedas
anewresearchhotspotinintelligentspeechinformationprocessing.Inrecentyears,with
therapiddevelopmentofdeeplearningandspeechsynthesistechn