基本信息
文件名称:基于端到端的语音鉴伪方法研究.pdf
文件大小:1.86 MB
总页数:65 页
更新时间:2025-07-03
总字数:约10.43万字
文档摘要

摘要

摘要

语音鉴伪(VoiceAnti-spoofing,VAS)是声纹识别、音频取证、医疗康复等应

用领域的关键性技术,也逐渐成为智能语音信息处理的新兴研究热点之一。近年

来,随着深度学习和语音合成技术的快速发展,音频数据在社交媒体上及日常交流

中产生和传播的数量激增,而这些数据的安全性和真实性问题日益受到关注,这

也使得语音鉴伪成为迫切的需要且具有重要意义。

当前,语音鉴伪已取得一定的研究进展,但研究仍然存在以下几个方面的困

难与挑战:(1)如何在伪造语音算法、说话人及信道等多重不匹配的情况下,构

建具有鲁棒性的语音鉴伪系统来解决域泛化问题;(2)如何真实有效地对真伪语

音的区分性信息进行鲁棒性特征提取也存在着一定的挑战;(3)随着语音鉴伪场

景的复杂化,如何构建轻量化的语音鉴伪系统也是当前面临的挑战。本文主要针

对上述三个难点具体展开研究,主要包括以下三个创新点:

(1)针对人耳听觉系统对语音信号处理的掩蔽机制,设计了一种基于掩蔽效

应的鲁棒语音鉴伪系统,主要设计了一种基于注意力机制的通道掩蔽模块,结合

了注意力机制与通道掩蔽机制,以模拟听觉系统对区分性真伪信息的处理,提高

了合成语音检测系统的鲁棒性。

(2)针对如何有效利用特征进行真伪语音鉴别的问题,设计了一种基于时频特

征交互的双通路端到端语音鉴伪系统,通过模型层面时频域信息交互的方法,增

强了原有特征融合的能力,实现了时频域特征的高效融合。

(3)为解决现有端到端语音鉴伪系统参数量较大的问题,设计了一种基于多

尺度注意力机制的掩蔽卷积轻量化端到端语音鉴伪系统,通过多尺度特征提取和

多尺度信息交互,提取到更加细粒度的伪造信息,在保证系统性能的情况下,实现

了端到端语音鉴伪系统的轻量化。

本文使用ASVspoof2019和ASVspoof2021挑战赛的数据集进行相关的实验,

以此来验证上述所提方法的有效性。首先,在ASVspoof2019LogicalAccess(LA)

和ASVspoof2021LA以及Deepfake(DF)的评估集上,基于掩蔽效应的鲁棒语音

鉴伪系统的等错误率(EqualErrorRate,EER)相对于基线系统RawNet2分别降低

了18.26%、12.00%和14.97%。其次,在ASVspoof2019LA的评估集上,基于时频

特征交互的双通路端到端语音鉴伪系统的等错误率相对于RawNet2从5.64%降到

2.19%。最后,在ASVspoof2019LA的评估集上,基于多尺度注意力机制的掩蔽

卷积轻量化端到端语音鉴伪系统的等错误率相对于原来的Res2Net50从9.74%降

至6.38%,并且与RawNet2性能几乎持平,但模型参数量却从17.68M降到0.88M。

I

摘要

综上所述,本文通过多组相关实验分析,证明了所提出的三种端到端的语音

鉴伪系统的方法的正确性和有效性。本文的研究成果为解决语音鉴伪领域中的问

题提供了新的思路和方法,也为语音技术的进一步发展奠定了坚实的基础。

关键词:语音鉴伪;端到端网络;RawNet2;特征交互;轻量化

II

Abstract

Abstract

VoiceAnti-spoofing(VAS)isacrucialtechnologyinapplicationssuchasspeaker

recognition,audioforensics,andmedicalrehabilitation,andithasgraduallyemergedas

anewresearchhotspotinintelligentspeechinformationprocessing.Inrecentyears,with

therapiddevelopmentofdeeplearningandspeechsynthesistechn