基于多任务学习的声纹识别方法研究
摘要
声纹识别也称为说话人识别,作为一种生物特征识别技术被广泛应用在公安司
法、军队国防、保安和证件防伪等诸多领域。随着深度学习的不断普及和发展,众多
深度学习模型已经在声纹识别领域取得了良好的实验效果,然而由于人类发声器官
的独特性,声纹特征中包含的信息非常丰富,单任务声纹识别模型不能很好的捕获并
利用这些特征来提高声纹识别的准确率。本文结合声纹识别领域和多任务学习领域
的发展现状,研究基于多任务学习的声纹识别方法,充分利用声纹中的丰富特征进行
多任务学习,通过学习多任务之间的相关性知识提高声纹识别的最终效果。
针对单任务声纹识别模型未能充分利用声纹特征中说话人相关属性信息的问题,
本文采用自注意力机制作为模型主体算法,构建多任务自注意力网络(Multi-Task
Self-AttentionNetwork,MT-SANet)模型,为使得特征学习向量在声纹特征中获取更
丰富的知识,在均匀分布中随机采样初始化多任务特征向量,并将其嵌入到声纹特征
首部作为融合特征矩阵输入到MT-SANet模型中,训练后的特征学习向量,通过下
游任务分类器实现较精确的声纹识别。在LeapCorpus数据集和FairVoice数据集的
对比实验结果表明,本文提出的MT-SANet模型能更好的提高声纹识别的准确率和
收敛速度。
针对特征学习向量在浅层网络中学习不充分导致的负迁移问题,本文在注意力
计算的过程中引入掩码机制,提出构建多任务掩码自注意力网络(Multi-TaskMasked
Self-AttentionNetwork,MT-MSANet)模型,通过调整注意力计算的感受野,保持多
任务共享与解耦之间的平衡,在LeapCorpus数据集和FairVoice数据集上的实验结
果证明了MT-MSANet模型的有效性。此外,本文对辅助任务集的构建方案进行了研
究,从新的研究角度提出将语言学习者的语言学习阶段作为说话人属性信息,加入辅
助任务集进行多任务学习,进一步提高MT-MSANet模型声纹识别的准确率。通过在
LeapCorpus语言学习者数据集上进行消融实验,验证了引入语言学习阶段作为辅助
属性的有效性。
关键词:声纹识别;多任务学习;自注意力;掩码机制;语言学习阶段
基于多任务学习的声纹识别方法研究
Abstract
Voiceprintrecognition,alsoknownasspeakerrecognition,iswidelyusedasabiometric
recognitiontechnologyinmanyfields,suchaspublicsecurityandjustice,militarydefense,
security,anddocumentanti-counterfeiting.Withthecontinuouspopularizationand
developmentofdeeplearning,manydeeplearningmodelshaveachievedgoodexperimental
resultsinthefieldofspeakerrecognition.However,duetotheuniquenatureofhumanvocal
organs,theinformationcontainedinvoiceprintfeaturesisveryrich,andsingletaskspeaker
recognitionmodelscannotwellcaptureandutilizethesefeaturestoimprovetheaccuracyof
speakerrecognition.Combiningthecurrentdevelopmentofspeakerrecognitionandmultitask
learning,thispaperstudiesa