哈尔滨工业大学硕士学位论文
摘要
语音合成(TexttoSpeech,TTS)是一种使用机器合成出高度拟人化声音的技
术,其广泛应用于语音导航、有声读物、语音播报、虚拟人等人机交互场景中。
近年来,随着人们对于信息、娱乐等方面的需求不断提升,如何利用少量且质量
不可控的目标说话人语料个性化地完成声音定制(customvoice),已成为工业界以
及学术界的研究热点。目前该领域的研究主要有说话人编码与说话人自适应两种
方法。前者通过使用预训练及联合声学模型训练的方式实现,本质上是从语音合
成过程中解耦出各种说话人相关特征,以减少对目标说话人的依赖,但由于相关
特征较为抽象且可解释性不强,因此解耦较为困难且粒度较粗。后者通过迁移学
习的方式,能使合成语音与目标语音在音色上做到一定程度的相似,但由于目标
语料过少且质量不高,语音合成模型又十分复杂,因此往往会出现严重的过拟合
现象。本文将针对以上两种方法存在的问题展开研究,主要内容如下:
(1)为了实现细粒度的精准解耦,同时使用预训练的说话人编码器与联合声
学模型训练的编码器,通过说话人验证任务及音色学习约束任务对编码器进行预
训练,来完成说话人音色空间的建模。在音色建模的基础上,对经过音色特征解
耦后的语音表示进行无监督量化,以得到通用的语音风格特征,其中语音风格的
编码器随着声学模型一同训练。在对音色和说话风格完成分级解耦的基础上,通
过对合成结果的二次验证来约束整个训练流程,最终提出基于音色与说话风格分
级解耦与二次验证的语音定制方法。
(2)为了改善少样本迁移的过拟合,以及两阶段语音合成在迁移过程中的不
稳定问题,参考目前最优的端到端语音合成框架VITS,提出了Custom-VITS语音
定制方法。通过使用语音后验概率图(PhoneticPosteriorgram,PPG)特征来对语
音合成过程中的内容建模部分与非内容建模部分完成解耦。因此,在自适应微调
的过程中,可以只对非内容建模部分的参数进行微调以减小过拟合的影响。此外,
为了进一步对音色建模的参数进行定位,引入说话人归一化层,通过对该层参数
进行重点微调来学习目标说话人的音色。最后在训练方式上沿用了生成对抗训练
方式,并在其基础上引入跨域一致性度量,通过约束从源域到目标域迁移学习过
程中同batch输出分布的相似性,来使少样本迁移时依然能保留预训练阶段模型学
习到的多样性。最终提出了基于两阶段建模的自适应Custom-VITS语音定制方法。
关键词:语音合成;个性化语音定制;说话人编码;说话人自适应;迁移学习;
-I-
哈尔滨工业大学硕士学位论文
Abstract
TexttoSpeech(TTS)isatechnologythatusesmachinestosynthesizehighly
anthropomorphicvoices.Itiswidelyusedinhuman-computerinteractionscenarios
suchasvoicenavigation,audiobooks,voicebroadcasts,andvirtualhumans.Inrecent
years,aspeoplesdemandforinformationandentertainmentcontinuestoincrease,how
touseasmallamountoftargetspeakercorpuswithuncontrollablequalityto
personalizevoicecustomization(customvoice)hasbecomearesearchhotspotinthe
industryandacademia.Atpresent,theresearchinthisfieldmainlyincludestwo
methods:speakerencodingandspeakeradaptation.Thespeakerencodingme