面向个性化定制的语音合成方法研究.pdf

基本信息

文件名称：面向个性化定制的语音合成方法研究.pdf

文件大小：3.2 MB

总页数：68 页

更新时间：2025-06-01

总字数：约8.38万字

文档摘要

哈尔滨工业大学硕士学位论文

摘要

语音合成（TexttoSpeech，TTS）是一种使用机器合成出高度拟人化声音的技

术，其广泛应用于语音导航、有声读物、语音播报、虚拟人等人机交互场景中。

近年来，随着人们对于信息、娱乐等方面的需求不断提升，如何利用少量且质量

不可控的目标说话人语料个性化地完成声音定制（customvoice），已成为工业界以

及学术界的研究热点。目前该领域的研究主要有说话人编码与说话人自适应两种

方法。前者通过使用预训练及联合声学模型训练的方式实现，本质上是从语音合

成过程中解耦出各种说话人相关特征，以减少对目标说话人的依赖，但由于相关

特征较为抽象且可解释性不强，因此解耦较为困难且粒度较粗。后者通过迁移学

习的方式，能使合成语音与目标语音在音色上做到一定程度的相似，但由于目标

语料过少且质量不高，语音合成模型又十分复杂，因此往往会出现严重的过拟合

现象。本文将针对以上两种方法存在的问题展开研究，主要内容如下：

（1）为了实现细粒度的精准解耦，同时使用预训练的说话人编码器与联合声

学模型训练的编码器，通过说话人验证任务及音色学习约束任务对编码器进行预

训练，来完成说话人音色空间的建模。在音色建模的基础上，对经过音色特征解

耦后的语音表示进行无监督量化，以得到通用的语音风格特征，其中语音风格的

编码器随着声学模型一同训练。在对音色和说话风格完成分级解耦的基础上，通

过对合成结果的二次验证来约束整个训练流程，最终提出基于音色与说话风格分

级解耦与二次验证的语音定制方法。

（2）为了改善少样本迁移的过拟合，以及两阶段语音合成在迁移过程中的不

稳定问题，参考目前最优的端到端语音合成框架VITS，提出了Custom-VITS语音

定制方法。通过使用语音后验概率图（PhoneticPosteriorgram，PPG）特征来对语

音合成过程中的内容建模部分与非内容建模部分完成解耦。因此，在自适应微调

的过程中，可以只对非内容建模部分的参数进行微调以减小过拟合的影响。此外，

为了进一步对音色建模的参数进行定位，引入说话人归一化层，通过对该层参数

进行重点微调来学习目标说话人的音色。最后在训练方式上沿用了生成对抗训练

方式，并在其基础上引入跨域一致性度量，通过约束从源域到目标域迁移学习过

程中同batch输出分布的相似性，来使少样本迁移时依然能保留预训练阶段模型学

习到的多样性。最终提出了基于两阶段建模的自适应Custom-VITS语音定制方法。

关键词：语音合成；个性化语音定制；说话人编码；说话人自适应；迁移学习；

-I-

哈尔滨工业大学硕士学位论文

Abstract

TexttoSpeech(TTS)isatechnologythatusesmachinestosynthesizehighly

anthropomorphicvoices.Itiswidelyusedinhuman-computerinteractionscenarios

suchasvoicenavigation,audiobooks,voicebroadcasts,andvirtualhumans.Inrecent

years,aspeoplesdemandforinformationandentertainmentcontinuestoincrease,how

touseasmallamountoftargetspeakercorpuswithuncontrollablequalityto

personalizevoicecustomization(customvoice)hasbecomearesearchhotspotinthe

industryandacademia.Atpresent,theresearchinthisfieldmainlyincludestwo

methods:speakerencodingandspeakeradaptation.Thespeakerencodingme