基本信息
文件名称:面向个性化定制的语音合成方法研究.pdf
文件大小:3.2 MB
总页数:68 页
更新时间:2025-06-01
总字数:约8.38万字
文档摘要

哈尔滨工业大学硕士学位论文

摘要

语音合成(TexttoSpeech,TTS)是一种使用机器合成出高度拟人化声音的技

术,其广泛应用于语音导航、有声读物、语音播报、虚拟人等人机交互场景中。

近年来,随着人们对于信息、娱乐等方面的需求不断提升,如何利用少量且质量

不可控的目标说话人语料个性化地完成声音定制(customvoice),已成为工业界以

及学术界的研究热点。目前该领域的研究主要有说话人编码与说话人自适应两种

方法。前者通过使用预训练及联合声学模型训练的方式实现,本质上是从语音合

成过程中解耦出各种说话人相关特征,以减少对目标说话人的依赖,但由于相关

特征较为抽象且可解释性不强,因此解耦较为困难且粒度较粗。后者通过迁移学

习的方式,能使合成语音与目标语音在音色上做到一定程度的相似,但由于目标

语料过少且质量不高,语音合成模型又十分复杂,因此往往会出现严重的过拟合

现象。本文将针对以上两种方法存在的问题展开研究,主要内容如下:

(1)为了实现细粒度的精准解耦,同时使用预训练的说话人编码器与联合声

学模型训练的编码器,通过说话人验证任务及音色学习约束任务对编码器进行预

训练,来完成说话人音色空间的建模。在音色建模的基础上,对经过音色特征解

耦后的语音表示进行无监督量化,以得到通用的语音风格特征,其中语音风格的

编码器随着声学模型一同训练。在对音色和说话风格完成分级解耦的基础上,通

过对合成结果的二次验证来约束整个训练流程,最终提出基于音色与说话风格分

级解耦与二次验证的语音定制方法。

(2)为了改善少样本迁移的过拟合,以及两阶段语音合成在迁移过程中的不

稳定问题,参考目前最优的端到端语音合成框架VITS,提出了Custom-VITS语音

定制方法。通过使用语音后验概率图(PhoneticPosteriorgram,PPG)特征来对语

音合成过程中的内容建模部分与非内容建模部分完成解耦。因此,在自适应微调

的过程中,可以只对非内容建模部分的参数进行微调以减小过拟合的影响。此外,

为了进一步对音色建模的参数进行定位,引入说话人归一化层,通过对该层参数

进行重点微调来学习目标说话人的音色。最后在训练方式上沿用了生成对抗训练

方式,并在其基础上引入跨域一致性度量,通过约束从源域到目标域迁移学习过

程中同batch输出分布的相似性,来使少样本迁移时依然能保留预训练阶段模型学

习到的多样性。最终提出了基于两阶段建模的自适应Custom-VITS语音定制方法。

关键词:语音合成;个性化语音定制;说话人编码;说话人自适应;迁移学习;

-I-

哈尔滨工业大学硕士学位论文

Abstract

TexttoSpeech(TTS)isatechnologythatusesmachinestosynthesizehighly

anthropomorphicvoices.Itiswidelyusedinhuman-computerinteractionscenarios

suchasvoicenavigation,audiobooks,voicebroadcasts,andvirtualhumans.Inrecent

years,aspeoplesdemandforinformationandentertainmentcontinuestoincrease,how

touseasmallamountoftargetspeakercorpuswithuncontrollablequalityto

personalizevoicecustomization(customvoice)hasbecomearesearchhotspotinthe

industryandacademia.Atpresent,theresearchinthisfieldmainlyincludestwo

methods:speakerencodingandspeakeradaptation.Thespeakerencodingme