基于PaddleSpeech实现新闻自动播报
文本前端处理合成声学模型声码器合成结果评测
文本前端处理了解CSMSC数据集的相关内容奠定基础文本前端处理流程
CSMSC数据集由专业播报员录制的,具有较高的语音质量,适用于训练高质量的语音合成系统。专业播报员录制数据集包含拼音和汉字文本,便于训练和评估各种基于拼音或汉字的语音合成和语音识别模型。数据标签数据集包含各种主题和领域的文本,有助于训练出更具泛化能力的模型。多样化文本内容CSMSC数据集已经开源,对学术研究和商业应用具有较高的价值。开源可用特点
CSMSC数据集CSMSC数据集是一个有价值的中文普通话语音数据集,适用于训练和评估各种中文TTS和ASR系统。
文本前端处理流程构建文本前端文本前端模块文本正则化字音转换
构建文本前端的类使用Frontend类构造文本前端对象,该类的常用参数说明。参数名称参数说明phone_vocab_path接收str,表示指定音素词典文件的路径或位置。默认为PaddleSpeech中提供的中文音素词典文件的位置
字音转换的函数Frontend类的frontend.get_input_ids函数可以将文本转换为音素ID序列,其常用参数说明。参数名称参数说明text接收str,表示待转换的文本序列,以字符串形式传入。无默认值merge_sentences接收bool,表示是否将多个句子合并为一个句子。默认为Trueprint_info接收bool,表示是否打印调试信息。默认为False
文本前端处理合成声学模型声码器合成结果评测
合成声学模型01声学模型自回归模型预测过程相对较慢,但音质表现较好02非自回归模型预测速度快,但音质可能稍逊色一些
合成声学模型使用自回归模型中的FastSpeech2作为声学模型,在分句的基础上构建FastSpeech2模型。构建FastSpeech2模型输出Mel频谱
构建FastSpeech2模型使用PaddleSpeech中的FastSpeech2类构建声学模型,该类的常用参数说明。参数名称参数说明idim接收int,表示输入维度,即词表大小。无默认值odim接收int,表示输出维度,即音频特征维度。无默认值**FastSpeech2_config[model]接收dict,表示预训练模型的参数。无默认值
输出Mel频谱