自然语言及语音处理项目式教程课件7.3.2-1数据预处理.pptx

基本信息

文件名称：自然语言及语音处理项目式教程课件7.3.2-1数据预处理.pptx

文件大小：11.62 MB

总页数：15 页

更新时间：2025-06-24

总字数：约小于1千字

文档摘要

基于PaddleSpeech实现新闻自动播报

文本前端处理合成声学模型声码器合成结果评测

文本前端处理了解CSMSC数据集的相关内容奠定基础文本前端处理流程

CSMSC数据集由专业播报员录制的，具有较高的语音质量，适用于训练高质量的语音合成系统。专业播报员录制数据集包含拼音和汉字文本，便于训练和评估各种基于拼音或汉字的语音合成和语音识别模型。数据标签数据集包含各种主题和领域的文本，有助于训练出更具泛化能力的模型。多样化文本内容CSMSC数据集已经开源，对学术研究和商业应用具有较高的价值。开源可用特点

CSMSC数据集CSMSC数据集是一个有价值的中文普通话语音数据集，适用于训练和评估各种中文TTS和ASR系统。

文本前端处理流程构建文本前端文本前端模块文本正则化字音转换

构建文本前端的类使用Frontend类构造文本前端对象，该类的常用参数说明。参数名称参数说明phone_vocab_path接收str，表示指定音素词典文件的路径或位置。默认为PaddleSpeech中提供的中文音素词典文件的位置

字音转换的函数Frontend类的frontend.get_input_ids函数可以将文本转换为音素ID序列，其常用参数说明。参数名称参数说明text接收str，表示待转换的文本序列，以字符串形式传入。无默认值merge_sentences接收bool，表示是否将多个句子合并为一个句子。默认为Trueprint_info接收bool，表示是否打印调试信息。默认为False

文本前端处理合成声学模型声码器合成结果评测

合成声学模型01声学模型自回归模型预测过程相对较慢，但音质表现较好02非自回归模型预测速度快，但音质可能稍逊色一些

合成声学模型使用自回归模型中的FastSpeech2作为声学模型，在分句的基础上构建FastSpeech2模型。构建FastSpeech2模型输出Mel频谱

构建FastSpeech2模型使用PaddleSpeech中的FastSpeech2类构建声学模型，该类的常用参数说明。参数名称参数说明idim接收int，表示输入维度，即词表大小。无默认值odim接收int，表示输出维度，即音频特征维度。无默认值**FastSpeech2_config[model]接收dict，表示预训练模型的参数。无默认值

输出Mel频谱