基本信息
文件名称:大数据采集与预处理技术(微课版)课件 7.2语音直播数据采集-采集实施.pptx
文件大小:660.77 KB
总页数:13 页
更新时间:2025-12-25
总字数:约3.33千字
文档摘要
大数据采集与预处理技术
**;项目三语音直播数据采集与预处理;任务一语音直播数据采集;二、公开数据集采集
为了模拟说话者,可以下载语音验证相关数据集,这里使用ST-CMDS数据集。该语料库在安静的室内环境中使用手机录制。共有855位发音人,每位发音人录制了120个语句。所有语句均经过人工精心转录和校对,确保转录准确性。
点击/38/打开下载网页,找到需要下载的数据集,该数据集大小为8.2G,有不同镜像源,这里使用CN镜像源,该数据下载页面如下图1-1所示:
下载完成后,可以解压该语料库,每一条数据有包含以下内容:音频文件、转录文件、元数据,