基本信息
文件名称:语音大模型:从级联到端到端.pptx
文件大小:6.14 MB
总页数:10 页
更新时间:2026-01-23
总字数:约9.54千字
文档摘要
杨学锐
模型评估:什么是好模型
目录
如何构建端到端语音模型
如何构建端到端语音模型
●
●
任务
训推
?传统语音技术
?流水线式架构:误差逐级传递,信息流失;
?理解:只能处理简单指令,无法进行多轮、多模态的深度推理;
?表达:TTS声音机械,韵律模板化,没有真正的“人感”;
?ASR
?Open-source
?Whisper*
?SenseVoice
?FireredASR
?Close-source/API
?SeedASR
?StepASR
*RadfordA,KimJW,XuT,etal.Robustspe