基本信息
文件名称:语音大模型:从级联到端到端.pptx
文件大小:6.14 MB
总页数:10 页
更新时间:2026-01-23
总字数:约9.54千字
文档摘要

杨学锐

模型评估:什么是好模型

目录

如何构建端到端语音模型

如何构建端到端语音模型

任务

训推

?传统语音技术

?流水线式架构:误差逐级传递,信息流失;

?理解:只能处理简单指令,无法进行多轮、多模态的深度推理;

?表达:TTS声音机械,韵律模板化,没有真正的“人感”;

?ASR

?Open-source

?Whisper*

?SenseVoice

?FireredASR

?Close-source/API

?SeedASR

?StepASR

*RadfordA,KimJW,XuT,etal.Robustspe