基本信息
文件名称:小米语音识别端到端系统升级之路.pdf
文件大小:4 MB
总页数:38 页
更新时间:2025-05-21
总字数:约8.03千字
文档摘要
准确率提升的同时服务容量翻倍
--小米语音识别端到端系统升级之路
范利春
小米集团技术委员会AI实验室
目录
1.小米小爱业务中的语音识别方案
2.端到端语音识别系统升级中的极致的响应速度和准确率优化
3.GPU使用效率提升的动态Batch优化
4.GPU使用效率提升的半精度浮点推理优化
背景
?小米公司的印象
背景
?小米公司的印象
背景
「人车家全生态
」
?小米6.99亿链接到IOT平台的智能设备
?包括小米汽车、手机、音箱、电视、手表、手环、生态链产品等
?涵盖了6161款支持语音交互的产品
背景
小爱同学
唤醒语音语音识别文字语义理解结果满足语音合成
KWSASRNLPSKILLTTS
语音识别:小爱语音交互的入口
背景
?识别内容覆盖60+个垂域?大模型时代,用户对智能助手的预期提升
?每天识别约2.7亿条来自小爱智能助手的语音?说法多种多样,更偏口语化
如何降低云端服务成本?如何提升语音识别的准确率?
降本增效
小米语音方案
P1.小米小爱业务中的语音识别方案
小米语音方案
传统语音架构
训练复杂准确率低成本高昂
声学数据语言数据声学模型语言模型
语音建模解码算法
帧率高相对复杂
声学训练语言训练解码算法
小米语音方案
传统语音架构
联合建模准确率高
端到端语音架构
节省算力离线部署
小米语音方案
?encoder-decoder结构的端到端语音识别时序建模有大量Blank可以跳过
建模粒度大
帧率低
关键实践1
P2.端到端语音识别系统升级中的极致的响应速度和准确率优化
关键实践1:极致的响应速度和极致的性能
?基于Zipformer的encoder-decoder结构的端到端语音识别
关键实践1:极致的响应速度和极致的性能
?基于