基本信息
文件名称:小米语音识别端到端系统升级之路.pdf
文件大小:4 MB
总页数:38 页
更新时间:2025-05-21
总字数:约8.03千字
文档摘要

准确率提升的同时服务容量翻倍

--小米语音识别端到端系统升级之路

范利春

小米集团技术委员会AI实验室

目录

1.小米小爱业务中的语音识别方案

2.端到端语音识别系统升级中的极致的响应速度和准确率优化

3.GPU使用效率提升的动态Batch优化

4.GPU使用效率提升的半精度浮点推理优化

背景

?小米公司的印象

背景

?小米公司的印象

背景

「人车家全生态

?小米6.99亿链接到IOT平台的智能设备

?包括小米汽车、手机、音箱、电视、手表、手环、生态链产品等

?涵盖了6161款支持语音交互的产品

背景

小爱同学

唤醒语音语音识别文字语义理解结果满足语音合成

KWSASRNLPSKILLTTS

语音识别:小爱语音交互的入口

背景

?识别内容覆盖60+个垂域?大模型时代,用户对智能助手的预期提升

?每天识别约2.7亿条来自小爱智能助手的语音?说法多种多样,更偏口语化

如何降低云端服务成本?如何提升语音识别的准确率?

降本增效

小米语音方案

P1.小米小爱业务中的语音识别方案

小米语音方案

传统语音架构

训练复杂准确率低成本高昂

声学数据语言数据声学模型语言模型

语音建模解码算法

帧率高相对复杂

声学训练语言训练解码算法

小米语音方案

传统语音架构

联合建模准确率高

端到端语音架构

节省算力离线部署

小米语音方案

?encoder-decoder结构的端到端语音识别时序建模有大量Blank可以跳过

建模粒度大

帧率低

关键实践1

P2.端到端语音识别系统升级中的极致的响应速度和准确率优化

关键实践1:极致的响应速度和极致的性能

?基于Zipformer的encoder-decoder结构的端到端语音识别

关键实践1:极致的响应速度和极致的性能

?基于