基本信息
文件名称:通过异构内存系统中的动态 KV 缓存放置加速大语言模型推理.pdf
文件大小:947.39 KB
总页数:4 页
更新时间:2025-11-05
总字数:约1.57万字
文档摘要
通过异构内存系统中的动态KV缓存放置加速大语言模型
推理
YunhuaFang,RuiXie,AsadUlHaq,LinsenMa,KaoutarElMaghraoui,
NaigangWang,MengWang,LiuLiu,TongZhang
摘要—大型语言模型(LLM)推理越来越受到内存带宽的限制,频繁
访问键值(KV)缓存主导了数据移动。虽然注意力稀疏减少了部