基本信息
文件名称:通过异构内存系统中的动态 KV 缓存放置加速大语言模型推理.pdf
文件大小:947.39 KB
总页数:4 页
更新时间:2025-11-05
总字数:约1.57万字
文档摘要

通过异构内存系统中的动态KV缓存放置加速大语言模型

推理

YunhuaFang,RuiXie,AsadUlHaq,LinsenMa,KaoutarElMaghraoui,

NaigangWang,MengWang,LiuLiu,TongZhang

摘要—大型语言模型(LLM)推理越来越受到内存带宽的限制,频繁

访问键值(KV)缓存主导了数据移动。虽然注意力稀疏减少了部