基本信息
文件名称:2025年大模型推理缓存机制设计习题(含答案与解析).docx
文件大小:33.69 KB
总页数:23 页
更新时间:2025-09-26
总字数:约9千字
文档摘要
2025年大模型推理缓存机制设计习题(含答案与解析)
一、选择题(每题3分,共30分)
1.大模型推理缓存机制中,以下哪种缓存粒度在2025年的多模态大模型场景中最可能同时兼顾命中率与存储效率?
A.全模型输出级(完整生成结果)
B.层输出级(中间隐藏层特征)
C.Token级(单个生成token)
D.对话轮次级(单轮对话输入输出对)
答案:B
解析:多模态大模型(如支持文本-图像-视频的统一模型)推理时,中间层特征(如Transformer的隐藏层输出)往往在不同输入中存在重复计算(例如相似语义的文本或视觉特征)。层输出级缓存既能复用部分计算(相比全