基本信息
文件名称:2025年大模型推理缓存机制设计习题(含答案与解析).docx
文件大小:33.69 KB
总页数:23 页
更新时间:2025-09-26
总字数:约9千字
文档摘要

2025年大模型推理缓存机制设计习题(含答案与解析)

一、选择题(每题3分,共30分)

1.大模型推理缓存机制中,以下哪种缓存粒度在2025年的多模态大模型场景中最可能同时兼顾命中率与存储效率?

A.全模型输出级(完整生成结果)

B.层输出级(中间隐藏层特征)

C.Token级(单个生成token)

D.对话轮次级(单轮对话输入输出对)

答案:B

解析:多模态大模型(如支持文本-图像-视频的统一模型)推理时,中间层特征(如Transformer的隐藏层输出)往往在不同输入中存在重复计算(例如相似语义的文本或视觉特征)。层输出级缓存既能复用部分计算(相比全