基本信息
文件名称:2025年大模型推理延迟根因自动诊断考题答案及解析.docx
文件大小:15.54 KB
总页数:8 页
更新时间:2025-09-30
总字数:约7.45千字
文档摘要
2025年大模型推理延迟根因自动诊断考题答案及解析
一、单选题(共15题)
1.以下哪个技术不是用于减少大模型推理延迟的方法?
A.模型剪枝
B.模型并行
C.知识蒸馏
D.量子计算
答案:D
解析:量子计算是一种利用量子力学原理进行计算的技术,目前尚未在大模型推理延迟减少中广泛应用。而模型剪枝、模型并行和知识蒸馏都是常用的推理加速技术。
2.在大模型推理过程中,以下哪种技术可以有效减少内存占用?
A.INT8量化
B.INT16量化
C.低精度推理
D.模型压缩
答案:A
解析:INT8量化通过将模型的浮点数参数转换为8位整数,从而显著减少模型的内存占用。而IN