大模型训练评估方法及技术测试卷附答案.docx

基本信息

文件名称：大模型训练评估方法及技术测试卷附答案.docx

文件大小：20.84 KB

总页数：26 页

更新时间：2025-09-28

总字数：约9.16千字

文档摘要

大模型训练评估方法及技术相关知识试卷

有监督微调（SFT）的定义是？[单选题]

A.通过少量专业数据及奖励机制提升模型场景能力

B.使用标注的训练数据对预训练模型进行微调，使其在特定任务上性能更好(正确答案)

C.利用人类偏好数据构建损失函数，直接对齐人类偏好

D.使用更小的模型达到预期效果，通过教师模型指导学生模型

答案解析：

有监督微调（SFT）的核心是利用标注数据微调预训练模型以提升特定任务性能，A是RFT定义，C是DPO定义，D是DFT定义，故选B。

强化微调（RFT）的核心组件是什么？[单选题]

A.精排模型

B.评分器函数(正确答案)

C.精排