从0-1构建大模型方案与实践试卷含答案.docx

基本信息

文件名称：从0-1构建大模型方案与实践试卷含答案.docx

文件大小：32.19 KB

总页数：29 页

更新时间：2025-09-29

总字数：约8.58千字

文档摘要

从0-1构建大模型方案与实践试卷含答案

大模型训练中，预训练的主要目的是？

学习特定任务技能

初步学习语言规律和世界知识(正确答案)

优化模型参数

对齐人类偏好

答案解析：预训练是大模型从海量数据中学习语言模式、语法规则和基础世界知识的过程，为后续微调奠定基础。

Transformer架构相比传统循环神经网络的优势是？

训练速度更慢

无法并行计算

能捕捉长距离语义关系(正确答案)

仅适用于小数据量

答案解析：Transformer通过自注意力机制，能有效捕捉输入序列中词与词之间的长距离依赖关系，且支持并行计算，克服了循环神经网络的局限。

“Tokenization”在大模型中的作用是