基本信息
文件名称:从0-1构建大模型方案与实践试卷含答案.docx
文件大小:32.19 KB
总页数:29 页
更新时间:2025-09-29
总字数:约8.58千字
文档摘要

从0-1构建大模型方案与实践试卷含答案

大模型训练中,预训练的主要目的是?

学习特定任务技能

初步学习语言规律和世界知识(正确答案)

优化模型参数

对齐人类偏好

答案解析:预训练是大模型从海量数据中学习语言模式、语法规则和基础世界知识的过程,为后续微调奠定基础。

Transformer架构相比传统循环神经网络的优势是?

训练速度更慢

无法并行计算

能捕捉长距离语义关系(正确答案)

仅适用于小数据量

答案解析:Transformer通过自注意力机制,能有效捕捉输入序列中词与词之间的长距离依赖关系,且支持并行计算,克服了循环神经网络的局限。

“Tokenization”在大模型中的作用是