基本信息
文件名称:从0-1构建大模型方案与实践测试题(含答案).doc
文件大小:42.45 KB
总页数:27 页
更新时间:2025-09-25
总字数:约8.98千字
文档摘要

从0-1构建大模型方案与实践测试题(含答案)

大模型训练中,预训练的主要目的是?[单选题]

学习特定任务技能

初步学习语言规律和世界知识(正确答案)

优化模型参数

对齐人类偏好

答案解析:

预训练是大模型从海量数据中学习语言模式、语法规则和基础世界知识的过程,为后续微调奠定基础。

Transformer架构相比传统循环神经网络的优势是?[单选题]

训练速度更慢

无法并行计算

能捕捉长距离语义关系(正确答案)

仅适用于小数据量

答案解析:

Transformer通过自注意力机制,能有效捕捉输入序列中词与词之间的长距离依赖关系,且支持并行计算,克服了循环神经网络的局限。

“Tokeniza