基本信息
文件名称:从0-1构建大模型方案与实践试卷含答案.docx
文件大小:32.19 KB
总页数:29 页
更新时间:2025-09-29
总字数:约8.58千字
文档摘要
从0-1构建大模型方案与实践试卷含答案
大模型训练中,预训练的主要目的是?
学习特定任务技能
初步学习语言规律和世界知识(正确答案)
优化模型参数
对齐人类偏好
答案解析:预训练是大模型从海量数据中学习语言模式、语法规则和基础世界知识的过程,为后续微调奠定基础。
Transformer架构相比传统循环神经网络的优势是?
训练速度更慢
无法并行计算
能捕捉长距离语义关系(正确答案)
仅适用于小数据量
答案解析:Transformer通过自注意力机制,能有效捕捉输入序列中词与词之间的长距离依赖关系,且支持并行计算,克服了循环神经网络的局限。
“Tokenization”在大模型中的作用是