基本信息
文件名称:从0-1构建大模型方案与实践测试题(含答案).doc
文件大小:42.45 KB
总页数:27 页
更新时间:2025-09-25
总字数:约8.98千字
文档摘要
从0-1构建大模型方案与实践测试题(含答案)
大模型训练中,预训练的主要目的是?[单选题]
学习特定任务技能
初步学习语言规律和世界知识(正确答案)
优化模型参数
对齐人类偏好
答案解析:
预训练是大模型从海量数据中学习语言模式、语法规则和基础世界知识的过程,为后续微调奠定基础。
Transformer架构相比传统循环神经网络的优势是?[单选题]
训练速度更慢
无法并行计算
能捕捉长距离语义关系(正确答案)
仅适用于小数据量
答案解析:
Transformer通过自注意力机制,能有效捕捉输入序列中词与词之间的长距离依赖关系,且支持并行计算,克服了循环神经网络的局限。
“Tokeniza