2025年视觉Transformer预训练（含答案与解析）.docx

基本信息

文件名称：2025年视觉Transformer预训练（含答案与解析）.docx

文件大小：16.75 KB

总页数：24 页

更新时间：2025-10-22

总字数：约8.26千字

文档摘要

2025年视觉Transformer预训练（含答案与解析）

一、单选题（共15题）

1.以下哪个技术是实现视觉Transformer（ViT）在图像分类任务中性能提升的关键？

A.图像增强

B.自注意力机制

C.图像分割

D.数据增强

答案：B

解析：自注意力机制是ViT的核心，它允许模型在处理每个图像像素时考虑到其他所有像素的上下文信息，从而在图像分类任务中实现性能提升。参考《视觉Transformer：原理与应用》2025版3.1节。

2.在视觉Transformer的预训练过程中，以下哪种策略有助于提高模型对图像复杂性的处理能力？

A.数据增强

B.分布式训练