面向医学VQA的MLP视觉编码器和预训练框架研究.pdf

基本信息

文件名称：面向医学VQA的MLP视觉编码器和预训练框架研究.pdf

文件大小：2.94 MB

总页数：64 页

更新时间：2025-05-17

总字数：约9.23万字

文档摘要

面向医学VQA的MLP视觉编码器和预训练框架研究

摘要

医学视觉问答（MedicalVisualQuestionAnswering，MVQA）是在视觉问答（Visual

QuestionAnswering，VQA）基础上发展起来面向医学领域的特定视觉问答任务，它可以

使计算机在观察并理解医学影像后回答与影像相关的问题。因此，医学VQA可以帮助

医生快速获取所需信息，从而减轻他们的工作负担并提高工作效率。但是，由于医学视

觉问答数据集具有样本量小和对数据专业性要求高这两个特点，导致目前的医学VQA

模型整体表现不佳。

因此，为了解决医学VQA模型性能不佳的问题，本文通过对医学视觉问答领域现

有工作进行总结，以增强模型的医学视觉特征表征能力为研究方向，设计了一个基于简

单线性层的类MLP视觉编码器SwinMixer（ShiftWindowMixer）作为医学VQA模型的

视觉编码器。该编码器使用了相对位置线性变换进行空间信息的混合，而相对位置线性

变换是本文提出的全新线性变换方式，相较于常规线性变换具有更强的表征能力。接着，

本文通过对SwinMixer的基础模块SwinMLP进行改造，提出用于跨模态视觉编码的

Cross-SwinMLP。通过将Cross-SwinMLP与常规Cross-Transformer模块结合提出了多级

交互模块（MIM）用于多模态融合，该模块通过引导注意力实现视觉特征和文本特征之

间的多层级相互引导，强化了医学视觉信息和医学文本信息之间的交互融合。最后，分

别使用SwinMixer、BERT作为视觉编码器和文本编码器构建了多级交互医学视觉问答

模型MI-MVQA。本文在VQA-RAD数据集上进行实验验证，结果表明MI-MVQA模型

超越了相关基准模型，实现了74.1%的整体准确率。

在MI-MVQA的基础上，为了提高模型对医学视觉和语言的理解能力，并学习嵌入

更多的医学通用专业知识。本文以多模态预训练为研究思路，基于MI-MVQA的骨干架

构，设计了一个医学视觉-语言预训练框架—双端对齐预训练框架DSA。DSA预训练框

架中总共包含3个预训练目标，除了基础的掩码语言建模（MLM）和视觉-文本匹配（VTM）

预训练目标，本文还提出了一种全新的双端视觉-文本对比学习（DSVTC）预训练目标。

经过预训练之后，通过将DSA的预训练权重迁移到MI-MVQA模型上进行微调验证，

结果表明DSA使MI-MVQA模型在VQA-RAD数据集上的整体性能得到了进一步提升，

整体准确率达到了76.3%。

关键词：医学视觉问答；MLP视觉编码器；医学视觉-语言预训练

面向医学VQA的MLP视觉编码器和预训练框架研究

Abstract

MedicalVisualQuestionAnswering(MVQA)isaspecificvisualquestionansweringtask

developedinthefieldofmedicinebasedonVisualQuestionAnswering(VQA),whichenables

computerstoanswerimage-relatedquestionsafterobservingandunderstandingmedical

images.Therefore,MVQAcanhelpdoctorsquicklyobtaintherequiredinformation,thus

reducingtheirworkloadandimprovingworkefficiency.However,thesmallsamplesizeand

highdataspecializationrequirementsofmedicalvisualquestionansweringdatasetshaveledto

pooroverallperformanceofcurrentMVQAmodels.