面向医学VQA的MLP视觉编码器和预训练框架研究
摘要
医学视觉问答(MedicalVisualQuestionAnswering,MVQA)是在视觉问答(Visual
QuestionAnswering,VQA)基础上发展起来面向医学领域的特定视觉问答任务,它可以
使计算机在观察并理解医学影像后回答与影像相关的问题。因此,医学VQA可以帮助
医生快速获取所需信息,从而减轻他们的工作负担并提高工作效率。但是,由于医学视
觉问答数据集具有样本量小和对数据专业性要求高这两个特点,导致目前的医学VQA
模型整体表现不佳。
因此,为了解决医学VQA模型性能不佳的问题,本文通过对医学视觉问答领域现
有工作进行总结,以增强模型的医学视觉特征表征能力为研究方向,设计了一个基于简
单线性层的类MLP视觉编码器SwinMixer(ShiftWindowMixer)作为医学VQA模型的
视觉编码器。该编码器使用了相对位置线性变换进行空间信息的混合,而相对位置线性
变换是本文提出的全新线性变换方式,相较于常规线性变换具有更强的表征能力。接着,
本文通过对SwinMixer的基础模块SwinMLP进行改造,提出用于跨模态视觉编码的
Cross-SwinMLP。通过将Cross-SwinMLP与常规Cross-Transformer模块结合提出了多级
交互模块(MIM)用于多模态融合,该模块通过引导注意力实现视觉特征和文本特征之
间的多层级相互引导,强化了医学视觉信息和医学文本信息之间的交互融合。最后,分
别使用SwinMixer、BERT作为视觉编码器和文本编码器构建了多级交互医学视觉问答
模型MI-MVQA。本文在VQA-RAD数据集上进行实验验证,结果表明MI-MVQA模型
超越了相关基准模型,实现了74.1%的整体准确率。
在MI-MVQA的基础上,为了提高模型对医学视觉和语言的理解能力,并学习嵌入
更多的医学通用专业知识。本文以多模态预训练为研究思路,基于MI-MVQA的骨干架
构,设计了一个医学视觉-语言预训练框架—双端对齐预训练框架DSA。DSA预训练框
架中总共包含3个预训练目标,除了基础的掩码语言建模(MLM)和视觉-文本匹配(VTM)
预训练目标,本文还提出了一种全新的双端视觉-文本对比学习(DSVTC)预训练目标。
经过预训练之后,通过将DSA的预训练权重迁移到MI-MVQA模型上进行微调验证,
结果表明DSA使MI-MVQA模型在VQA-RAD数据集上的整体性能得到了进一步提升,
整体准确率达到了76.3%。
关键词:医学视觉问答;MLP视觉编码器;医学视觉-语言预训练
面向医学VQA的MLP视觉编码器和预训练框架研究
Abstract
MedicalVisualQuestionAnswering(MVQA)isaspecificvisualquestionansweringtask
developedinthefieldofmedicinebasedonVisualQuestionAnswering(VQA),whichenables
computerstoanswerimage-relatedquestionsafterobservingandunderstandingmedical
images.Therefore,MVQAcanhelpdoctorsquicklyobtaintherequiredinformation,thus
reducingtheirworkloadandimprovingworkefficiency.However,thesmallsamplesizeand
highdataspecializationrequirementsofmedicalvisualquestionansweringdatasetshaveledto
pooroverallperformanceofcurrentMVQAmodels.
To