基本信息
文件名称:面向医学VQA的MLP视觉编码器和预训练框架研究.pdf
文件大小:2.94 MB
总页数:64 页
更新时间:2025-05-17
总字数:约9.23万字
文档摘要

面向医学VQA的MLP视觉编码器和预训练框架研究

摘要

医学视觉问答(MedicalVisualQuestionAnswering,MVQA)是在视觉问答(Visual

QuestionAnswering,VQA)基础上发展起来面向医学领域的特定视觉问答任务,它可以

使计算机在观察并理解医学影像后回答与影像相关的问题。因此,医学VQA可以帮助

医生快速获取所需信息,从而减轻他们的工作负担并提高工作效率。但是,由于医学视

觉问答数据集具有样本量小和对数据专业性要求高这两个特点,导致目前的医学VQA

模型整体表现不佳。

因此,为了解决医学VQA模型性能不佳的问题,本文通过对医学视觉问答领域现

有工作进行总结,以增强模型的医学视觉特征表征能力为研究方向,设计了一个基于简

单线性层的类MLP视觉编码器SwinMixer(ShiftWindowMixer)作为医学VQA模型的

视觉编码器。该编码器使用了相对位置线性变换进行空间信息的混合,而相对位置线性

变换是本文提出的全新线性变换方式,相较于常规线性变换具有更强的表征能力。接着,

本文通过对SwinMixer的基础模块SwinMLP进行改造,提出用于跨模态视觉编码的

Cross-SwinMLP。通过将Cross-SwinMLP与常规Cross-Transformer模块结合提出了多级

交互模块(MIM)用于多模态融合,该模块通过引导注意力实现视觉特征和文本特征之

间的多层级相互引导,强化了医学视觉信息和医学文本信息之间的交互融合。最后,分

别使用SwinMixer、BERT作为视觉编码器和文本编码器构建了多级交互医学视觉问答

模型MI-MVQA。本文在VQA-RAD数据集上进行实验验证,结果表明MI-MVQA模型

超越了相关基准模型,实现了74.1%的整体准确率。

在MI-MVQA的基础上,为了提高模型对医学视觉和语言的理解能力,并学习嵌入

更多的医学通用专业知识。本文以多模态预训练为研究思路,基于MI-MVQA的骨干架

构,设计了一个医学视觉-语言预训练框架—双端对齐预训练框架DSA。DSA预训练框

架中总共包含3个预训练目标,除了基础的掩码语言建模(MLM)和视觉-文本匹配(VTM)

预训练目标,本文还提出了一种全新的双端视觉-文本对比学习(DSVTC)预训练目标。

经过预训练之后,通过将DSA的预训练权重迁移到MI-MVQA模型上进行微调验证,

结果表明DSA使MI-MVQA模型在VQA-RAD数据集上的整体性能得到了进一步提升,

整体准确率达到了76.3%。

关键词:医学视觉问答;MLP视觉编码器;医学视觉-语言预训练

面向医学VQA的MLP视觉编码器和预训练框架研究

Abstract

MedicalVisualQuestionAnswering(MVQA)isaspecificvisualquestionansweringtask

developedinthefieldofmedicinebasedonVisualQuestionAnswering(VQA),whichenables

computerstoanswerimage-relatedquestionsafterobservingandunderstandingmedical

images.Therefore,MVQAcanhelpdoctorsquicklyobtaintherequiredinformation,thus

reducingtheirworkloadandimprovingworkefficiency.However,thesmallsamplesizeand

highdataspecializationrequirementsofmedicalvisualquestionansweringdatasetshaveledto

pooroverallperformanceofcurrentMVQAmodels.

To