基于深度学习的视觉问答去偏算法研究.pdf - 创享文库

基本信息

文件名称：基于深度学习的视觉问答去偏算法研究.pdf

文件大小：4.22 MB

总页数：77 页

更新时间：2025-08-21

总字数：约12.01万字

文档摘要

摘要

视觉问答（VQA，VisualQuestionAnswering）是深度学习领域中逐渐成为主流的

任务之一，对于人工智能应用的发展和智能体的研究具有相当的促进意义。在人工智

能领域的研究中，模型如何理解现实世界并针对现实世界的改变做出合理反馈是人们

一直在追求的目标。令模型识别现实世界中的图像内容，理解文本语义，回答语音消

息均是人工智能研究的重点内容。目前，在多模态交叉领域，视觉语言任务的发展并

不理想。由于模态融合的局限性，导致在多模态任务中，不同模态之间的相互融合会

出现很多问题