基本信息
文件名称:基于深度学习的视觉问答去偏算法研究.pdf
文件大小:4.22 MB
总页数:77 页
更新时间:2025-08-21
总字数:约12.01万字
文档摘要
摘要
视觉问答(VQA,VisualQuestionAnswering)是深度学习领域中逐渐成为主流的
任务之一,对于人工智能应用的发展和智能体的研究具有相当的促进意义。在人工智
能领域的研究中,模型如何理解现实世界并针对现实世界的改变做出合理反馈是人们
一直在追求的目标。令模型识别现实世界中的图像内容,理解文本语义,回答语音消
息均是人工智能研究的重点内容。目前,在多模态交叉领域,视觉语言任务的发展并
不理想。由于模态融合的局限性,导致在多模态任务中,不同模态之间的相互融合会
出现很多问题