基于多模态表征学习的多样化图像描述生成方法研究.pdf - 创享文库

基本信息

文件名称：基于多模态表征学习的多样化图像描述生成方法研究.pdf

文件大小：33.23 MB

总页数：71 页

更新时间：2025-07-30

总字数：约13.57万字

文档摘要

摘要

图像描述，是多模态领域里一个热门任务，旨在根据图片内容自动生成与之

对应的文本，是视觉任务和语言任务的结合。目前图像描述的热点已经转向多样

化生成，现有的多样图像描述方法通常基于条件变分自编码器进行设计，但是这

些模型通常引入全局或序列隐向量作为模型的隐层表示，忽视了全局和序列隐向

量之间的依赖关系，限制了隐向量空间的表示能力和描述性能的提升，同时生成

的句型也缺乏可控性，可解释性和面向具体场景应用性不强。

为此，本文针对多样化图像描述生成任务中存在的这些问题，主要研究与应