基本信息
文件名称:基于多模态表征学习的多样化图像描述生成方法研究.pdf
文件大小:33.23 MB
总页数:71 页
更新时间:2025-07-30
总字数:约13.57万字
文档摘要

摘要

图像描述,是多模态领域里一个热门任务,旨在根据图片内容自动生成与之

对应的文本,是视觉任务和语言任务的结合。目前图像描述的热点已经转向多样

化生成,现有的多样图像描述方法通常基于条件变分自编码器进行设计,但是这

些模型通常引入全局或序列隐向量作为模型的隐层表示,忽视了全局和序列隐向

量之间的依赖关系,限制了隐向量空间的表示能力和描述性能的提升,同时生成

的句型也缺乏可控性,可解释性和面向具体场景应用性不强。

为此,本文针对多样化图像描述生成任务中存在的这些问题,主要研究与应