基本信息
文件名称:基于多模态表征学习的多样化图像描述生成方法研究.pdf
文件大小:33.23 MB
总页数:71 页
更新时间:2025-07-30
总字数:约13.57万字
文档摘要
摘要
图像描述,是多模态领域里一个热门任务,旨在根据图片内容自动生成与之
对应的文本,是视觉任务和语言任务的结合。目前图像描述的热点已经转向多样
化生成,现有的多样图像描述方法通常基于条件变分自编码器进行设计,但是这
些模型通常引入全局或序列隐向量作为模型的隐层表示,忽视了全局和序列隐向
量之间的依赖关系,限制了隐向量空间的表示能力和描述性能的提升,同时生成
的句型也缺乏可控性,可解释性和面向具体场景应用性不强。
为此,本文针对多样化图像描述生成任务中存在的这些问题,主要研究与应