基本信息
文件名称:多模态协同的细粒度图像识别研究.pdf
文件大小:4.61 MB
总页数:76 页
更新时间:2026-01-18
总字数:约11.58万字
文档摘要
多模态协同的细粒度图像识别研究
摘要
细粒度图像识别是计算机视觉中的关键研究领域之一,旨在精确识别大类中的不同子类
别。仅依赖图像这一个模态所开展的细粒度图像识别研究,其方法在用于有复杂背景干扰和
视觉特征模糊的场景时,会出现语义理解深度不足与噪声敏感性强等问题。而多模态方法通
过融合文本描述、地理位置等辅助数据,可为细粒度图像识别提供更丰富的语义信息。但现
有技术仍面临两大问题:一是多模态数据稀缺以及模态之间具有语义鸿沟,二是多模态数据
相