摘要
深度信息能够理解场景的3D空间信息,是近年来计算机视觉领域的热门研究方
向之一。随着神经网络的广泛应用,许多深度估计领域的研究通过神经网络模型直接
预测单目图像的深度,从而代替了昂贵的主动传感器,这种从单目图像中获取深度信
息的方法称为单目深度估计,其旨在通过单幅RGB图像预测准确的场景深度信息,
即图像中物体相距成像设备的距离。单目深度估计在自动驾驶、机器巡航、虚拟现实
等领域广泛应用,相比于双目深度估计以及多视点图像深度估计的多因素监督,单目
深度估计具有更大的挑战性。为了提高单目深度估计的准确性和泛化性,本文利用多
分辨率深度学习网络开展如下工作:
1.针对单目深度估计中预测深度图的物体轮廓不清晰和细节特征不完整问题,本
文提出了基于多级分辨率注意力与特征融合的自监督单目深度估计预测模型。该模
型利用多级分辨率网络结构,首先将注意力嵌入编码器,从而提取更加准确和完整的
图像特征,然后在编解码器之间利用空间注意力和通道注意力重新标定特征权重,以
此增强图像特征和空间结构,最后在解码器结构中将低分辨率特征图不断地与高分
辨特征图进行级联融合,从而预测更加准确的深度图,最终得到的深度图能够呈现锐
利的物体边界和完整的细节特征。
2.针对单目深度估计模型在不同分辨率数据下测试性能差异较大的问题,本文提
出了基于变焦感知与变焦感知一致性损失的自监督单目深度估计算法。该算法通过
改变焦距模拟相机推进来改变输入数据的分辨率,从而增强单目深度估计模型对于
分辨率的鲁棒性。基于变焦感知的多分辨率网络结构,引入多分辨率之间差异的同时
必然要考虑不同分辨率之间的交叉一致性损失。针对变焦深度图之间的交叉一致性
损失,本文认为仅仅利用插值这样简单粗暴的方式将低级分辨率深度图提高到高级
分辨率,或者将高级分辨率特征图直接下采样到低级分辨率是不合理的,在分辨率转
化的过程中由于操作的特性必然导致特征的缺失,所以在计算变焦深度图之间的损
失时,利用相机参数通过三维空间投影的方式能够较好地转化分辨率之间的不匹配
问题,变焦感知一致性损失在最终的定量分析中得到了验证。
综上所述,针对深度图物体轮廓不清晰、特征图不完整问题,本文提出了多分辨
率注意力,通过编码器提取高质量特征,结构增强模块重标定特征权重以及解码器融
合不同分辨率所关注的不同区域特征解决上述问题。从实验结果分析,在误
I
差上降低了3.3%,在误差上降低了11.4%,显著增强了模型的性能。针对模
型受分辨率影响严重等问题,本文提出了变焦感知算法,通过模拟相机推进增强输入
数据并设计变焦感知一致性损失来解决分辨率问题。实验显示在误差上降低
了3.2%,在误差上降低了8.1%,并且从分辨率定量实验和模型的对比实验
中可以观察到,变焦感知算法增强了模型的鲁棒性,显著提升了模型的性能。
关键词:单目深度估计;多分辨率注意力;变焦感知;交叉一致性损失
II
ABSTRACT
Depthinformationcanunderstandthe3Dspatialinformationofthesceneandisone
ofthepopularresearchdirectionsinthefieldofcomputervisioninrecentyears.Withthe
widespreadapplicationofneuralnetworks,manystudiesinthefieldofdepthestimation
directlypredictthedepthofmonocularimagesthroughneuralnetworkmodels,thereby
replacingexpensiveactivesensors.Thismethodofobtainingdepthinformationfrom
monocular