基于Transformer的自监督单目场景流估计方法研究
摘要
人工智能的处理离不开对三维空间中物体运动信息的感知,其中,光流估计可以通
过计算输入相邻帧图像之间的相关性预测物体的运动方向和运动速度的大小,深度估计
可以预测出目标物体到摄像源的距离。因此,联合光流和深度的场景流估计在人工智能
处理与机器视觉中得到了广泛的应用。场景流估计分为双目场景流估计和单目场景流估
计。然而,双目场景流估计需要使用激光传感器设备或双目立体相机获取预测图像,这
就会造成双目图像采集成本较高且过程复杂,难以大量应用到实际场景中。随着场景流
估计领域的迅猛发展,从单目图像序列中恢复出场景信息成为可能,大量具有实际研究
意义的单目场景流估计网络已被提出并广泛应用。
单目场景流估计网络需要在编码部分将光流和深度统一到同一个特征提取框架中
进行学习,这就需要提取到丰富的细节特征,并从大量的场景信息中区分出对当前任务
有用的信息以实现更加精确的估计。然而,现有的单目场景流估计网络大多提出新的损
失函数加强光流和深度的一致性,或者设计新的解码器和网络架构更好地迭代更新光流
和深度,而忽略了增强网络的特征提取能力,导致网络缺乏对局部细节信息的提取以及
对重要特征信息的关注。针对这一问题,本文将卷积Transformer引入到单目场景流估
计网络的特征金字塔层中,通过卷积嵌入和不同步长的卷积映射实现空间下采样,减少
特征序列数量的同时增加了序列的特征维度,从而进一步捕捉到更加精细的像素特征,
实现高效的单目场景流估计。
对单目场景流估计网络的改进如果只关注像素点的特征提取而忽略了其他对模型
有用的信息容易出现网络过拟合问题,并且对大位移运动物体和遮挡像素不能进行有效
的估计。针对上述问题,本文将具有相对位置编码的层次Transformer引入到单目场景
流估计网络中增强相邻帧像素之间的相关性以进行精确的查询匹配问题。通过将计算特
征之间相关性的成本体积以层级的方式输入到Transformer中,并联合局部和全局注意
力有效地从成本体积中聚合信息,精确匹配相邻像素之间的相对关系,高效实现对邻近
像素点的重点关注匹配。为了关注大位移运动物体引起的长距离像素之间的潜在信息,
相对位置编码可以学习不同序列之间的相对位置关系,并根据相对距离的分布分配不同
级别的注意力,这样有利于捕获长距离依赖关系。最后,在网络特征提取部分使用深度
过参卷积代替传统卷积实现特征增强来解决忽略对边缘特征信息提取的问题。为了验证
本文所提出方法的有效性,本文在KITTI数据集上分别对网络的光流和深度估计性能进
哈尔滨工程大学专业学位硕士学位论文
行测试。实验结果表明,本文提出的方法提高了网络的估计性能,具有明显的竞争优势。
关键词:单目场景流估计,光流估计,深度估计,Transformer,深度过参卷积
基于Transformer的自监督单目场景流估计方法研究
ABSTRACT
ArtificialIntelligence(AI)isbasedontheperceptionofthemotionobjectinthe3Dscene,
inwhichopticalflowestimationcanpredictthedirectionandspeedofobjectmotionby
calculatingthecorrelationbetweenadjacentframesofinputimages,anddepthestimationcan
predictthedistancefromthetargetobjecttothecamerasource.Therefore,sceneflow
estimationcombingopticalflowanddepthhasbeenwidelyusedinartificialin