基于单张彩色图像的手部姿态估计与形状重构研究
摘要
手是人们日常生活中使用最多的部分之一,在人机交互过程中扮演着重要的角色。
三维手部姿态估计和形状重构是人机交互中研究的重点,在医疗、虚拟现实、增强现实
等领域有广泛的应用。随着人工智能技术的飞速发展,基于深度学习的手部姿态估计和
重构取得了令人欣喜的结果。由于可消费级RGB相机的普及,基于RGB图像的手部姿
态估计和重构任务受到广泛关注。由于手部运动的灵活性以及边缘设备的计算资源有
限,网络必须在速度和精度之间取得平衡。本论文基于单帧RGB图像探索如何充分利
用神经网络提取的特征,并用尽可能少的计算量以及参数量提高网络的性能。
本文用两种引入二维信息的方法促进网络预测的3D坐标精度,并提出了多个模块
提升网络性能,实现了超越2.5D坐标表示的预测精度。一种方法通过多任务学习的方
式用两个分支分别预测二维和三维坐标,共享的骨干特征提取网络隐式的将二维信息包
含在三维特征中,添加二维信息后网络的预测精度有了明显提升。在此基础上对网络预
测的手部关节点损失值进行了分析,提出了多根损失函数,在不增加计算量和参数的情
况下提高了网络的性能,并且提出的多根损失函数具有普遍适用性,可以用于其它姿态
估计任务。为了约束预测的三维坐标,本文通过弱透视投影的方式将三维坐标重投影为
二维坐标,通过监督二维坐标生成更精确的三维坐标,最后以多阶段修正的方式进一步
优化三维坐标。多任务学习的方式可以在推理阶段剪去二维网络分支,并且本文提出的
弱透视投影模块也可以在推理阶段删除,从而提高网络的推断速度并降低网络参数。
另一种方法显式的将二维网络分支提取的特征作为二维先验信息映射为三维特征
以丰富三维表示,实验表明二维信息的显示表示比隐式表示对三维坐标的预测效果好。
先前的手部姿态和形状重构算法直接将骨干网络输出的高级语义特征映射为三维特征,
这种方式忽略了骨干网络中不同层不同分辨率的特征。针对上述问题此本文提出了轻量
级的多尺度采样模块融合骨干网络中不同的特征。通过将二维网络分支预测的二维坐标
投影到多尺度采样模块输出的特征来提取像素级的多尺度信息。然后融合二维先验信
息、多尺度信息以及骨干网络提取的高级语义信息丰富手部顶点的三维特征表示。最后
添加多根损失函数,弱透视投影以及多阶段修正模块,进一步提升网络性能。
本文提出的两种方法的参数量分别为109M和115M,在2080Ti上的推理速度分别
为107FPS和88FPS,在现在先进的手部姿态估计和重构算法中参数量最少并且推断速
度最快,更满足实际应用的需求。在手部公共数据集FreiHAND上的三维手部关节点误
哈尔滨工程大学硕士学位论文
差分别为6.4mm和6.2mm。最后对提出的两种方法使用测试时数据增强(TTA)技术,
对输入图像进行三种不同的处理,然后将预测的结果进行平均,网络实现了更高的预测
精度。
关键词:手部姿态估计和形状重构;RGB图像;多任务学习;多根损失函数;多特征
融合;多尺度特征。
基于单张彩色图像的手部姿态估计与形状重构研究
ABSTRACT
Thehandisoneofthemostfrequentlyusedpartsofthehumanbodyindailylife,andit
playsacrucialroleinhuman-computerinteraction.3Dhandposeestimationandshape
reconstructionareimportantresearchtopicsinhuman-computerinteraction,withextensive
applicationsinfieldssuchashealthcare,virtualreality,augmentedreality,andmore.Withthe
rapidadvancementofartific