基本信息
文件名称:基于骨骼的人体行为识别方法研究.pdf
文件大小:3.13 MB
总页数:64 页
更新时间:2025-05-19
总字数:约11.19万字
文档摘要

摘要

摘要

人体行为识别旨在从包含人体行为的视频序列中识别出行为的种类,在人机交互、

智能视频监控以及卫生医疗等领域有着广泛应用。基于骨骼的行为识别作为行为识别

领域的分支,因其数据形式占用计算资源少、鲁棒性强等特点,而备受关注。本文首

先对国内外的研究现状进行了总结归纳,然后针对现有方法中存在的问题,开展了三

方面的创新研究,主要研究工作如下:

(1)针对大多数图卷积行为识别方法建模辨别性时间动态信息的能力较弱的问

题,本文提出一种多时间尺度聚合图卷积网络。该网络利用现有图卷积模型包含多样

时间分辨率的特点,在特征层面上构建用于增强时间建模能力的多时间尺度聚合模块。

该模块中,通道对齐子模块用于对齐不同深度特征的空间语义信息,时间对齐子模块

用于对齐不同深度特征的时间语义信息,最后,完成调制的特征在特征聚合子模块中

聚合到一起,并用于预测行为类别。同时,提出跨帧相对关节特征表示方法,并作为

多时间尺度聚合图卷积网络的输入数据,以获得更丰富的人体全局结构变化线索。在

实证实验中,本文提出的方法在NTU-RGB+D60数据集的两个评估准则上相较于基准

模型分别提高了2.38%和1.62%的准确率。

(2)针对现有图卷积方法在学习不相邻关节点之间的依赖关系时,易产生冗余

信息的问题,本文提出一种半局部图卷积网络。该网络分为三个阶段,首先,通过关

节点注意力机制为每一个关节分配注意力权重,使关键的关节受到更多的关注;其次,

根据关节点注意力图设定阈值,筛选活跃关节;最后,为活跃关节点构建一个可学习

的图结构,并随着网络进行更新,其余不活跃关节点的图结构仍由预定义的人体骨骼

图决定。此外,针对现有方法难以学习时空依赖信息的问题,本文设计了一种并行网

络结构,采用空间建模和时间建模同时进行且逐步融合的特征学习策略,实现空间和

时间不同维度信息的最大程度交互。最终,并行结构的半局部图卷积网络在三个大型

数据集上显示出比以往方法更高的准确率。

(3)针对现有单样本骨骼行为识别方法中盲目追求缩小类内样本之间的距离而

导致的模型泛化能力不足的问题,本文提出一种时空深度度量学习网络。该网络首先

采用图卷积特征提取器获取基本的骨骼特征表达,其次,通过时间流和空间流的分流

嵌入特征学习方式,获得时间和空间两种子嵌入。该方法迫使子嵌入具备不同的特点,

以提高模型的泛化能力。最后,依据不同行为实例所需时间信息和空间信息的比重不

相同的特点,进一步提出一种权重分配模块,自适应地学习一对权重,重新加权时间

子嵌入和空间子嵌入,使得模型有侧重的关注其中一方重要的信息。实验表明,本文

提出的方法在NTU-RGB+D120数据集上达到了56.30%的当前最佳结果。

关键词:行为识别;骨骼数据;深度学习;图卷积;注意力机制

西安工程大学硕士学位论文

论文类型:应用研究

II

目录

目录

第1章绪论1

1.1背景及意义1

1.2国内外研究现状2

1.3本文主要研究内容7

1.4章节安排8

第2章理论基础9

2.1卷积神经网络9

2.2图卷积理论基础10

2.3深度度量学习11

2.4数据集介绍12

2.5本章小结14

第3章基于多时间尺度聚合图卷积网络的骨骼行为识别15

3.1引言15

3.2多时间尺度聚合图卷积网络17

3.3跨帧的相对关节特征20

3.4五流结构的设计21

3.5实验结果与分析21

3.5.1实验设置22

3.5.2消融实验22

3.5.3根节点选取及跨帧数量的探究25

3.5.4多流结构的探究26