基于节点聚类难度的图聚类算法研究.pdf

基本信息

文件名称：基于节点聚类难度的图聚类算法研究.pdf

文件大小：7.4 MB

总页数：62 页

更新时间：2025-03-28

总字数：约11.54万字

文档摘要

中文摘要

复杂系统可以抽象为复杂网络，其中节点表示实体，边表示实体间的关系。网

络中节点间往往存在聚集性，即功能相似的节点形成了连接相对紧密的功能模块，

也称为社区或簇。如社交网络中拥有相同兴趣或背景的个体形成一个社交圈；引文

网络中相互引用较多的文献组形成某一研究主题；生物网络中连接紧密的蛋白质组

形成功能团体来行使一定的生物功能等。图聚类方法可以发现网络中的社区结构，

在社交网络、引文网络、生物网络和基因调控网络等分析中有着重要作用。

研究人员基于模块度优化、标签传播、节点表示学习等思想提出了许多图聚类

方法，被成功应用于不同领域的复杂网络分析任务中。目前所处理的图结构数据复

杂性在不断增加，网络中社区结构的规模、社区内外部的连接模式、节点在社区结

构中的位置等都呈现了极大的不平衡性。这导致网络中不同节点的聚类难度存在显

著差异，位于类中心的节点通常与社区外节点连接较少，具有比较清晰的社区归

属，聚类难度相对较低；而位于类边缘的节点由于存在较多的外部连接，社区归属

不太清晰，导致其聚类难度偏高。如何有效判别网络中节点的聚类难度，为图聚类

过程提供指导，是提升图聚类算法性能的一个重要问题。本文对基于节点聚类难度

的图聚类算法开展研究，具体工作如下：

(1)提出了一种自监督节点聚类难度判别方法，并在此基础上设计了一种迭代

更新节点聚类难度的图聚类算法(GraphClusteringAlgorithmBasedonNode

ClusteringDifficultyDiscrimination,GCNCD)。该算法利用基聚类器的聚类结果一致

性判别节点的聚类难度，为聚类难度低的节点赋予伪标签；再利用伪标签监督信息

迭代降低其余节点的聚类难度，最终得到图聚类结果。算法GCNCD包括节点表示

模块、节点聚类难度判别模块、图聚类模块等3个主要模块。节点表示模块利用集

聚性和模块度约束节点表示，以得到类边界清晰的节点表示，从而为后续聚类任务

提供更具区分性的节点特征；聚类难度判别模块分别采用k-means和Softmax编码

器对节点进行聚类，根据聚类结果的一致性确定初始类结构并得到节点的初始聚类

难度，利用聚类难度低的节点伪标签信息，迭代更新网络中其余节点的聚类难度，

不断发现网络中聚类分配明确的节点；图聚类模块利用聚类难度低的节点所提供的

标签信息，采用标签传播算法得到最终的聚类结果。将所提算法GCNCD在6个引

文网络和3个生物数据集上与9种经典社区发现算法进行对比，结果表明GCNCD

在ACC、NMI、ARI和F1值等指标上表现良好。

(2)为消除基聚类器的选择对初始聚类难度判别的影响，给出了一种基于类分

布的节点聚类难度判别方法，并提出了一种利用节点类分布迭代更新聚类难度的图

聚类方法(GraphClusteringAlgorithmBasedonNodeClassDistribution,GCNC)。该算

法利用t-分布计算节点类分布，并用其初始化节点聚类难度；通过标签传播过程迭

代更新节点类分布和节点聚类难度，扩展易聚类节点范围，最终得到图聚类结果。

算法GCNC包括节点表示、聚类难度初始化、类分布及难度更新等3个模块，节点

表示模块通过引入模块度约束得到具有区分性的节点表示；聚类难度初始化模块利

用t-分布计算节点类分布，并初始化网络中易聚类节点，赋予其初始伪标签；类分

布及难度更新模块依据伪标签提供的自监督信息，通过迭代优化节点类分布来改善

聚类效果，在迭代的过程中不断选取高置信节点的标签来更新伪标签，优化模型以

得到最终的聚类结果。将所提算法GCNC在6个引文网络和3个生物数据集上与10

种聚类算法进行比较，结果表明了GCNC算法在ACC、NMI、ARI和F1值等指标

上表现良好。

关键词：图自监督机制；图聚类；图神经网络；标签传播；节点类分布