基于局部邻域信息的多流形聚类算法研究.pdf

基本信息

文件名称：基于局部邻域信息的多流形聚类算法研究.pdf

文件大小：2.58 MB

总页数：61 页

更新时间：2025-03-12

总字数：约8.23万字

文档摘要

摘要

流形学习是数据挖掘和机器学习研究领域中的一种重要的降维技术，旨在通过

在高维空间中找到低维流形并建立映射关系，实现数据降维和可视化。传统的流形

学习算法往往基于高维单流形模型，但实际数据却大多存在于复杂多流形结构中，

这些流形可能相互独立，也可能交叉重叠，给传统的流形学习算法带来了挑战。因

此，面向复杂多流形数据的研究成为流形学习的重要研究方向之一。同时，现有的

大多数聚类算法并不适用于多流形数据的聚类问题，因为大多数数据挖掘和机器学

习算法都是基于相似性度量展开分析，但是仅仅通过欧氏距离难以判断多流形数据

的相似性或近邻关系，尤其是相交多流形。为了克服这一挑战，本文基于局部邻域

信息对多流形聚类展开了一些研究工作。

(1)提出一种基于局部PCA距离度量的PPCA-UMAP算法，该算法在UMAP算

法的基础上，首先在构建邻域图时引入自然邻域概念，计算每个点的邻域信息；然

后根据邻域图使用基于局部PCA的距离度量替代欧式距离加权来构建距离相似度矩

阵，基于相似度矩阵计算UMAP中的条件概率来描述数据点之间的邻近关系；接着

使用UMAP的梯度下降方法得到低维嵌入，最后用k-means对降维结果进行聚类。

结果表明,该方法在处理相交多流形数据时，不仅能够保持每个流形的邻域结构，同

时降维聚类效果优于UMAP算法。

(2)提出一种基于曲率增强的标签传播算法CLPA。该算法利用黎曼流形所需的

拓扑度量，以及距离和曲率加权的黎曼度量来增强相似矩阵的可表达性。算法在构

造相似矩阵时采用里奇曲率加权方式构建相似矩阵，借助里奇曲率提供的几何信息

来指导标签传播过程，使得CLPA算法能够利用流形的局部曲率性质实现高维多流

形数据的聚类。

(3)设计实现了一个基于PPCA-UMAP的多流形聚类系统，不仅能够对多流形

数据进行聚类，而且能够实现聚类结果降维后的可视化。该系统包含数据导入、参

数设置、算法运行、精度输出四个模块。

PCA

关键词：流形学习；多流形聚类；邻域；；降维；里奇曲率

ABSTRACT

Manifoldlearningisanimportantdimensionalityreductiontechniqueinthefieldsof

dataminingandmachinelearning,aimingtoachievedatadimensionalityreductionand

visualizationbyfindinglowdimensionalmanifoldsinhigh-dimensionalspaceand

establishingmappingrelationships.Traditionalmanifoldlearningalgorithmsareoften

basedonhigh-dimensionalsinglemanifoldmodels,butactualdatamostlyexistsin

complexmultimanifoldstructures,whichmaybeindependentofeachotherorcross

overlap,posingchallengestotraditionalmanifoldlearningalgorithms.Therefore,research

oncomplexmultimanifolddatahasbecomeoneoftheimportantresearchdirectionsin

manifoldlearning.Meanwhile,mostexistingclusteringalgorithmsarenotsuitablefor

clusteringproblemswithmultimani