摘要
流形学习是数据挖掘和机器学习研究领域中的一种重要的降维技术,旨在通过
在高维空间中找到低维流形并建立映射关系,实现数据降维和可视化。传统的流形
学习算法往往基于高维单流形模型,但实际数据却大多存在于复杂多流形结构中,
这些流形可能相互独立,也可能交叉重叠,给传统的流形学习算法带来了挑战。因
此,面向复杂多流形数据的研究成为流形学习的重要研究方向之一。同时,现有的
大多数聚类算法并不适用于多流形数据的聚类问题,因为大多数数据挖掘和机器学
习算法都是基于相似性度量展开分析,但是仅仅通过欧氏距离难以判断多流形数据
的相似性或近邻关系,尤其是相交多流形。为了克服这一挑战,本文基于局部邻域
信息对多流形聚类展开了一些研究工作。
(1)提出一种基于局部PCA距离度量的PPCA-UMAP算法,该算法在UMAP算
法的基础上,首先在构建邻域图时引入自然邻域概念,计算每个点的邻域信息;然
后根据邻域图使用基于局部PCA的距离度量替代欧式距离加权来构建距离相似度矩
阵,基于相似度矩阵计算UMAP中的条件概率来描述数据点之间的邻近关系;接着
使用UMAP的梯度下降方法得到低维嵌入,最后用k-means对降维结果进行聚类。
结果表明,该方法在处理相交多流形数据时,不仅能够保持每个流形的邻域结构,同
时降维聚类效果优于UMAP算法。
(2)提出一种基于曲率增强的标签传播算法CLPA。该算法利用黎曼流形所需的
拓扑度量,以及距离和曲率加权的黎曼度量来增强相似矩阵的可表达性。算法在构
造相似矩阵时采用里奇曲率加权方式构建相似矩阵,借助里奇曲率提供的几何信息
来指导标签传播过程,使得CLPA算法能够利用流形的局部曲率性质实现高维多流
形数据的聚类。
(3)设计实现了一个基于PPCA-UMAP的多流形聚类系统,不仅能够对多流形
数据进行聚类,而且能够实现聚类结果降维后的可视化。该系统包含数据导入、参
数设置、算法运行、精度输出四个模块。
PCA
关键词:流形学习;多流形聚类;邻域;;降维;里奇曲率
I
II
ABSTRACT
Manifoldlearningisanimportantdimensionalityreductiontechniqueinthefieldsof
dataminingandmachinelearning,aimingtoachievedatadimensionalityreductionand
visualizationbyfindinglowdimensionalmanifoldsinhigh-dimensionalspaceand
establishingmappingrelationships.Traditionalmanifoldlearningalgorithmsareoften
basedonhigh-dimensionalsinglemanifoldmodels,butactualdatamostlyexistsin
complexmultimanifoldstructures,whichmaybeindependentofeachotherorcross
overlap,posingchallengestotraditionalmanifoldlearningalgorithms.Therefore,research
oncomplexmultimanifolddatahasbecomeoneoftheimportantresearchdirectionsin
manifoldlearning.Meanwhile,mostexistingclusteringalgorithmsarenotsuitablefor
clusteringproblemswithmultimani