基本信息
文件名称:基于局部邻域信息的多流形聚类算法研究.pdf
文件大小:2.58 MB
总页数:61 页
更新时间:2025-03-12
总字数:约8.23万字
文档摘要

摘要

流形学习是数据挖掘和机器学习研究领域中的一种重要的降维技术,旨在通过

在高维空间中找到低维流形并建立映射关系,实现数据降维和可视化。传统的流形

学习算法往往基于高维单流形模型,但实际数据却大多存在于复杂多流形结构中,

这些流形可能相互独立,也可能交叉重叠,给传统的流形学习算法带来了挑战。因

此,面向复杂多流形数据的研究成为流形学习的重要研究方向之一。同时,现有的

大多数聚类算法并不适用于多流形数据的聚类问题,因为大多数数据挖掘和机器学

习算法都是基于相似性度量展开分析,但是仅仅通过欧氏距离难以判断多流形数据

的相似性或近邻关系,尤其是相交多流形。为了克服这一挑战,本文基于局部邻域

信息对多流形聚类展开了一些研究工作。

(1)提出一种基于局部PCA距离度量的PPCA-UMAP算法,该算法在UMAP算

法的基础上,首先在构建邻域图时引入自然邻域概念,计算每个点的邻域信息;然

后根据邻域图使用基于局部PCA的距离度量替代欧式距离加权来构建距离相似度矩

阵,基于相似度矩阵计算UMAP中的条件概率来描述数据点之间的邻近关系;接着

使用UMAP的梯度下降方法得到低维嵌入,最后用k-means对降维结果进行聚类。

结果表明,该方法在处理相交多流形数据时,不仅能够保持每个流形的邻域结构,同

时降维聚类效果优于UMAP算法。

(2)提出一种基于曲率增强的标签传播算法CLPA。该算法利用黎曼流形所需的

拓扑度量,以及距离和曲率加权的黎曼度量来增强相似矩阵的可表达性。算法在构

造相似矩阵时采用里奇曲率加权方式构建相似矩阵,借助里奇曲率提供的几何信息

来指导标签传播过程,使得CLPA算法能够利用流形的局部曲率性质实现高维多流

形数据的聚类。

(3)设计实现了一个基于PPCA-UMAP的多流形聚类系统,不仅能够对多流形

数据进行聚类,而且能够实现聚类结果降维后的可视化。该系统包含数据导入、参

数设置、算法运行、精度输出四个模块。

PCA

关键词:流形学习;多流形聚类;邻域;;降维;里奇曲率

I

II

ABSTRACT

Manifoldlearningisanimportantdimensionalityreductiontechniqueinthefieldsof

dataminingandmachinelearning,aimingtoachievedatadimensionalityreductionand

visualizationbyfindinglowdimensionalmanifoldsinhigh-dimensionalspaceand

establishingmappingrelationships.Traditionalmanifoldlearningalgorithmsareoften

basedonhigh-dimensionalsinglemanifoldmodels,butactualdatamostlyexistsin

complexmultimanifoldstructures,whichmaybeindependentofeachotherorcross

overlap,posingchallengestotraditionalmanifoldlearningalgorithms.Therefore,research

oncomplexmultimanifolddatahasbecomeoneoftheimportantresearchdirectionsin

manifoldlearning.Meanwhile,mostexistingclusteringalgorithmsarenotsuitablefor

clusteringproblemswithmultimani