基本信息
文件名称:2025【主成分分析理论及其分析基础2100字】.docx
文件大小:113.78 KB
总页数:4 页
更新时间:2025-05-15
总字数:约2.19千字
文档摘要

PAGE

PAGEXXXVIII

主成分分析理论及其分析基础综述

1.1主成分分析

PCA(PrincipleComponentAnalysis),即为主成分分析方法,是一种使用最为广泛的数据降维算法,PCA的主要思想是将n维特征映射到k维特征空间中去,这k维是全新的正交特征,也被称为主成分,是在原有的n维特征的基础上重新构造出来的k维特征。PCA从原始的空间中顺序地选取一组组相互正交的坐标轴,坐标轴的选择主要和数据本身相关。第一个坐标轴选择的是原始数据中方差最大的方向,第二个坐标轴是选取与第一个坐标轴正交的平面中使得方差最大的,第三个坐标轴是与第一、二个坐标轴正交平面中方差最大的,以此类推,可以选取出n个坐标轴,但是大部分的方差都包含在前面的k个坐标轴中,后面的坐标轴中所包含的方差几乎为0。那么只要保留包含绝大部分方差的维度特征,忽略包含方程几乎为0的特征维度,就可以实现对于数据特征的降维处理,这也对应于PCA推导中的最大方差理论。

在最大方差理论中,信号处理过程中认为信号具有较大的方差,而噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如图2-1所示,样本在1上的投影方差较大,在2上的投影较小,那么可以认为2上的投影是由早上引起的,正好对应于上文所提到的将n维样本转化为k维后,使得这k维上的样本方差都尽量大。

而在选择降维后的维度k时,k主要是和保留信息的百分比有关,首先需要对两个概念有了解:

平均平方映射方差(averagesquaredprojectionerror):1m1m

数据的总体变化(totalvariationinthedata):1m

可以选择不同的k值,对于下式进行计算,选取可以满足下式条件的最小k值即可。

1

t值的选取取决于对于信息的保留度,例如t值选取0.01,即代表该PCA算法保留了99%的主要信息,如果需要减小误差,则缩小t值,反之亦然。

21

2

1

图2-1PCA原理示意图

本文处理的所有原始图片都是112*92大小的pgm格式图片,每幅图片包含10304个像素点,每一行代表一个样本,维数就是10304维。维数过大使得数据处理工作十分复杂,同时,图片特征之间的强相关性还会导致“维数灾难”,不仅会让数据的分布变的稀疏,使得统计学习过程中的鲁棒性变差,还有可能导致模型的自由度变大,过拟合的风险大大提高。快速高效的人脸识别,其关键在于提取到精准表征人脸的特征。从人脸图像中找出最能表征人脸的特征空间,是主成分分析在人脸特征提取中的基本思想[2]。在这个过程中,不能表征人脸的属性会被剔除(降维的过程),也就是在一个高维特征空间中利用一组系数对特征加权,来重新表示一张人脸图片。

PCA过程的数学描述如下:

读取样本矩阵X={xi1,xi2,…,xin}(i=1,2,…,m),假设样本矩阵是一个m行

计算均值得到均值X=

用原始数据X减均值之后可以得到Z={z1,z2,…,zn},其中

找到一个方向u1,使所有zi在u1方向上投影长度(方差)最大,即最大化1

协方差矩阵为Cov=1ni=1n

则最大化u1TCovu1

通过拉格朗日乘子法Lu1,λ=

?L?u1=2

则所求目标值maxu1TCovu1就可以被转换为maxλu

在这个过程中,如果要计算k个方向(即降为k维),则保留前k大的特征值对应的特征向量V(V为n行*k列)。

最后得到的降维后的数据为pcaA=(X-Z)*V,pcaA是一个m行k列的矩阵。

1.2PCA的局限

PCA算法追求的是数据的最佳重建效果,只需要依靠方差来衡量信息量,不受数据集以外的其他因素影响,正是在这个基础上,使得这个方法的计算简单,仅需要通过特征值分解这一主要运算就可以实现。同时各主成分之间正交,可以消除原始数据成分间的相互影响的因素。

但也正因为其方法的简单,使其具有一些局限性和缺点:PCA算法只适用于满足具有高斯分布的数据,同时在降维过程中,只提取出主成分的特征,但是主成分的各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强,这也可能使得丢失一些样本中的有用信息,甚至非主成分中重要信息的丢失还可能影响后续的数据处理。

1.3LDA(线性判别分析)和PCA的比较选择

在特征提取方法中还有一个较为常用的方法:LDA(线性判别分析),LDA是一种有监督的降维技术,数据集的每个样本都是有类别输出的,在这一点上和PCA有很大程度上的不同,PCA属于不考虑样本类别输出的无监督降维技术。LDA的主要思想是投影后类内方差最小,类间方差最大,即将数据投影到低维平面上,希望相同类的投影点尽可能接近,而不同类别的数据的类别中心之间的距离尽可能的大,这种特征提取思想尽管对之后分类效果有一定程度上的提升,但是并不适