PAGE
PAGEXXXVIII
支持向量机理论及其分析基础综述
目录
TOC\o1-3\h\u10341支持向量机理论及其分析基础综述 1
266631.1支持向量机概述 1
180781.2支持向量机的分类 3
276341.2.1线性可分支持向量机 3
112651.2.2线性支持向量机 4
176951.2.3非线性支持向量机 6
290701.3核函数的选择 7
148091.4支持向量机中主要参数的选择 9
65001.5LIBSVM工具箱 9
1.1支持向量机概述
支持向量机由Vapnik首先提出,和多层感知器网络和径向基函数网络一样,支持向量机可用于模式分类和非线性回归。支持向量机的主要思想是建立一个分类超平面作为决策平面,使得正例和反例之间的隔离边缘被最大化[3],其中,距离超平面最近的样本点为该超平面的支持向量。找到该超平面后,对于待测点,通过计算该点相对于超平面的位置进行分类。其中,一个点距离分离超平面的距离越大,表明其分类预测的确信程度越高。
图3-1SVM最佳边界选取示意图
如图3-1,direction1所代表的分离超平面就存在过拟合的风险,而direction2所代表的超平面明显分类效果更好。而SVM分类器需要做的也就是找出一个类似于方向二的超平面,使得在两类样本点能完全分离的情况下,尽可能的使样本边界的距离最大。
支持向量机的主要理论基础是统计学习理论,更精确地说,支持向量机是结构风险最小化的近似实现。这个原理基于这样的事实:学习机器在测试数据上的误差率(即泛化误差率)以训练误差率和一个依赖于VC维数的项的和为界,在可分模式情况下,支持向量机对于前一项的值为零,并且使第二项最小化。因此,尽管它并不利用问题的领域内部问题,但在模式分类问题上支持向量机能提供更好的泛化性能,这个属性是支持向量机所独有的。
在“支持向量”x(i)和输入空间抽取的向量x之间的内积核这一该概念是构造支持向量机学习算法的关键。支持向量机是由算法从训练数据中抽取的小的子集构成。
支持向量机的体系结构如下图所示。
其中K为核函数,主要种类有线性核函数;多项式核函数;径向基核函数;两层感知器核函数。
图3-2支持向量机结构图
1.2支持向量机的分类
对于支持向量机的分类,有不同的分类方法,按照分类标准的不同,支持向量机也可以被分为不同的类别,这里主要描述的是对于被分类的数据样本的种类对支持向量机进行分类。
1.2.1线性可分支持向量机
对于线性可分的数据样本来说,这是最容易使用支持向量机进行分类的一种数据样本,选择一个分类间隔最大的分类超平面,这种分类间隔最大化是硬间隔最大化,与之相对的是软间隔分类最大化。
这里假设正样本边界f(SV)=WTx+
那么两个边界的距离,等于正边界上的点x?+(WTx?+b=1)到负边界(
要最大化这个距离,但是存在一个问题,函数2||w||在0处不光滑,所以做一个变换,即求此函数的倒数的最小值,即求||w||
最终函数12||w||2满足处处平滑这个条件,可以求出其最小值。最后得到的最优分类超平面即为min
其中,w为超平面法向量;xi为第i个样本的特征,yi为对应的类别标签。对于最优超平面的求解,即在上面提到的约束条件下,求得
Lw,b,a
其中αi是拉格朗日乘子,之后分别对w和b求微分方程,可以得到两个最优化条件:
▽
即可得到下面两式
w=
i=1
将两式代入拉格朗日函数中,即可得到该问题所对应的对偶形式:
min
对应的约束条件为:i=1
由此可以得到最优化函数为:
f
1.2.2线性支持向量机
上面讲的是线性可分的数据样本,那么当数据中存在一些奇异点,而这些奇异点恰好导致非完全线性可分,这时就需要对每一个样本点引入一个松弛变量,去除奇异点变量,这里所求解的最大间隔就被称为软间隔最大化。
这时原始问题中的最佳分类超平面就转化为了
min
约束条件也随之转化为了y
ξ
这里引入的C是惩罚因子,C越大,表示对错分的惩罚力度就越大;C越小,表示对错分样本的惩罚力度就越小。C的作用就是在保证分类间隔足够大的前提下使错分样本足够少,这样可以起到参数调节的作用。和线性可分支持向量机相同,采用拉格朗日方法进行求解,其对应的拉格朗日函数为:
L
这里αi和βi是拉格朗日乘子,分别对w、b和
▽
▽
▽
由此可以得到
w=
i=1
C=
将上面三式代入拉格朗日函数中,可以得到该问题的对偶形式:
min
这个对偶形式所对应的约束条件为:
i=1
得到的最优化函数为:
f
1.2.3非线性支持向量机
对于求解线性问题来说,线性可分支持向量机和线性支持向量机可以进行有效地求解。但是如果是针