基本信息
文件名称:向量机基础知识点.doc
文件大小:26.25 KB
总页数:4 页
更新时间:2025-06-18
总字数:约2.21千字
文档摘要

向量机基础知识点

一、向量机的定义与概念

向量机是一种基于向量空间理论的机器学习模型。它的核心思想是将输入数据映射到一个高维向量空间中,然后在这个空间中寻找一个最优的超平面来进行分类或者回归任务。在分类问题中,这个超平面能够将不同类别的数据分隔开来;在回归问题中,超平面则用于拟合数据点的分布趋势。

向量机基于结构风险最小化原则,旨在在模型的复杂性和训练误差之间找到一个平衡,以避免过拟合现象的发生。与传统的基于经验风险最小化的方法相比,这种基于结构风险最小化的向量机往往具有更好的泛化能力。

二、线性向量机

1.线性可分情况

-当数据在原始特征空间中是线性可分的时候,我们可以找到一个超平面\(w\cdotx+b=0\)(其中\(w\)是权重向量,\(x\)是输入向量,\(b\)是偏置项)将不同类别的数据完全分开。对于二分类问题,假设我们有两类数据,标记为\(y=+1\)和\(y=-1\),那么满足\(y_i(w\cdotx_i+b)0\)对于所有的训练样本\((x_i,y_i)\)。

-我们的目标是找到能够最大化两类数据间隔的超平面。这个间隔定义为两类数据中距离超平面最近的点到超平面的距离之和。通过求解一个优化问题,可以得到最优的\(w\)和\(b\)。

2.线性不可分情况

-在实际数据中,很多时候数据是线性不可分的。为了解决这个问题,我们引入了软间隔(soft-margin)的概念。软间隔允许部分样本不满足\(y_i(w\cdotx_i+b)0\)的约束条件,但会对违反约束的样本施加一个惩罚项。

-此时的优化问题变成了在最小化\(\frac{1}{2}\|w\|^2+C\sum_{i=1}^{n}\xi_i\)(其中\(C\)是惩罚参数,\(\xi_i\)是松弛变量,表示样本\(x_i\)违反约束的程度)的同时,满足\(y_i(w\cdotx_i+b)\geqslant1-\xi_i\),\(\xi_i\geqslant0\)对于所有的\(i=1,\cdots,n\)。

三、核函数与非线性向量机

1.核函数的概念

-当数据在原始特征空间中线性不可分时,我们可以将数据映射到一个高维特征空间中,使得在这个高维空间中数据变得线性可分。核函数就是一种隐式地实现这种映射的方法,它不需要显式地计算映射后的高维向量,而是直接在原始特征空间中计算高维空间中的内积。

-例如,常见的核函数有多项式核函数\(K(x_i,x_j)=(x_i^Tx_j+c)^d\)(其中\(c\)是常数,\(d\)是多项式的次数),高斯核函数\(K(x_i,x_j)=\exp(-\frac{\|x_i-x_j\|^2}{2\sigma^2})\)等。

2.非线性向量机的构建

-利用核函数,我们可以将线性向量机的算法推广到非线性的情况。在优化问题中,我们只需要将原来的内积\(x_i^Tx_j\)替换为核函数\(K(x_i,x_j)\)。这样,我们就可以在非线性数据上构建向量机模型,并且通过选择合适的核函数和调整模型的参数(如惩罚参数\(C\)和核函数的参数)来获得较好的性能。

四、向量机的训练算法

1.二次规划求解

-对于线性向量机(包括硬间隔和软间隔情况),其优化问题可以转化为一个二次规划(QuadraticProgramming,QP)问题。二次规划问题的一般形式是在满足一组线性约束条件下,最小化一个二次函数。

-有很多成熟的算法可以用于求解二次规划问题,如内点法等。通过求解这个二次规划问题,我们可以得到向量机模型的参数\(w\)和\(b\)。

2.序列最小优化算法(SMO)

-SMO是一种专门用于求解向量机训练中的二次规划问题的高效算法。它将大的二次规划问题分解为一系列小的二次规划子问题,每个子问题只涉及到两个变量的优化。

-这种算法通过不断地选择合适的变量对进行优化,并更新模型的参数,直到收敛。SMO算法在向量机的训练中具有计算效率高、收敛速度快等优点,特别是对于大规模的数据集。

五、向量机的性能评估与应用

1.性能评估指标

-在分类任务中,常用的性能评估指标有准确率(Accuracy),即正确分类的样本数占总样本数的比例;召回率(Recall),表示预测为正例的样本中真正为正例的比例;F1-score,它是准确率和召回率的调和平均数,能够综合反映模型的分类性能。

-在回归任务中,常用的评估指标有均方误差(MSE),即预测值与真实值之差的平方的平均值;平均绝对误差(MAE),它是预测值与真实值之差的绝