基本信息
文件名称:人工智能导论 第2版+电子课件-第6章 机器学习(3)-统计学习.pptx
文件大小:24.19 MB
总页数:10 页
更新时间:2025-06-13
总字数:约4.38千字
文档摘要

人工智能导论

AGuidetoArtificsialIntelligense.

L

版本:3.0

2020年10月

XTTnCM1TMLZGLNCE

第六章机器学习

6.1概述

6.2决策树学习

6.3贝叶斯学习

6.4统计学习

6.5聚类

6.6特征选择与表示学习

6.7其他学习方法

6.4统计学习

西安文通大學

XIANJIAOTONGUNIVERSITY

G.4.1统计学习理论

☆传统的统计学理论,即Fisher理论体系的前提条件

◆已知准确的样本分布函数

◆并且采样无穷多为

☆V.Vapnik提出小样本(有限样本)统计学习理论

◆小样本统计学习理论基于对学习错误(过学习,overfitting)和泛化能力之间关系的定量刻画,

◆不仅避免了对样本点分布的假设和数目要求

◆还产生了一种新的统计推断原理结构风险最小化原理。

☆函数估计模型

(1)G表示产生器,用于产生输入向量x;

的输出y,并且输入和输出遵从某个未知联合概率F(x,y);

决定了不同的学习函数。

★学习的问题就是从给定的函数集f(x,a),a∈A中选择出能最好地逼近训练器响应的函数。

期望风险

☆损失的数学期望值就称为风险泛函(riskfunctional),也称为期望风险。

☆学习的目标就是最小化风险泛函R(a),即风险最小化问题。

★L1损失函数,即绝对值损失函数

L(y,f(x,a)二x-fCx

★L2损失函数,即平方损失函数

L(y,f(x,a))FY十(X

★0-1损失函数

常见损失函数

常见损失函数

★对数损失函数,即对数似然损失函数,也常称之为交

叉熵损失函数

L(p(x,a))=-logp(x,a)

二分类时,即Dy∈{0.1}时

L(y,f(x,a)=-ylogp(x,a)1“log

★指数损失函数

★Hinge损失函数SVN的损失函数(1

经验风险

☆实际问题中,联合概率F(x,y)是未知的,所以就无法用风险泛函直接计算损失的期望值,也无法最小化。于是实践中常用算术平均代替数学期望,从而得到经验风险泛函

☆当N→∞时,经验风险Remp(a)才在概率意义下趋近于期望风险R(a)。传统的学习方法大多都是使经验风险最小化(EmpinicalriskminimizationERM)。

小样本统计学习理论

☆即使样本数目很大,也不能保证经验风险的最小值与期望风险的最小值相近。

☆所以统计学习理论就要研究在样本数目有限的情况下,经验风险与期望风险之间的关系。其核心内容包括一下4点:

◆在什么条件下,当样本数目趋于无穷时,经验风险Remp(a)最优5值趋于期望风险R(a)最优值(能够推广),其收敛速度又如何。

也就是在经验风险最小化原则下的学习一致性条件。

◆如何从经验风险估计出期望风险的上界,即关于统计学习方法推广性的界。

◆在对期望风险界估计的基础上选择预测函数的原则,即小样本归纳推理原则。

◆实现上述原则的具体方法。例如支持向量机(Supportvectormachine,SVM)就是一个具体的方法。

10

VC维

☆VC维的直观定义:

◆对一个指示函数集,如果存在h个样本能够被函数集中

本数目h。

☆所谓打散就是不管全部样本如何分布,总能在函数集中找到一个函数把所有样本正确地分为两类。

◆若对任意数目的样本都有函数能将窗们打散,则函数集的VC维是无穷大。

◆有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。

实数平面的VC维

☆实际上n维超平面的VC维是n+1。

Z1

0

☆定理6.2对于Rn中的m个点集,选择任何一个点作为原点,m个点能被超平面打散当且仅当剩余点的位置向量是线性独立的。

☆推论Rn中有向超平面集的VC维是n+1。

◆因为总能找出n+1个点,选择其中一个作为原点,剩余n个点的位置向量是线性独立的。但无法选择n+2个这样的点,因为在Rn中没有n+2个向量是线性独立的。

☆VC维反映了函数集的学习能力

◆VC维越大则学习机器越复杂,容量越大。

☆线性函数的VC维等于其自由参数的个数。

◆但是一般来说,函数集的VC维与其自由参数的个数不相同。

☆影响学习机器推广性能的是函数集的VC维一而不是其自由参数个数。

推广性。

结构风险

☆对于两类分类问题:

◆指示函数集中的所有函数(包括使经验风险最小的函数),经验风险Remp(a)和期望风险R(a)之间以至少1-η的概率满足如下关系:

R(a)≤R(a)+h(Ine2N