人工智能视觉课程
神经网络和深度学习人工智能学院
01引言02神经网络和深度学习简史03神经网络基本概念04深度学习基本概念05使用和训练神经网络
过拟合2025/3/143假设要学习英语,而目前唯一的教学资源是一名青少年一开始,跟着这名青少年会有很好的学习效果但如果这名青少年是仅有的资源,我们会不可避免地学到他常用的俚语、说话方式和口音(过拟合)某种程度上,会阻碍我们和其他人用英语交谈(泛化能力)
知识问答2025/3/144深度学习中,过拟合指的是?
过拟合曲线2025/3/145蓝色曲线不断下降,最终收敛红色曲线在某个点之后逐渐上升代表出现了过拟合红色曲线是我们真正要关注的,即模型的泛化能力
解决过拟合的思路2025/3/146拟合过程中通常都倾向于让权值尽可能小最后构造一个所有参数都比较小的模型因为一般认为参数值小的模型比较简单,能适应不同的数据集也在一定程度上避免了过拟合现象
解决过拟合的思路2025/3/147拟合过程中通常都倾向于让权值尽可能小假设有一个线性回归方程如果参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是”抗扰动能力强“
添加模型复杂度惩罚项2025/3/148我们希望尽可能降低模型的复杂度根据奥卡姆剃刀定律衡量模型复杂度有多种方式将模型复杂度作为模型中所有特征的权重的函数将模型复杂度作为具有非零权重的特征总数的函数......如果模型复杂度是权重的函数,则特征权重的绝对值越高,对模型复杂度的贡献就越大
添加模型复杂度惩罚项2025/3/149将这种想法纳入训练时所进行的优化中训练专注于获取正确的样本最大程度减少经验风险(经验风险最小化)minimize:Loss(Data|Model)引入第二项因素即最小化损失,但同时平衡模型复杂度(结构风险最小化)minimize:Loss(Data|Model)+complexity(Model)
添加模型复杂度惩罚项2025/3/1410训练优化算法是一个由两项内容组成的函数一个是损失项,用于衡量模型与数据的拟合度另一个是正则化项,用于衡量模型复杂度
知识问答2025/3/1411以下关于正则化项,说法正确的是?
先验概率和后验概率2025/3/1412先验概率指根据以往经验和分析得到的概率意思是说我们人有一个常识比如骰子我们都知道概率是1/6而且无数次重复实验也表明是这个数这是一种我们人的常识也是我们在不知道任何情况下必然会说出的一个值而所谓的先验概率是我们人在未知条件下对事件发生可能性猜测的数学表示
先验概率和后验概率2025/3/1413后验概率事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小桌子上如果有一块肉和一瓶醋你如果吃了一块肉,然后你觉得是酸的那你觉得肉里加了醋的概率有多大?你说:80%可能性加了醋即你进行了一次后验概率的猜测
条件概率2025/3/1414设A,B是两个事件,且P(B)0则在事件B发生的条件下,事件A发生的条件概率为P(A|B)=P(AB)/P(B)P(AB)为事件AB的联合概率P(A|B)为条件概率,表示在B条件下A的概率P(B)为事件B的概率乘法公式P(AB)=P(A|B)P(B)=P(B|A)P(A)
贝叶斯公式2025/3/1415建立在条件概率的基础上寻找事件发生的原因即大事件A已经发生的条件下,分割中的小事件Bi的概率设B1,B2,...是样本空间Ω的一个划分则对任一事件A(P(A)0),有Bi常被视为导致试验结果A发生的”原因“P(Bi)(i=1,2,...)表示各种原因发生的可能性大小,故称先验概率P(Bi|A)(i=1,2...)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率
贝叶斯公式的一个例子2025/3/1416发报台分别以概率0.6和0.4发出信号“∪”和“—”由于通信系统受到干扰,当发出信号“∪”时,收报台分别以概率0.8和0.2收到信号“∪”和“—”又当发出信号“—”时,收报台分别以概率0.9和0.1收到信号“—”和“∪”求当收报台收到信号“∪”时,发报台确系发出“∪”的概率P(B1|A)=(0.6*0.8)/(0.6*0.8+0.4*0.1)=0.923
从贝叶斯的角度理解正则化
2025/3/1417正则化等价于对模型参数引入先验分布使得模型复杂度变小(缩小解空间)对于噪声以及异常值的鲁棒性增强(泛化能力)整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计其中正则化项对应后验估计中的先验信息损失函数对应后验估计中的似然函数两者的乘积即对应贝叶斯最大后验估计的形式
知识问答2025/3/1418从贝叶斯的角度来看,正则化相当于?
庞大