基本信息
文件名称:深度学习 第3章-卷积神经网络.ppt
文件大小:6.92 MB
总页数:52 页
更新时间:2025-04-10
总字数:约1.05万字
文档摘要

******与之前的CNN结构相比,AlexNet的设计和训练具有以下特点:ReLU激活函数:使用ReLU代替传统的sigmoid或tanh,加快训练速度,减少梯度弥散和爆炸。数据扩充:通过随机裁剪、平移和翻转扩充数据量。从256×256图像中截取224×224区域及水平翻转镜像,增加数据量。Dropout:在训练中随机丢弃神经元,防止过拟合。主要应用于最后三个全连接层。多GPU训练:使用多块GPU并行计算,突破单GPU显存限制,加快训练速度。局部响应归一化(LRN):借鉴“侧抑制”思想,对ReLU输出进行局部归一化,增强泛化能力。*3.3.2AlexNetVGG是由牛津大学VGG组提出的CNN网络,基于AlexNet加深了网络层次,采用多个3×3卷积核代替AlexNet中的大卷积核(11×11、5×5),在ImageNet上Top-5准确率达到92.3%,是2014年竞赛中定位任务的第一名和分类任务的第二名基础网络。VGG使用更小的卷积核和池化核,使网络更深更宽,计算量增加放缓。测试阶段,VGG将全连接层替换为卷积层,可接收任意尺寸输入。VGG的预训练模型广泛应用于特征提取、物体候选框生成、细粒度图像定位与检索及图像协同定位等任务。3.3.3VGGNet图?3-7VGG网络结构*GoogleNet和VGG是2014年ImageNet竞赛中的两个著名网络,都具有较深的层次。与VGG不同,GoogleNet大胆创新,未继承AlexNet框架。GoogleNet通过结构设计增加深度和宽度,同时避免了过拟合、梯度消失等问题,且模型大小远小于AlexNet和VGG。GoogleNet采用22层网络,通过在不同深度处增加两个辅助损失(loss)来避免梯度消失。其创新点在于Inception模块,这是一种“网中网”结构,既增加了网络宽度,又提升了对不同尺度的适应性。为了避免特征图(featuremap)过厚,Inception模块在3×3卷积、5×5卷积和最大池化层后分别加入1×1卷积核以降低特征图厚度。这使得GoogleNet在拥有22层的同时,参数量少于AlexNet和VGG。3.3.4GoogLeNet图?3-8Inception模块结构*在早期研究中,CNN网络从AlexNet的7层发展到VGG的16或19层,再到GoogleNet的22层,深度不断增加以提升表达能力。然而,后续研究发现,当网络深度达到一定程度后,继续增加层数不仅无法提升性能,反而会导致网络收敛变慢、准确率下降,例如VGG网络在19层以上时性能开始下降。在此背景下,华人学者何恺明等人提出了ResNet网络,引入残差学习的概念,解决了深层网络中的信息丢失和梯度问题,并在ILSVRC2015竞赛中夺冠,top5错误率仅为3.57%,且参数量少于VGG。ResNet的核心思想是增加直连通道,允许原始输入信息直接传递到后面的层中,简化了学习目标,提升了训练速度和准确率,且具有良好的推广性,可应用于InceptionNet等网络。3.3.5ResNet图?3-9ResNet模块结构*1、R-CNN系列模型工作原理*候选区域提取:使用SelectiveSearch等传统图像分割方法生成可能包含目标的候选区域,这些区域数量多且形状、大小各异。特征提取:将每个候选区域调整为固定大小,通过预训练的CNN(如AlexNet、VGG)提取特征,这些网络在大规模图像分类任务上训练,能有效捕获图像特征。目标分类:将提取的特征输入SVM分类器,将候选区域分为不同目标类别(如汽车、行人、动物等),每个类别对应一个SVM。目标定位:使用回归器微调候选区域的边界框,以更准确地匹配目标的实际位置。非极大值抑制(NMS):排除重叠的候选区域,保留最佳检测结果,确保每个目标只被保留一次。训练过程:两阶段训练,先预训练CNN,再训练SVM分类器和回归器以适应目标检测任务。3.3.6R-CNN系列2、FastR-CNN网络的工作原理*候选区域提取:引入RegionProposalNetworks(RPNs)生成候选区域,与特征提取共享卷积计算,提高速度。特征提取:对整张图像进行卷积计算,得到特征图。使用RoIPooling层从特征图中提取每个候选区域的固定大小特征向量,确保特征表示维度一致。目标分类与边界框回归:将特征向量输入两个全连接层:一个用于目标分类,通过Softmax输出类别概率。一个用于边界框回归,预测目标的精确位置。3.3.6R-CNN系列2、FastR-CNN网络的工作原理*多任务损失函数:同时优化分类和边界框回归:分类损失使用交叉熵。边界框回归