深度学习第3章-卷积神经网络.ppt

基本信息

文件名称：深度学习第3章-卷积神经网络.ppt

文件大小：6.92 MB

总页数：52 页

更新时间：2025-04-10

总字数：约1.05万字

文档摘要

******与之前的CNN结构相比，AlexNet的设计和训练具有以下特点：ReLU激活函数：使用ReLU代替传统的sigmoid或tanh，加快训练速度，减少梯度弥散和爆炸。数据扩充：通过随机裁剪、平移和翻转扩充数据量。从256×256图像中截取224×224区域及水平翻转镜像，增加数据量。Dropout：在训练中随机丢弃神经元，防止过拟合。主要应用于最后三个全连接层。多GPU训练：使用多块GPU并行计算，突破单GPU显存限制，加快训练速度。局部响应归一化（LRN）：借鉴“侧抑制”思想，对ReLU输出进行局部归一化，增强泛化能力。*3.3.2AlexNetVGG是由牛津大学VGG组提出的CNN网络，基于AlexNet加深了网络层次，采用多个3×3卷积核代替AlexNet中的大卷积核（11×11、5×5），在ImageNet上Top-5准确率达到92.3%，是2014年竞赛中定位任务的第一名和分类任务的第二名基础网络。VGG使用更小的卷积核和池化核，使网络更深更宽，计算量增加放缓。测试阶段，VGG将全连接层替换为卷积层，可接收任意尺寸输入。VGG的预训练模型广泛应用于特征提取、物体候选框生成、细粒度图像定位与检索及图像协同定位等任务。3.3.3VGGNet图?3-7VGG网络结构*GoogleNet和VGG是2014年ImageNet竞赛中的两个著名网络，都具有较深的层次。与VGG不同，GoogleNet大胆创新，未继承AlexNet框架。GoogleNet通过结构设计增加深度和宽度，同时避免了过拟合、梯度消失等问题，且模型大小远小于AlexNet和VGG。GoogleNet采用22层网络，通过在不同深度处增加两个辅助损失（loss）来避免梯度消失。其创新点在于Inception模块，这是一种“网中网”结构，既增加了网络宽度，又提升了对不同尺度的适应性。为了避免特征图（featuremap）过厚，Inception模块在3×3卷积、5×5卷积和最大池化层后分别加入1×1卷积核以降低特征图厚度。这使得GoogleNet在拥有22层的同时，参数量少于AlexNet和VGG。3.3.4GoogLeNet图?3-8Inception模块结构*在早期研究中，CNN网络从AlexNet的7层发展到VGG的16或19层，再到GoogleNet的22层，深度不断增加以提升表达能力。然而，后续研究发现，当网络深度达到一定程度后，继续增加层数不仅无法提升性能，反而会导致网络收敛变慢、准确率下降，例如VGG网络在19层以上时性能开始下降。在此背景下，华人学者何恺明等人提出了ResNet网络，引入残差学习的概念，解决了深层网络中的信息丢失和梯度问题，并在ILSVRC2015竞赛中夺冠，top5错误率仅为3.57%，且参数量少于VGG。ResNet的核心思想是增加直连通道，允许原始输入信息直接传递到后面的层中，简化了学习目标，提升了训练速度和准确率，且具有良好的推广性，可应用于InceptionNet等网络。3.3.5ResNet图?3-9ResNet模块结构*1、R-CNN系列模型工作原理*候选区域提取：使用SelectiveSearch等传统图像分割方法生成可能包含目标的候选区域，这些区域数量多且形状、大小各异。特征提取：将每个候选区域调整为固定大小，通过预训练的CNN（如AlexNet、VGG）提取特征，这些网络在大规模图像分类任务上训练，能有效捕获图像特征。目标分类：将提取的特征输入SVM分类器，将候选区域分为不同目标类别（如汽车、行人、动物等），每个类别对应一个SVM。目标定位：使用回归器微调候选区域的边界框，以更准确地匹配目标的实际位置。非极大值抑制（NMS）：排除重叠的候选区域，保留最佳检测结果，确保每个目标只被保留一次。训练过程：两阶段训练，先预训练CNN，再训练SVM分类器和回归器以适应目标检测任务。3.3.6R-CNN系列2、FastR-CNN网络的工作原理*候选区域提取：引入RegionProposalNetworks（RPNs）生成候选区域，与特征提取共享卷积计算，提高速度。特征提取：对整张图像进行卷积计算，得到特征图。使用RoIPooling层从特征图中提取每个候选区域的固定大小特征向量，确保特征表示维度一致。目标分类与边界框回归：将特征向量输入两个全连接层：一个用于目标分类，通过Softmax输出类别概率。一个用于边界框回归，预测目标的精确位置。3.3.6R-CNN系列2、FastR-CNN网络的工作原理*多任务损失函数：同时优化分类和边界框回归：分类损失使用交叉熵。边界框回归