第十二章图像分类、检测与分割
1、图像分类2ILSVRC的历届冠军数据集:MNIST是手写数字的分类标准,包含60000个训练数据,10000个测试数据,图像均为灰度图;MNIST和CIFAR数据集都只有60000张图,对于10分类这样的简单的任务来说足够;ImageNet数据集在2009年发布,并且从2010年开始每年举办一次ImageNet大规模视觉识别挑战赛,即ILSVRC。ImageNet数据集总共有1400多万幅图片,涵盖2万多个类别,在论文方法的比较中常用的是1000类的基准。
1.1、卷积神经网络3CNN结构:卷积神经网络主要由输入层、池化层、全连接层、输出层等结构组成
1.1、卷积神经网络4卷积层是卷积神经网络中最重要的层之一,它使用卷积操作来提取输入图像的特征
1.1、卷积神经网络5激活函数是神经网络中的一个重要组成部分,在每一层神经网络的后面都会跟有一个激活函数,其作用是帮助网络学习数据中的复杂模式,使神经网络可以逼近更复杂的函数常见的激活函数有ReLU函数、Sigmoid函数、Tanh函数
1.1、卷积神经网络6池化层是卷积神经网络中的一种基本层级,它通过将卷积层的特征图进行下采样,减小特征图的维度,从而降低模型的复杂度,减少参数数量和计算量,同时池化层还可以增强特征的鲁棒性,提高模型的泛化能力池化层一般分为最大池化和平均池化两种类型
1.1、卷积神经网络7全连接层是神经网络的一种基本层,也称为密集连接层(Denselayer)。该层中的每个神经元都与前一层的每个神经元相连,因此也被称为“全连接”。
1.2、AlexNet8AlexNet是一种经典的深度卷积神经网络,由五个卷积层和三个全连接层组成,它在图像分类任务中具有重要地位AlexNet使用ReLU激活函数来引入非线性特性有助于网络更好地拟合复杂的数据模式。AlexNet在卷积层之间使用LRN进行局部响应归一化有助于抑制特征图的竞争,提高网络的鲁棒性。AlexNet在全连接层中引入了Dropout正则化,以减少过拟合。Dropout在训练时随机关闭一部分神经元,有助于提高模型的泛化能力。AlexNet在训练时使用两个GPU,这是当时的一项创新,加速了训练过程
1.3、ResNet9ResNet是一种深度卷积神经网络架构,其关键创新是引入了残差块(ResidualBlock)或残差连接(ResidualConnection),以有效地解决深度神经网络中的梯度消失问题ResNet-34网络结构ResNet残差块
1.4、案例:基于CNN的手写数字识别10MNIST数据集(MixedNationalInstituteofStandardsandTechnologydatabase)是一个用来训练各种图像处理系统的二进制图像数据集,广泛应用于机器学习中的训练和测试。共有70000张图像,其中训练集60000张,测试集10000张
1.4、案例:基于CNN的手写数字识别11步骤:(1)数据准备通过torchvision.datasets.MNIST加载了MNIST数据集,包括训练数据和测试数据(2)模型定义CNN的自定义卷积神经网络模型。模型包括两个卷积层(conv1和conv2),两个全连接层(out1和out2),以及一个dropout层。在每个卷积层之后都使用了ReLU激活函数,而在全连接层之间也使用了ReLU激活函数。模型的最后一层是一个具有10个输出的全连接层,对应于0到9的数字类别。(3)模型训练train函数用于训练模型(4)模型评估test函数用于评估模型性能AccuracyPrecisionRecall97.40%97.32%97.33%
2、目标检测12目标检测旨在图像中检测并定位一个或多个感兴趣的物体,然后为每个检测到的物体分配一个类别标签深度学习目标检测包括一阶段和二阶段检测算法PascalVOC,ILSVRC,MS-COCO,KITTI数据集是目标检测使用最多的四大公共数据
2.1、两阶段目标检测算法-R-CNN13R-CNN结构是典型的两阶段目标检测框架,由RossGirshick等人在2014年提出R-CNN的提出标志着深度学习方法开始在目标检测领域取得成功包括候选区域生成(第一阶段)和目标分类与边界框回归(第二阶段)。
2.2、两阶段目标检测算法-Faster-RCNN14Faster-RCNN算法是R-CNN系列的目标检测算法,它是在Fast-RCNN算法的基础上对其进行了改进后得到的,用区域生成网络取代了原先的selectivesearch方法,从而将候选框的数目从最初的大约2000个降低到300个,并且候选框的质量也有了显著的改善,可以有效地提升训练