基本信息
文件名称:常见卷积操作和卷积神经网络.pptx
文件大小:2.05 MB
总页数:26 页
更新时间:2025-06-01
总字数:约3.07千字
文档摘要

常见卷积操作和卷积神经网络;

Part

1;

0、卷积操作的三种模式及输出矩阵尺寸计算(1);

卷积后的输出矩阵的尺寸计算

|W|是输入矩阵宽,w是卷积核的宽,p是padding的数值,默认=0;stride是滑动步幅,默认是1;

分为两种参数情形

1)Valid,无padding,舍弃多出的部分(不足一个窗口),wo下取整

2)Same,有padding,补零,不足一个窗口的部分补够一个窗口,wo上取整

Stride=1时,valid的意思是滑动窗口一直在实际的矩阵内,而没有超出输入矩阵

same的意思是,经过padding,输出尺寸和输入;

1x1卷积;

1x1卷积中,如果输入有多个通道,则相当于降维操作,如下面例子

1x1卷积,主要作用在于:

1)降维。例如,从26*26*6,到26*26;2)增加非线性激励。在输入数据分辨率/尺度不损失的前提下,大幅增加神经网络的非线性特性;

1x1卷积中,如果输入有多个通道,则相当于降维操作,同时提高了神经网络的表达能力。

1x1卷积,主要作用在于:

1)降维。例如,从26*26*192,到26*26*16;1x1卷积是跨通道线性组合,是通道间的信息交互。2)增加非线性激励。只改变通道数,不改变图像的分辨率,大幅增加神经网络的非线性特性;

3)减少权重个数。;

Inceptionv3

ChristianSzegedyetal.RethinkingtheInceptionArchitectureforComputerVision,CVPR2016.;

扩张率=2;

扩张卷积/空洞卷积,增加了神经网络模型的感受野

扩张卷积广泛应用于语义分割和目标检测中,如DeepLabv2等采用了ASPP(金字塔型的空洞池化);

扩张卷积/空洞卷积,

优点:扩大了神经网络模型的感受野,捕获更多上下文信息,尤其对大尺寸的物体分割有用

缺点:1)局部信息丢失,因为kernel不连续,损失了信息的连续性;

2)使得远距离卷积得到的信息之间没有相关性,影响分类结果;

3)存在棋盘问题/网格效应,空洞卷积的结果中,邻近的像素相互之间的依赖减少。反卷积后生成的图像,放大后往往会呈现棋盘外形,深色部分尤为明显。

解决方法之一:确保卷积核能被步长(stride)整除;

反卷积又称为转置卷积或逆卷积,英文为Deconvolution/TransposedConvolution,是一种上采样的方法反卷积是中间填0再卷积;普通的上采样如果用双线性插值,中间填相邻元素的差值

K=W+(W-1)*(stride-1)输入:2x2矩阵(padding为7x7矩阵)经过3x3卷积核输出:5x5矩阵;;

反池化/上池化,Unpooling,专指Maxpooling、Avgpooling等的逆过程。

池化时,保存了最大值在输入数据中的位置信息矩阵;反池化时,将对应位置上的值置为输出矩阵的对应值

而其他元素置0。如2x2池化;

ESPCN只在模型末端进行上采样,可以使得在低分辨率空间保留更多的纹理区域。使用亚像素卷积的方式来进行上采样。r为上采样倍数,c为最终的通道数,若RGB输出c=3。如r=3,c=1,单通道图的3倍上采样图

特征图通道数中连续的c个通道作为一个整体,再然后进行像素重排列,得到多通道的上采样图。

前面都是卷积,只有倒数第二层才是像素重排列,将一个H×W×C·r2的特征图,重排列(顺序交替排列)为一个rH×rW×C的特征图,r个通道作为一组,该组中的像素在一起交替顺序排列,一共有r个这样的组。;

六、分组卷积AlexNet;

逐通道卷积

DepthwiseConvolution的一个卷积核负责一个通道,一个通道只被一个卷积核卷积(如3x3)输出的通道数与输入相同,但是没有利用不同通道在相同空间位置上的特征关系信息

逐点卷积

执行1x1卷积,M为输入通道数,进行单点上的特征提取

深度可分离卷积=逐通道卷积+逐点卷积,前后两个步骤;

常见卷积神经网络讲解从LeNet到ResNet

各种通用的卷积神经网络讲解;;

LeNet(1989):

两个卷积层,两个池化层,