121-计算机视觉领域的深度学习模型（一）：AlexNet【萌萌家】.pdf

基本信息

文件名称：121-计算机视觉领域的深度学习模型（一）：AlexNet【萌萌家】.pdf

文件大小：1013.77 KB

总页数：5 页

更新时间：2025-03-14

总字数：约3.33千字

文档摘要

121|计算机视觉领域的深度学习模型（一）：AlexNet

2018-09-07洪亮劼来自北京

《AI技术内参》

我们继续来讨论基于深度学习的计算机视觉技术。从今天开始，我们进入一个新的模块，我会

结合几篇经典的论文，给你介绍几个专门为计算机视觉而提出来的深度学习模型。这些模型都

在最近几年的深度学习发展中，起到了至关重要的作用。

我们这个系列要分享的第一篇论文题目是《基于深度卷积神经网络的图像网络分类》

（ImageNetClassificationwithDeepConvolutionalNeuralNetwork）[1]。因为这篇文

章的第一作者名字叫Alex，所以文章提出的模型也经常被称为AlexNet。

那接下来我们就先介绍一下这篇论文的作者群。

第一作者就是亚力克斯·克里切夫斯基（AlexKrizhevsky）。发表这篇论文的时候他在多伦多

大学计算机系攻读博士学位；之后的2013~2017年间在谷歌任职，继续从事深度学习的研

究。

第二作者叫伊利亚·苏兹克维（IlyaSutskever）。发表这篇论文的时候，苏兹克维也在多伦多

大学计算机系攻读博士学位；之后到斯坦福大学跟随吴恩达做博士后研究。2013~2015年

间，他在谷歌担任研究科学家一职。2016年之后，他参与共同创立了OpenAI并且担任研究

总监这一职位。苏兹克维在深度学习方面已经发表了很多篇论文，目前论文的引用数已经超过

7万次。

最后一位作者是杰弗里·辛顿（GeoffreyHinton）。对于辛顿，我们就比较熟悉了，他是多伦

多大学计算机系的教授，是机器学习，特别是深度学习的学术权威。可以说，几十年来，辛顿

都在以神经网络为代表的深度学习领域深耕，即便是在其他学术思潮涌动的时候，他都能够坚

持在深度学习这一领域继续钻研，这种精神让我们钦佩。

论文的主要贡献

如何来描述这篇论文的主要贡献呢？简而言之，这篇论文开启了深度学习在计算机视觉领域广

泛应用的大门。通过这篇论文，我们看到了深度学习模型在重要的计算机视觉任务上取得了非

常显著的效果。

具体来说，在ImageNet2012年的比赛中，文章提到的模型比第二名方法的准确度要高出十

多个百分点。能够达到这个效果，得益于在模型训练时的一系列重要技巧。这篇论文训练了到

当时为止最大的卷积神经网络，而这些技巧使得训练大规模实用级别的神经网络成为可能。

论文的核心方法

要了解AlexNet的一些核心方法，我们就需要简单提一下ImageNet竞赛的数据集。这个数

据集在当时有大约120万张训练图片，5万张验证图片和15万张测试图片。这些图片属于

1000个类别。这个数据集在当时来说应该算是无可争议的大型数据集。为了能够方便地处理

这些图片，作者们把所有图片的分辨率都重新调整到了“256*256”。AlexNet直接在这些图

片的RGB像素点上进行建模。

整个模型的架构是怎样的呢？AlexNet一共包含8层网络结构，5层全联通层（也就是前馈神

经网络）。这8层网络架构总体来说是逐渐变小的一个趋势，也就是说每一层提取的信息越来

越呈现高度的概括性。

那么在整个架构中，这篇文章提出的模型有哪些独到之处呢？

第一，AlexNet采用了“线性整流函数”（ReLu）来作为激活函数。虽然这个选择在今天看

来可以说是非常平常，甚至已经成为了神经网络建模的默认选项。但这个选择在当时还是很大

胆的一种创新。这个创新带来了训练时间的大幅度减少，同时还能保持，甚至提升了模型性

能。

第二，整个模型的训练大量采用了GPU，并且使用了多个GPU来进行计算。这一点就在速

度上和模型的大小上彻底解放了模型的选择。以前仅仅利用单个GPU的方式，没办法把所有

的训练数据都放入一个GPU上。

第三，作者们介绍了一种叫作“局部响应归一化”（LocalResponseNormalization）的方

法来对每层之间的单元进行归一。

如何进行最有效的归一，以及这些归一化有什么作用，这些问题一直都是深度学习研究面临的

重要课题。从实际的使用上来看，这种局部响应归一化的方法在几年之后让位给了其他更为主

流的归一方法。但是从这一个技术要点来看，我们要想把深度学习模型真正应用到实际场景任

务中，归一化是一个必不可少的组件。

第四，作者们在AlexNet里面使用了所谓的“重叠池化”（OverlappingPooling）这种方

法。在普通的卷积神经网络中，“池化”的作用是从周围的单元中总结出必要的信息。一般来

说，池化的过程中，并不重复覆