经典热门网络结构

发表于 2025/08/07 更新于 2025/12/14

作者 deathwhispers

40 分钟阅读

经典热门网络结构

经典网络

1.1 LeNet

1.1.1 模型介绍

LeNet-5是由 LeCun 提出的一种用于识别手写数字和机器印刷字符的卷积神经网络（Convolutional Neural Network，CNN）$^{[1]}$ ，其命名来源于作者 LeCun 的名字，5则是其研究成果的代号，在LeNet-5之前还有LeNet-4和LeNet-1鲜为人知。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取，同时使用卷积、下采样（池化）和非线性映射这样的组合结构，是当前流行的大多数深度图像识别网络的基础。

1.1.2 模型结构

网络结构非常简单，一共有五层（仅包含有参数的层，无参数的池化层不算在网络模型之中）：

输入尺寸： $32×32$
卷积层：2个
池化层：2个
全连接层：2个
输出层：1个，大小为 $10×1$

1.1.3 模型特性

卷积网络使用一个3层的序列组合：卷积、下采样（池化）、非线性映射（LeNet-5最重要的特性，奠定了目前深层卷积网络的基础）
使用卷积提取空间特征
使用映射的空间均值进行下采样
使用 $tanh$ 或 $sigmoid$ 进行非线性映射
多层神经网络（MLP）作为最终的分类器
层间的稀疏连接矩阵以避免巨大的计算开销

1.2 AlexNet

1.2.1 模型介绍

AlexNet是由 Alex Krizhevsky 提出的首个应用于图像分类的深层卷积神经网络，该网络在2012年ILSVRC（ImageNet Large Scale Visual Recognition Competition）图像分类竞赛中以15.3%的 top-5 测试错误率赢得第一名$^{[2]}$。AlexNet使用GPU代替CPU进行运算，使得在可接受的时间范围内模型结构能够更加复杂，它的出现证明了深层卷积神经网络在复杂模型下的有效性，使CNN在计算机视觉中流行开来，直接或间接地引发了深度学习的热潮。

1.2.2 模型结构

AlexNet和LeNet的整体结构还是非常类似的，都是一系列的卷积池化操作最后接上全连接层。该网络一共有8层（不包括池化）。

输入尺寸： 227×227×3
卷积层：5个
池化层：3个
全连接层：2个
输出层：1个，大小为 1000×1

1.2.3 模型特性

使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题，此外，加快了训练速度，因为训练网络使用梯度下降法，非饱和的非线性函数训练速度快于饱和的非线性函数。虽然ReLU激活函数在很久之前就被提出了，但是直到AlexNet的出现才将其发扬光大。
训练时使用Dropout随机忽略—部分神经元，以避免模型过拟合。Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。
在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小，这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。
提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。此方法在之后的VGG中被认为是无效的。
使用CUDA加速深度卷积网络的训练，利用GPU强大的并行计算能力，处理神经网络训练时大量的矩阵运算。AlexNet使用了两块GTX580GPU进行训练，单个GTX580只有3GB显存，这限制了可训练的网络的最大规模。因此作者将AlexNet分布在两个GPU上，在每个GPU的显存中储存一半的神经元的参数。
数据增强，随机地从$256×256$ 的原始图像中截取$224×224$大小的区域(以及水平翻转的镜像），相当于增加了 $(256×224)2×2=2048$ 倍的数据量。如果没有数据增强，仅靠原始的数据量，参数众多的CNN会陷入过拟合中，使用了数据增强后可以大大减轻过拟合，提升泛化能力。进行预测时，则是取图片的四个角加中间共5个位置，并进行左右翻转，一共获得10张图片，对他们进行预测并对10次结果求均值。

1.3 ZFNet

1.3.1 模型介绍

ZFNet是由 Matthew D.Zeiler 和 Rob Fergus 在AlexNet基础上提出的大型卷积网络，在2013年ILSVRC图像分类竞赛中以11.19%的错误率获得冠军（实际上原ZFNet所在的队伍并不是真正的冠军，原ZFNet以13.51%错误率排在第8，真正的冠军是 Clarifai 这个队伍，而 Clarifai 这个队伍所对应的一家初创公司的CEO又是 Zeiler，而且 Clarifai 对ZFNet的改动比较小，所以通常认为是ZFNet获得了冠军）$^{[3-4]}$。ZFNet实际上是微调（fine-tuning）了的AlexNet，并通过反卷积（Deconvolution）的方式可视化各层的输出特征图，进一步解释了卷积操作在大型网络中效果显著的原因。

1.3.2 模型结构

ZFNet的网络结构和AlexNet的结构基本是一致的，主要的改变就是在AlexNet的第一层将卷积核的大小由 11×11 变成了 7×7,并且将步长 s 由 4 变成了 2 。虽然模型改动较小，但是ZFNet的贡献在于提出了一种逆变换的思想来可视化了神经网络，将卷积核变小也是因为可视化而产生的结论，即小卷积核使网络效果更好。

1.3.3 模型特性

可视化技术揭露了激发模型中每层单独的特征图。
可视化技术允许观察在训练阶段特征的演变过程且诊断出模型的潜在问题。
可视化技术用到了多层解卷积网络，即由特征激活返回到输入像素空间。
可视化技术进行了分类器输出的敏感性分析，即通过阻止部分输入图像来揭示那部分对于分类是重要的。
可视化技术提供了一个非参数的不变性来展示来自训练集的哪一块激活哪个特征图，不仅需要裁剪输入图片，而且自上而下的投影来揭露来自每块的结构激活一个特征图。
可视化技术依赖于解卷积操作，即卷积操作的逆过程，将特征映射到像素上。

1.4 Network in Network

1.4.1 模型介绍

Network In Network (NIN)是由 $Min Lin$ 等人提出，在CIFAR-10和CIFAR-100分类任务中达到当时的最好水平，因其网络结构是由三个多层感知机堆叠而被成为NIN $^{[5]}$ 。NIN以一种全新的角度审视了卷积神经网络中的卷积核设计，通过引入子网络结构代替纯卷积中的线性映射部分，这种形式的网络结构激发更复杂的卷积神经网络的结构设计，下面介绍的GoogLeNet的Inception结构就是来源于这个思想。

1.4.2 模型结构

NIN由三层的多层感知卷积层（MLPConv Layer）构成，每一层多层感知卷积层内部由若干层的局部全连接层和非线性激活函数组成，代替了传统卷积层中采用的线性卷积核。在网络推理（inference）时，这个多层感知器会对输入特征图的局部特征进行滑窗计算，并且每个滑窗的局部特征图对应的乘积的权重是共享的，这两点是和传统卷积操作完全一致的，最大的不同在于多层感知器对局部特征进行了非线性的映射，而传统卷积的方式是线性的。

1.4.3 模型特性

使用多层感知机结构来代替卷积的滤波操作，不但有效减少卷积核数过多而导致的参数量暴涨问题，还能通过引入非线性的映射来提高模型对特征的抽象能力。
使用全局平均池化来代替最后一个全连接层，能够有效地减少参数量（没有可训练参数），同时池化用到了整个特征图的信息，对空间信息的转换更加鲁棒，最后得到的输出结果可直接作为对应类别的置信度。

1.5 VGGNet

1.5.1 模型介绍

VGGNet是由牛津大学视觉几何小组（Visual Geometry Group, VGG）提出的一种深层卷积网络结构，他们以7.32%的错误率赢得了2014年ILSVRC分类任务的亚军（冠军由GoogLeNet以6.65%的错误率夺得）和25.32%的错误率夺得定位任务（Localization）的第一名（GoogLeNet错误率为26.44%）$^{[5]}$ ，网络名称VGGNet取自该小组名缩写。VGGNet是首批把图像分类的错误率降低到10%以内模型，同时该网络所采用的 $3\times3$ 卷积核的思想是后来许多模型的基础，该模型发表在2015年国际学习表征会议（International Conference On Learning Representations, ICLR）。

1.5.2 模型结构

在原论文中的VGGNet包含了6个版本的演进，分别对应VGG11、VGG11-LRN、VGG13、VGG16-1、VGG16-3和VGG19，不同的后缀数值表示不同的网络层数（VGG11-LRN表示在第一层中采用了LRN的VGG11，VGG16-1表示后三组卷积块中最后一层卷积采用卷积核尺寸为 $1\times1$ ，相应的VGG16-3表示卷积核尺寸为 $3\times3$ ）。

1.5.3 模型特性

整个网络都使用了同样大小的卷积核尺寸 $3\times3$ 和最大池化尺寸 $2\times2$。
$1\times1$ 卷积的意义主要在于线性变换，而输入通道数和输出通道数不变，没有发生降维。
两个 $3\times3$ 的卷积层串联相当于1个 $5\times5$ 的卷积层，感受野大小为 $5\times5$。同样地，3个 $3\times3$ 的卷积层串联的效果则相当于1个 $7\times7$ 的卷积层。这样的连接方式使得网络参数量更小，而且多层的激活函数令网络对特征的学习能力更强。
VGGNet在训练时有一个小技巧，先训练浅层的的简单网络VGG11，再复用VGG11的权重来初始化VGG13，如此反复训练并初始化VGG19，能够使训练时收敛的速度更快。
在训练过程中使用多尺度的变换对原始数据做数据增强，使得模型不易过拟合。

1.6 GoogLeNet

1.6.1 模型介绍

GoogLeNet作为2014年ILSVRC在分类任务上的冠军，以6.65%的错误率力压VGGNet等模型，在分类的准确率上面相比过去两届冠军ZFNet和AlexNet都有很大的提升。从名字GoogLeNet可以知道这是来自谷歌工程师所设计的网络结构，而名字中GoogLeNet更是致敬了LeNet。GoogLeNet中最核心的部分是其内部子网络结构Inception，该结构灵感来源于NIN，至今已经经历了四次版本迭代（$Inception_{v1-4}$）。

1.6.2 模型结构

GoogLeNet相比于以前的卷积神经网络结构，除了在深度上进行了延伸，还对本网的宽度进行了扩展，整个网络由许多块状子网络的堆叠而成，这个子网络构成的Inception结构。

$Inception{v1}$* 在同一层中采用不同的卷积核，并对卷积结果进行合并;*

*$Inception{v2}$ 组合不同卷积核的堆叠形式，并对卷积结果进行合并;

$Inception{v3}$* 则在 $v_2$ 基础上进行深度组合的尝试;*

$Inception{v4}$ 结构相比于前面的版本更加复杂，子网络中嵌套着子网络。

1.6.3 模型特性

采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合；
之所以卷积核大小采用1、3和5，主要是为了方便对齐。设定卷积步长stride=1之后，只要分别设定pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了；
网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3×3 和 5×5 卷积的比例也要增加。但是，使用5×5 的卷积核仍然会带来巨大的计算量。为此，文章借鉴NIN2，采用 1×1 卷积核来进行降维。

1.7 ResNet

1.7.1 模型介绍

$ResNet^{[12]}$ 是何凯明团队于2015年提出的一种网络；作为2015年ILSVRC比赛冠军，在分类识别定位等各个赛道碾压之前的各种网络。在ResNet提出之前，深度学习网络中普遍存在的问题——随着网络层数的加深，网络训练结果并不能得到提升，反而会发生下降的问题，这种现象被称之为网络退化问题。当发生网络退化问题后，人们一度认为深度学习就到这里为止了，直到ResNet的出现才解决了这一问题。ResNet使得网层数可以无限堆叠，对深度学习发展产生了非常深远的影响。

1.7.2 模型结构

ResNet论文中结构有18层、34层、50层、101层和152层，比较常用的ResNet深度是50层、101层和152层。

1.7.3 模型特性

容易优化，并且能够通过增加相当的深度来提高准确率。
内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。
提出了一种bottleneck的结构块来代替常规的Resedual block。
使用较少池化层,大量采用下采样,提高传播效率。

1.8 DenseNet

1.8.1 模型介绍

DenseNet(Dense Convolutional Network)$^{[13]}$ 由Gao Huang等人于2016年提出，获得了 CVPR 2017年的 Oral ，对于每一层，前面所有层的特征映射作为输入，并将特征映射作为后续所有层的输入；它缓解了消失梯度问题，加强了特征传播，鼓励了特征重用，并大大减少了参数量；

1.8.2 模型结构

为确保网络中各层之间的信息流动最大化，将所有层(具有匹配的特征图大小)直接连接起来；每一层从所有前面的层获得额外的输入，并将自己的特征映射传递给所有后面的层；在传统的 $L$ 层网络中引入了 $L$ 连接，而在 DenseNet 中引入了$L(L+1) / 2$连接。

1.8.3 模型特性

缓解了梯度消失的问题。
加强了特征的传播，鼓励重复利用特征。
巨大减少了参数个数。
具有正则化的效果，即使在较少的训练集上，也可以减少过拟合的现象。

参考文献

[1] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, november 1998.

[2] A. Krizhevsky, I. Sutskever and G. E. Hinton. ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems 25. Curran Associates, Inc. 1097–1105.

[3] LSVRC-2013. http://www.image-net.org/challenges/LSVRC/2013/results.php

[4] M. D. Zeiler and R. Fergus. Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.

[5] M. Lin, Q. Chen, and S. Yan. Network in network. Computing Research Repository, abs/1312.4400, 2013.

[6] K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. International Conference on Machine Learning, 2015.

[7] Bharath Raj. a-simple-guide-to-the-versions-of-the-inception-network, 2018.

[8] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alex Alemi. Inception-v4, Inception-ResNet and
the Impact of Residual Connections on Learning, 2016.

[9] Sik-Ho Tsang. review-inception-v4-evolved-from-googlenet-merged-with-resnet-idea-image-classification, 2018.

[10] Zbigniew Wojna, Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens. Rethinking the Inception Architecture for Computer Vision, 2015.

[11] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. Going deeper with convolutions, 2014.

[12]Kaiming He, Xiangyu Zhang, Shaoqing Ren, & Jian Sun (2015). Deep Residual Learning for Image Recognition arXiv: Computer Vision and Pattern Recognition.

[13]Gao Huang, Zhuang Liu, Laurens van der Maaten, & Kilian Q. Weinberger (2016). Densely Connected Convolutional Networks computer vision and pattern recognition.

[14]Forrest Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, & Kurt Keutzer (2016). SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size arXiv: Computer Vision and Pattern Recognition.

[15]Amir Gholami, Ki-seok Kwon, Bichen Wu, Zizheng Tai, Xiangyu Yue, Peter H. Jin, Sicheng Zhao, & Kurt Keutzer (2018). SqueezeNext: Hardware-Aware Neural Network Design computer vision and pattern recognition.

[16]Andrew Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, M. Andreetto, & Hartwig Adam (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications arXiv: Computer Vision and Pattern Recognition.

[17]Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, & Liang-Chieh Chen (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks computer vision and pattern recognition.

[18]Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, & Jian Sun (2018). ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices computer vision and pattern recognition.

[19]Ningning Ma, Xiangyu Zhang, Hai-Tao Zheng, & Jian Sun (2018). ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design european conference on computer vision.

[20]François Chollet (2017). Xception: Deep Learning with Depthwise Separable Convolutions computer vision and pattern recognition.

[21]Kai Han, Yunhe Wang, Qi Tian, Jianyuan Guo, Chunjing Xu, & Chang Xu (2019). GhostNet: More Features from Cheap Operations computer vision and pattern recognition.

计算机视觉

NetworkStructure AI

本文由作者按照 CC BY 4.0 进行授权

经典网络

1.1 LeNet

1.1.1 模型介绍

1.1.2 模型结构

1.1.3 模型特性

1.2 AlexNet

1.2.1 模型介绍

1.2.2 模型结构

1.2.3 模型特性

1.3 ZFNet

1.3.1 模型介绍

1.3.2 模型结构

1.3.3 模型特性

1.4 Network in Network

1.4.1 模型介绍

1.4.2 模型结构

1.4.3 模型特性

1.5 VGGNet

1.5.1 模型介绍

1.5.2 模型结构

1.5.3 模型特性

1.6 GoogLeNet

1.6.1 模型介绍

1.6.2 模型结构

1.6.3 模型特性

1.7 ResNet

1.7.1 模型介绍

1.7.2 模型结构

1.7.3 模型特性

1.8 DenseNet

1.8.1 模型介绍

1.8.2 模型结构

1.8.3 模型特性

热门轻量化网络

GhostNet

1 模型介绍

2 模型结构

3 模型特性

MobileNet

1 模型介绍

2 模型结构

3 MobileNet V2中的bottleneck为什么先扩张通道数在压缩通道数呢？

ShuffleNet

1 模型介绍

2 模型结构

2.1 SqueezeNet&SqueezeNext

2.1.1 模型介绍

2.1.2 模型结构

SqueezeNet

2.1.3 模型特性

Xception

1 模型介绍

2 模型结构

3 模型特性

3. 使用深度可分离卷积的轻量化神经网络创新点对比

参考文献

热门标签