卷积神经网络介绍(CNN)- 3 总结

winterSky 2024-03-17 AM 668℃ 0条

2024-03-16T20:39:10.png

卷积神经网络(CNN)

卷积神经网络(CNN)是一种深度学习架构,广泛应用于图像处理、视觉识别等领域。它包括以下几个核心组成部分:

  • INPUT(输入层):接收原始图像数据,如32 32 3的RGB图像。
  • CONV(卷积层):使用卷积核提取图像特征。
  • RELU(激活函数):引入非线性因素,提高模型的表达能力。
  • POOL(池化层):压缩特征,降低维度。
  • FC(全连接层):将学到的“特征”映射到样本的标记空间。

卷积层(CONV)

卷积层的主要作用是特征提取。主要参数包括:

  • 滑动窗口步长:控制卷积核移动的步长。
  • 卷积核尺寸:定义了卷积核的大小,如5 5 3。
  • 填充边缘(Padding):在图像边缘添加零,以允许卷积核覆盖边缘像素。
  • 卷积核个数:定义了将要提取的特征数量。

通过卷积操作,可以得到特征图,如使用10个5 5 3的卷积核得到32 32 10的特征图。

参数共享

参数共享机制允许CNN减少模型参数量,每个卷积核对应的参数在整个输入图像上共享。

池化层(POOL)

池化层用于降低特征图的维度,常见操作包括最大值池化、均值池化等。这一步骤有助于减少计算量并提高模型的泛化能力。

激活函数(RELU)

激活函数为网络引入非线性,使得CNN能够学习复杂的函数。常用的激活函数包括:

  • Sigmoid:将输入映射到0,1之间。
  • Tanh:将输入映射到-1和1之间,优于Sigmoid函数。
  • ReLU:当前最常用的激活函数,ReLU = max(0,x)

全连接层(FC)

全连接层将前面层次提取的所有特征结合起来,进行分类或回归。每个神经元与前一层的所有输出连接,整合了卷积层和池化层的信息。

全连接层像是一个“蚂蚁大会”,其中每个蚂蚁(神经元)贡献其观察到的信息,共同决定最终的分类结果。如果已知全局信息,则可能不需要全连接层。

参考链接

通过这些组成部分,CNN能够自动地从图像中学习特征,并用于执行分类、检测等任务。


其他有影响力的卷积神经网络架构

卷积神经网络(ConvNets 或 CNNs)自20世纪90年代初期以来已经出现,并经历了多次重要的发展和变革。以下是一些在CNN发展史上具有重要影响的架构:

LeNet (1990s)

  • 已在本文中介绍。是最早的卷积神经网络之一,主要用于手写数字识别。

1990年代到2012年

  • 在这段时期,卷积神经网络处于孵化期。随着数据和计算能力的增长,CNN能够处理的任务变得更加多样和复杂。

AlexNet (2012)

  • Alex Krizhevsky(及其合作者)发布的AlexNet标志着CNN的一个重大突破,它是LeNet的更深、更宽版本,并在2012年的ImageNet大规模视觉识别挑战(ILSVRC)中取得显著胜利。

ZF Net (2013)

  • 由Matthew Zeiler和Rob Fergus开发的ZFNet(Zeiler & Fergus Net)在ILSVRC 2013中获胜,是对AlexNet架构超参数进行调整的改进。

GoogLeNet (2014)

  • 由Szegedy等人开发的GoogLeNet在ILSVRC 2014中获胜,引入了Inception模块,大大减少了网络中的参数数量(4M,相较于AlexNet的60M)。

VGGNet (2014)

  • VGGNet是ILSVRC 2014的亚军,由Simonyan和Zisserman开发,证明了网络深度(层数)是实现良好性能的关键因素。

ResNets (2015)

  • 由Kaiming He等人开发的残差网络(ResNets)在ILSVRC 2015中获胜,它引入了残差学习框架来促进更深网络的训练,是当今使用ConvNets的默认选择之一。

DenseNet (2016)

  • 由Gao Huang等人提出的DenseNet(密集连接卷积网络),其特点是网络的每一层都与之前的所有层直接连接,这一架构在多个竞争激烈的对象识别任务中显示出了显著的性能提升。
标签: none

非特殊说明,本博所有文章均为博主原创。

评论啦~