转载

卷积神经网络可视化：以Keras处理猫图片为例

众所周知，在过去几年里，深度学习领域里的很多主要突破都来源于卷积神经网络（CNNs 或者 ConvNets），但对大多数人来说卷积神经网络是一个非常不直观的推断过程。我一直想剖析卷积神经网络的各个部分，看看它在每个阶段的图像处理结果是怎样的，而本篇文章就是我的方法简述。

从高层来看卷积神经网络

首先，卷积神经网络擅长干什么？卷积神经网络主要被用来寻找图像中的特征。你可以通过卷积一幅图像来寻找这些特征。卷积神经网络的前几层能够识别线和角，而后随着我们把神经网络做得更深（层更多），我们能把这些特征在神经网络里继续传递下去，并在神经网络的高层开始识别更复杂的特征。卷积神经网络的这个特性使得它非常擅长图像中的物体识别。

什么是卷积神经网络？

卷积神经网络是一个通常包含几种不同类型层的神经网络，它里面每一层是卷积层、或者池化（Pooling）层、或者激活层，三者之一。

卷积层

为了理解卷积神经网络是什么，你需要理解卷积是如何工作的。想象一下，你有一个由 5x5 的矩阵数组表示的图像，而你有一个 3x3 大小的矩阵，沿着图像滑动这个 3x3 的矩形窗。在 3x3 窗所访问的每个位置，会把当前窗口所覆盖的图像像素值与 3x3 矩形窗中的值进行矩阵乘。这个矩阵乘得到了一个数值，它用来代表图像中那个窗口覆盖下的所有值。为了明晰这个过程，这里有一个非常好的 gif 图：

卷积神经网络可视化：以Keras处理猫图片为例

正如你所看到的，特征矩阵中的每一项对应图像中的一个区域。（注意：核矩阵的值是 gif 图角落里的红色数字。）

那个「访问」完整张图像的「窗口」被称为核（kernel）。核通常是正方形的，而且对于小型图像来说，3x3 是一个相当常见的核尺寸。窗口每次滑动的距离被称为步长（stride）。需要额外说明的是，在做卷积时有时需要在图像的边界外附上一圈零值，用来抑制图像边缘的卷积值（其基本想法是一般情况下的图像中间部分更为重要）。

卷积层的目的是用来滤波。当我们遍历图像时，我们能有效的查看相应图像区域的特征。之所以能做到这一点是因为滤波器，以及许多组成向量的权重值，这些权重值是由卷积的输出结果相乘而来的。当训练一幅图像时，这些权重值会发生变化，所以当到了真实场景中去评估一幅图像时，如果神经网络认为它「看」到了一个以前「看」到过的特征，那么这些权重将会被赋予高值。从各种滤波器得到的这些高权值的组合会使网络能够预测图像的内容。这就是为什么在卷积神经网络结构图中，卷积这步是用一个盒子表示的而不是一个矩形；第三维代表的是滤波器。

卷积神经网络可视化：以Keras处理猫图片为例

AlexNet 的架构

需要注意：

卷积的输出（长和宽）小于原始图像
核与核下面的图像窗口之间做的是一种线性函数运算
滤波器的权值可以通过「看」很多图像来学习得到

池化（pooling）层

池化的操作很像卷积，它们都是采用一个核来遍历整个图像，唯一的不同是用于计算核和图像窗口值的函数不是线性的。

最大池化和平均池化是两种最常用的池化函数。最大池化取当前核覆盖窗口下的图像最大值，而平均池化取核覆盖窗口下对应所有图像值的平均值。

卷积神经网络可视化：以Keras处理猫图片为例

激活层

卷积神经网络中激活层的工作方式与激活层在其他神经网络中的工作过程是完全一致的，即一个值通过函数处理后都被「压缩」到一个特定范围内。这里是一些常用的激活函数：

卷积神经网络可视化：以Keras处理猫图片为例

在卷积神经网络中最常用的激活函数是 ReLU（修正线性单元）。人们喜欢用 ReLU 出于很多种原因，其中最大原因是因为执行起来开销很小，如果当前的数为负：输出值 0；其他情况：输出值为这个数本身。开销低使得它能更快的训练网络。

扼要重述

卷积神经网络三种主要层的类型：卷积（Convolutional）、池化（Pooling）、激活（Activation）
卷积层将图像窗口与核值相乘，随着时间的推移使用梯度下降来优化核权重
池化层使用图像在核窗口下的最大值或平均值来描述该图像的窗口
激活层将核值限定在某个范围内，通常范围是 [0,1] 或 [-1,1]

卷积神经网络看起来是什么样的？

在我们进入主题之前，先来了解一些相关背景。第一个成功的 CNN 应用由 Yann LeCun 于 90 年代实现，他创造了一种叫做 LeNet 的网络，可用于阅读手写数字。从那时起，计算方面的进展以及 GPU 的强大性能助长了研究人员的雄心壮志。2010 年，斯坦福视觉实验室（Stanford Vision Lab）发布了 ImageNet 数据集——包含有 1400 万张带有详细信息标签的图像。这个数据集已成为研究领域中用于比较 CNN 模型的标准之一，而当前世界上最好的模型可以成功检测数据集中 94% 以上的图像。时不时的经常有新模型出现并在检测结果上打败以往的高分模型而且这是一件很了不起的事。2014 年是 GoogLeNet 和 VGGNet，在这之前是 ZF Net。应用于 ImageNet 的第一个切实可行的 CNN 实例是 2012 年的 AlexNet，在此之前，研究人员尝试在 ImageNet 上使用传统的计算机视觉技术，AlexNet 的表现优于之前所有出现过的技术大约 15 个百分点。

不管怎么说，来看看 LeNet 的结构：

卷积神经网络可视化：以Keras处理猫图片为例