图灵奖得主,带你详解深度学习(24)

也就是说,卷积网络的第一层先把整个图像分解成11×11的区块,看看每个区块里都是什么结构。

为了避免结构被区块拆散,相邻的区块之间还要有相当大的重叠。经过第一层的过滤,我们看到的就不再是一个个的像素点,而是一张小结构的逻辑图。

然后第二卷积层再从这些小结构上识别出更大、更复杂也更多的结构来。以此类推,一直到第五层。

下面这张图表现了从第一层到第三层识别的模块(灰色)和对应的实例(彩色)。

图灵奖得主,带你详解深度学习

图26/33

图片来自https://datascience.stackexchange.com/questions/17205/feature-extraction-in-convnns-layers-progression

我们看到,第二个卷积层已经能识别圆形之类的结构,第三层已经能识别车轮和小的人脸。

五个卷积层之外,AlexNet还设置了三个全局层,用于识别更大的物体。整个分层的结构是下面这样。

推荐阅读