形象理解深度学习中八大类型卷积

发布时间：2019-02-15 03:18:12 所属栏目：经验来源：AI火箭营

导读：本文总结了深度学习中常用的八大类型的卷积，以非常形象的方式帮助你建立直觉理解，为你的深度学习提供有益的参考。分别是单通道卷积、多通道卷积、3D卷积、1 x 1卷积、转置卷积、扩张卷积、可分离卷积、分组卷积。单通道卷积单通道卷积在深度学习中，

现在，如果我们在方程的两边多重矩阵CT的转置，并使用矩阵与其转置矩阵的乘法给出单位矩阵的属性，那么我们有以下公式CT x Small = Large，如下所示下图。

卷积的矩阵乘法：从小输入图像(2 x 2)到大输出图像(4 x 4)

扩张卷积

标准的离散卷积：

标准卷积

扩张的卷积如下：

当l = 1时，扩张卷积变为标准卷积。

扩张卷积

直观地说，扩张的卷积通过在内核元素之间插入空格来"膨胀"内核。这个附加参数l(扩张率)表示我们想要扩展内核的程度。实现可能会有所不同，但内核元素之间通常会插入l-1个空格。下图显示了l = 1,2和4时的内核大小。

扩张卷积的感受野

观察一个大的感受野，而不增加额外的成本。

在图像中，3×3个红点表示在卷积之后，输出图像具有3×3像素。虽然所有三个扩张的卷积都为输出提供了相同的尺寸，但模型观察到的感受野是截然不同的。对于l = 1，接收域为3 x 3 ，l = 2时为7 x 7 ，对于l = 3，接收领域增加到15 x 15 。有趣的是，与这些操作相关的参数数量基本相同。

可分离卷积

空间可分卷积

空间可分离卷积在图像的2D空间维度上操作，即高度和宽度。从概念上讲，空间可分离卷积将卷积分解为两个单独的操作。对于下面显示的示例，内核(3x3内核)被划分为3x1和1x3内核。

在卷积中，3x3内核直接与图像卷积。在空间可分离的卷积中，3x1内核首先与图像卷积。然后应用1x3内核。在执行相同操作时，这将需要6个而不是9个参数。

此外，在空间上可分离的卷积中需要比卷积更少的矩阵乘法。对于一个具体的例子，在具有3×3内核(stride = 1，padding = 0)的5×5图像上的卷积需要在水平3个位置和垂直3个位置扫描内核，共9个位置，如下图所示。在每个位置，应用9个元素乘法。总共9 x 9 = 81次乘法。

标准卷积

另一方面，对于空间可分离卷积，我们首先在5 x 5图像上应用3 x 1滤波器。我们在水平5个位置和垂直3个位置扫描这样的内核。共5×3 = 15个位置，表示为下面的图像上的点。在每个位置，应用3个元素乘法。那是15 x 3 = 45次乘法。我们现在获得了3 x 5矩阵。此矩阵现在与1 x 3内核进行卷积，内核在水平3个位置和垂直3个位置扫描矩阵。对于这9个位置中的每一个，应用3个元素乘法。此步骤需要9 x 3 = 27次乘法。因此，总体而言，空间可分离的卷积需要45 + 27 = 72乘法，小于标准卷积。

深度可分卷积

深度可分离的旋转包括两个步骤：深度卷积和1x1卷积。

在描述这些步骤之前，值得重新审视我之前部分中讨论的2D卷积和1 x 1卷积。让我们快速回顾一下标准2D卷积。举一个具体的例子，假设输入层的大小为7 x 7 x 3(高x宽x通道)，滤波器的大小为3 x 3 x 3。使用一个滤波器进行2D卷积后，输出层为尺寸为5 x 5 x 1(仅有1个通道)。

标准2D卷积，使用1个滤波器创建1层输出

通常，在两个神经网络层之间应用多个滤波器。假设我们这里有128个过滤器。在应用这128个2D卷积后，我们有128个5 x 5 x 1输出映射。然后我们将这些地图堆叠成一个大小为5 x 5 x 128的单层。通过这样做，我们将输入层(7 x 7 x 3)转换为输出层(5 x 5 x 128)。空间尺寸，即高度和宽度，缩小，而深度延长。

标准2D卷积，使用128个滤波器创建128层输出

现在有了深度可分离的卷积，让我们看看我们如何实现相同的转换。

首先，我们将深度卷积应用于输入层。我们不是在2D卷积中使用尺寸为3 x 3 x 3的单个滤波器，而是分别使用3个内核。每个滤波器的大小为3 x 3 x 1.每个内核与输入层的1个通道进行卷积(仅1个通道，而不是所有通道!)。每个这样的卷积提供尺寸为5×5×1的图。然后我们将这些图堆叠在一起以创建5×5×3图像。在此之后，我们的输出尺寸为5 x 5 x 3.我们现在缩小空间尺寸，但深度仍然与以前相同。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页