可变形卷积系列(三) Deformable Kernels，创意满满的可变形卷积核 | ICLR 2020

论文提出可变形卷积核(DK)来自适应有效感受域，每次进行卷积操作时都从原卷积中采样出新卷积，是一种新颖的可变形卷积的形式，从实验来看，是之前方法的一种有力的补充。

来源：晓飞的算法工程笔记公众号

论文: Deformable Kernels: Adapting Effective Receptive Fields for Object Deformation

论文地址：//arxiv.org/abs/1910.02940
代码地址：//github.com/hangg7/deformable-kernels

Introduction

传统的卷积由于存在硬性的规则，在对于物体放大或旋转时，不能作出适应性的改变，而可变形卷积则通过改变输入的采样位置来进行适应性的改变，即改变理论感受域。但理论感受域并不能度量像素对输出的贡献，相比理论感受域，更重要的是有效感受域(ERF)，通过计算输出对应输入的偏导获得(与卷积权重相关)，改变理论感受域只是改变有效感受域的一种手段。
为此，论文提出可变形卷积核(Deformable Kernels, DK)，用于进行可变形建模的新型卷积操作，在推理时根据输入直接生成新的卷积核来改变有效感受域。如图 d，DK 学习卷积核的偏移来对原卷积进行重新采样，而不改变输入数据。从实验结果来看，DK 对分类任务和检测任务都十分有效，结合旧的可变形卷积方法能产生更好的结果。

Approach

对有效感受域概念不感兴趣的可以直奔后面对可变形卷积核的描述，前面有效感受域的介绍不影响后面内容。

A Dive into Convolutions

2D Convolution

大小为K\times K，stride 为 1 的二维卷积操作如公式 1，输出为目标区域像素与卷积核乘积的和，\mathcal{K}=[-K/2,K/2]^2。

Theoretical Receptive Field

卷积层单个输出相对于上一层的输入的感受域大小为卷积核大小K\times K，当卷积层叠加起来时，单个输出的对应的隔层感受域也会因此而叠加，得到的叠加区域即理论感受域，与卷积核大小K和网络深度n线性相关。

Effective Receptive Field

由于卷积的叠加以及非线性激活的引入，理论感受域内的像素对输出的贡献各不相同，可以使用有效感受域(ERF)来度量区域内每个像素对输出的影响，通过计算输出对应像素值的偏导得到，具体可以看参考论文。

Analysis on Effective Receptive Fields

这里主要分析如何根据输入和一系列卷积来计算有效感受域，先分析线性卷积网络的情景，再拓展到非线性卷积网络。

对于线性卷积网络，给定I^{(0)}为输入图片以及 stride 为 1 的K\times K卷积权重合集\{W^{(s)}\}_{s=1}^n，公式 1 可以展开为公式 2，特征图I和卷积权重W的上标以及卷积核位置k的下标为层数s\in [1, n]。

根据 ERF 的定义，输出坐标j对应输入坐标i的有效感受域值\mathcal{R}^{(n)}(i;j)=\partial I_j^{(n)} / \partial I_i^{(0)}计算为公式 3，\Bbb{1}[\cdot]为指示函数。公式 3 的意义为所有从i到j的路径的权重和，权重的计算为卷积核权重的累积，有效感受域值跟输出的采样位置j、卷积核位置k以及卷积核权重\{W^{(s)}\}有关。

假设将第m个卷积核W^{(m)}替换为1\times 1卷积核W_{\tilde{k}_m}^{(m)}，ERF 的计算会变为公式 4，S=[1,n]\ m即不包含m层，这里每条路径权重直接乘上W_{\tilde{k}_m}^{(m)}，因为m层只有一个路径，符合指示函数的路径必定包含k_m。

K\times K卷积可以看成分散在矩形区域内的K^2个1\times 1卷积，因此，公式 3 可以改写成公式 5，将m层的K\times K卷积看成多个1\times 1卷积，相对的输出位置也要进行相应的修改(这里应该为j-k_m比较合适)。

对于复杂的非线性卷积，在公式 1 中加入 ReLU 激活得到公式 6，即每层卷积都接激活函数。

非线性版本的有效感受域值计算为上式，因子\mathcal{C}使得 ERF 值变成与数据相关，实际中的有效感受域是不规则的形状，包含许多不规则分布的零值。
需要注意，公式 4 和公式 5 的计算是线性的，使得有效感受域值计算能与内核的线性采样操作兼容，比如使用双线性插值获得小数位置的内核值，即可以认为内核采样等对数据进行线性 ERF 采样(ERF 与输出的采样位置j、卷积核位置k以及卷积核权重\{W^{(s)}\}有关)，这种兼容性也可以相似地推广到非线性的情况下。基于以上的分析，论文提出可变形卷积核(Deformable Kernels, DK)。

Deformable Kernels(DK)

DK 添加了可学习的核偏移值，使得输出的计算从公式 1 变为公式 7，ERF 的计算也变成了与核偏移值相关的公式 8。由于偏移值通常包含小数，使用双线性插值来计算偏移后的值。
原卷积核的大小称为 score size，一般 DK 对 scope size 是没有约束的，即可以从大小为K^{‘}的原卷积中采样出K^2的新卷积，然后用于大小为K^2区域上。这样网络能够尽可能使用更大的原卷积而不会带来太多的额外计算，论文最大的原卷积为9\times 9。

如图 2，DK 有两种实现形式，全局模式和局部模式，\mathscr{G}为可学习的核偏移值生成器，将输入块转换为内核的偏移值：

全局模式\mathscr{G}_{global}的实现为 global average pooling 层 + 全连接层，分别用于降维以及输出2K^2个偏移值。
局部模式\mathscr{G}_{local}的实现为与目标卷积大小一样的卷积操作，输出为2K^2维，最终输出为2K^2\times 1\times 1。

全局模式更关注整体图片，根据整图进行核偏移，而局部模式则更关注图片的局部区域，对于小物体，生成形状特别的核(值差异大)，从而使得 ERF 更密集，而对于大物体，生成较扁平的核(值差异小)，使得 ERF 更广阔。一般情况下，局部模式的自由度更高。

Computation Flow of Deformable Kernels

图 5 展示了局部 DK 的计算示意图，偏移值生成器根据输入生成偏移值，将目标卷积的点均匀平铺在原卷积中，然后根据偏移值进行偏移，使用双线性插值计算偏移后的权重更新目标卷积，最后使用目标卷积对输入进行卷积输出。

前向时，给予原卷积W和学习到的卷积核偏移\{ \Delta k \}，结合双线性插值\mathcal{B}生成目标卷积W^{‘}，然后使用目标卷积对输入进行常规的卷积输出。

DK 的反向传播需要生成 3 种梯度：

前一层特征图的梯度
当前层原生卷积的梯度
当前层偏移值生成器的梯度

前两种的计算方法与普通的卷积一样，第三种则使用公式 13 结合双线性插值的计算方法。

Link with Deformable Convolutions

DK 的核心是学习适应输入的偏移值来原卷积进行采样，从而达到可变形的目的，整体思想可能与可变形卷积类似。

可变形卷积的计算如公式 9，主要是对数据进行偏移，而有效感受域则为公式 10。如前面说到的，有效感受域与输出的采样位置以及卷积核位置有关，这在一定程度上了解释可变形卷积为何适用于学习形状多变的目标。

假设同时对数据和核进行偏移，输出的计算以及有效感受域的计算如公式 11，尽管两种方法的目的是类似的，但在实际中发现，两种方法协作能够带来很好更好的效果。

Experiments

实验主要针对深度卷积(depthwise convolutions)进行优化，内核偏移不能超过越过 score size。基础模型为 ResNet-50-DW 和 MobileNetV2，对比实验加入条件卷积(Conditional Convolutions)和可变形卷积(Deformable Convolutions)的对比。