WeightNet：从SENet和CondConv得出的高效权值生成结构 | ECCV 2020

论文在权值空间将SENet和CondConv进行了总结，提出统一的框架WeightNet，能够根据样本特征动态生成卷积核权值，并且能通过调节超参数来达到准确率和速度间的trade-off

来源：晓飞的算法工程笔记公众号

论文: WeightNet: Revisiting the Design Space of Weight Networks

论文地址：//arxiv.org/abs/2007.11823
论文代码：//github.com/megvii-model/WeightNet

Introduction

论文提出了一种简单且高效的动态生成网络WeightNet，该结构在权值空间上集成了SENet和CondConv的特点，先通过全局平均池化以及带sigmoid激活的全连接层来获得动态的激活向量(activiation vector)，然后利用激活向量进行后续的特征提取。SENet将激活向量用于加权特征层，而CondConv则将激活向量用于加权候选卷积核参数。
借鉴上面两种方法，WeightNet在激活向量后面添加一层分组全连接，直接产生卷积核的权值，在计算上十分高效，并且可通过超参数的设置来进行准确率和速度上的trade-off。。

WeightNet

Grouped fully-connected operation

在全连接层中，原子是全部连接的，所以全连接层可认为是矩阵计算Y=WX，如图a所示。分组全连接则是将原子分成g组，每组(包含i/g输入和o/g输出)内全部连接，如图b所示。分组全连接操作的一个显著特性就是权值矩阵变成了稀疏的块对角矩阵(block diagonal matrix)，而全连接操作可认为是分组数为1的分组全连接操作。

Rethinking CondConv

CondConv通过m维向量\alpha将m个卷积核进行加权合并得到最终的卷积核，由样本特征动态生成。向量\alpha由全局池化、全连接层W_{fc1}和sigmoid操作\sigma(\cdot)计算：\alpha=\sigma(W_{fc1}\times \frac{1}{hw}{\sum}_{i\in h, j\in w}X_{c,i,j})，\times为矩阵乘法，W_{fc1}\in \mathbb{R}^{m\times C}, \alpha \in \mathbb{R}^{m \times 1}，最终的卷积核权值则由多个候选卷积核与向量\alpha加权所得：W^{‘}=\alpha_1 \cdot W_1 + \alpha_2 \cdot W_2 + \cdots + + \alpha_m \cdot W_m，其中W_i \in \mathbb{R}^{C\times C\times k_h\times k_w}。
我们可以将上述的操作转换为：

W\in \mathbb{R}^{m\times CCk_hk_w}为矩阵拼接后的结果。根据公式1，我们可变相地认为，CondConv的最终卷积核计算可通过在向量\alpha后面添加一层输入为m、输出为C\times C\times k_h\times k_w的全连接层进行输出，这比原本的CondConv实现要高效地多。

Rethinking SENet

SE模块首先根据样本特征动态生成m维向量\alpha，再对m个特征进行加权。向量\alpha由全局池化、两个全连接层、ReLU操作\delta(\cdot)和sigmoid操作\sigma(\cdot)计算：\alpha=\sigma(W_{fc2}\times \delta(W_{fc1}\times \frac{1}{hw}{\sum}_{i\in h, j\in w}X_{c,i,j}))，W_{fc1}\in \mathbb{R}^{C/r\times C}，W_{fc2}\in \mathbb{R}^{C\times C/r}，\times为矩阵乘法。使用两层全连接层主要为了降低整体参数量，由于\alpha为C维向量，使用单层全连接层会带来过多参数。
在获得向量\alpha后，可将其应用在卷积层之前Y_c=W^{‘}_c * (X\cdot \alpha)，也可应用在卷积层之后Y_c=(W^{‘}_c * X)\cdot \alpha，(\cdot)为维度坐标上的乘法。上面的两种实现实际都等价于对权值矩阵W^{‘}_c进行加权：Y_c=(W^{‘}_c \cdot \alpha_c) * X，与公式1不同的是，这里没有进行维度的减少，相当于一个输入为C、输出为C\times C\times k_h\times k_w、分组为C的分组全连接操作。

WeightNet Structure

由上面的分析我们可以看到，分组全连接层的分组数最小为1(CondConv)，最大为输入的维度(SeNet)，所以我们得到了图c的通用分组全连接层。

如表1所示，分组全连接层包含两个超参数M和G，M用来控制输入的维度，G则配合M一起来控制参数量和准确率之间的trade-off。

WeightNet核心模块的结构如图2所示，在生成激活向量\alpha时，为了减少参数量，使用reduction ratio为r的两层全连接：\alpha=\sigma(W_{fc2}\times W_{fc1}\times \frac{1}{hw}{\sum}_{i\in h, j\in w}X_{c,i,j})，W_{fc1}\in \mathbb{R}^{C/r\times C}，W_{fc2}\in \mathbb{R}^{C\times C/r}，r为16，后续的卷积核权值生成则直接使用输入为M\times C、输出为C\times C\times k_h\times k_w、分组为G\times C的分组全连接层。
对于WeightNet中的卷积操作和权值分支的计算量分别为O(hwCCk_h k_w)和O(MCCk_h k_w / G)，而参数量分别为零和O(M/G\times C\times C\times k_h\times k_w)。