MLP-Mixer MLP 换用 CNN 的玩具结果
- 2021 年 5 月 17 日
- AI
水私人KPI。
如何评价Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上达到SOTA? 的好奇后果,直接在 patch 后接传统Conv。
结构
- torchvision resnet 第一层的 conv 设置成了 kernal size=16, stride=16, out channels = 512 (可以认为第一层 Hidden size = 512 的 patch projector)
- 剩下的瞎改了改,凑了个和 Res34 差不多的速度
速度
运算速度比 Res34 略慢
参数量
33.4m,作为对比 Res34=21.8m 左右
精度
Best acc = 70.7680 @ Epoch 81
训练策略
- 无预训练
- 完全按照 torch/examples/imagenet 的训练策略
- bs = 1024, lr = 0.2(没有严格按照 linear scale 做缩放)
显然,还有很多空间可挖。
可视化
第一层 projector 的可视化
作为对比的 Res18 的 7×7(非 torchvision 官方)