MLP-Mixer MLP 換用 CNN 的玩具結果
- 2021 年 5 月 17 日
- AI
水私人KPI。
如何評價Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上達到SOTA? 的好奇後果,直接在 patch 後接傳統Conv。
結構
- torchvision resnet 第一層的 conv 設置成了 kernal size=16, stride=16, out channels = 512 (可以認為第一層 Hidden size = 512 的 patch projector)
- 剩下的瞎改了改,湊了個和 Res34 差不多的速度
速度
運算速度比 Res34 略慢
參數量
33.4m,作為對比 Res34=21.8m 左右
精度
Best acc = 70.7680 @ Epoch 81
訓練策略
- 無預訓練
- 完全按照 torch/examples/imagenet 的訓練策略
- bs = 1024, lr = 0.2(沒有嚴格按照 linear scale 做縮放)
顯然,還有很多空間可挖。
可視化
第一層 projector 的可視化
作為對比的 Res18 的 7×7(非 torchvision 官方)