MLP-Mixer MLP 換用 CNN 的玩具結果

  • 2021 年 5 月 17 日
  • AI

水私人KPI。

如何評價Google提出的MLP-Mixer:只需要MLP就可以在ImageNet上達到SOTA? 的好奇後果,直接在 patch 後接傳統Conv。

結構

  • torchvision resnet 第一層的 conv 設置成了 kernal size=16, stride=16, out channels = 512 (可以認為第一層 Hidden size = 512 的 patch projector)
  • 剩下的瞎改了改,湊了個和 Res34 差不多的速度

速度

運算速度比 Res34 略慢

參數量

33.4m,作為對比 Res34=21.8m 左右

精度

Best acc = 70.7680 @ Epoch 81

訓練策略

  • 無預訓練
  • 完全按照 torch/examples/imagenet 的訓練策略
  • bs = 1024, lr = 0.2(沒有嚴格按照 linear scale 做縮放)

顯然,還有很多空間可挖。

可視化

第一層 projector 的可視化

作為對比的 Res18 的 7×7(非 torchvision 官方)