CNN可視化技術總結（一）-特徵圖可視化

CNN可視化技術總結（一）–特徵圖可視化

2021 年 1 月 26 日
筆記

導言：

在CV很多方向所謂改進模型，改進網路，都是在按照人的主觀思想在改進，常常在說CNN的本質是提取特徵，但並不知道它提取了什麼特徵，哪些區域對於識別真正起作用，也不知道網路是根據什麼得出了分類結果。

如在上次解讀的一篇論文《Feature Pyramid Transformer》(簡稱FPT）中，作者提出背景資訊對於識別目標有重要作用，因為電腦肯定是在桌上，而不是水裡，大街上，背景中的鍵盤滑鼠的存在也能輔助區分電腦與電視機，因此作者提出要使用特徵金字塔融合背景資訊。從人的主觀判斷來看，這點非常合理。但對於神經網路來說，FPT真的有融合背景資訊，而普通CNN網路沒有融合背景資訊？又或者說，一般而言，除了提出的新模型，還會加上主觀設計的各種tricks，確定最後是因為融合了背景資訊而精度提高了，還是說背景確實融合了，但實際上對精度沒有影響，而是各種tricks起了作用？這一切並不確定，因為並不確定CNN到底學到了什麼。

解決這個問題的辦法有很多，一個是想辦法看看CNN內部學到了什麼,一個是控制變數法。提到這個控制變數法，在某一篇論文中（我對不起我的讀者，論文累積量太大，忘記是哪一篇，只記得該論文的一些新穎之處），在設計了一個新的模型後，通過改變卷積層的某些通道，來看最後模型的精度的變化，從而確定哪些通道對這個模型是真正起作用的，而哪些是冗餘的。按照這個思路，我們或許可以在數據預處理時，故意裁剪掉人主觀認為有用的背景資訊，例如裁剪輔助識別電腦的桌子，鍵盤滑鼠，重新訓練FPT，從而看最終精度有沒有影響。很明顯，這種方法理論上是可行的，但實際上工作量巨大，不現實。而CNN可視化是值得考慮的方法。

除了上面提到的一點，CNN的作用還有哪些？

在少數提出新模型或新methods的論文中，往往會給出這個模型的一些可視化圖來證明這個模型或這個新methods對於任務的作用，這一點不僅能增加新模型或新methods可信度，也能起到增加工作量，增加論文字數的作用，如研究者想到一個method，一兩頁就介紹加推理加證明完了，效果明顯，但作為一篇論文卻字數太少，工作量不夠多，就可以考慮可視化使用了這個methods的網路與沒有使用這個methods的網路，進行對比，分析分析，就可以變成一篇完整的論文了。此外，CNN可視化還有一個作用，根據可視化某個網路的結果分析其不足之處，從而提出新的改進方法。例如：ZFNet正是對AlexNet進行可視化後改進而來，獲得了ILSVRC2014的冠軍。

CNN可視化方法

一、特徵圖可視化。特徵圖可視化有兩類方法，一類是直接將某一層的feature map映射到0-255的範圍，變成影像，但這樣。另一類是使用一個反卷積網路（反卷積、反池化）將feature map變成影像，從而達到可視化feature map的目的。

二、卷積核可視化。

三、類激活可視化。這個主要用於確定影像哪些區域對識別某個類起主要作用。如常見的熱力圖（Heat Map），在識別貓時，熱力圖可直觀看出影像中每個區域對識別貓的作用大小。這個目前主要用的方法有CAM系列（CAM、Grad-CAM、Grad-CAM++）。

四、一些技術工具。通過一些研究人員開源出來的工具可視化CNN模型某一層。

CNN技術總結將按照這四個方法，分成四個部分總結CNN可視化技術。對於以後出現新的技術，或者補充，將更新在公眾號CV技術指南的技術總結部分。在本文，主要介紹第一類方法，特徵圖可視化。

直接可視化

單通道特徵圖可視化，由於feature map並不是在0-255範圍，因此需要將其進行歸一化。以pytorch為例，使用torchvision.utils.make_grid()函數實現歸一化

def make_grid(tensor, nrow=8, padding=2, 
             normalize=True, range=None, 
              scale_each=False,pad_value=0):

多通道特徵圖的顯示，即對某一層所有通道上的特徵圖融合顯示，在使用make_grid函數後，pytorch環境下可使用tensorboardX下的SummerWriterh中的add_image函數。

本部分內容參考鏈接：//zhuanlan.zhihu.com/p/607539

反卷積網路deconvnet

feature map可視化的另一種方式是通過反卷積網路從feature map變成影像。反卷積網路在論文《Visualizing and Understanding Convolutional Networks》中提出，論文中提出影像像素經過神經網路映射到特徵空間，而反卷積網路可以將feature map映射回像素空間。

如下圖所示，反卷積網路的用途是對一個訓練好的神經網路中任意一層feature map經過反卷積網路後重構出像素空間，主要操作是反池化unpooling、修正rectify、濾波filter，換句話說就是反池化，反激活，反卷積。

由於不可能獲取標籤數據，因此反卷積網路是一個無監督的，不具備學習能力的，就像一個訓練好的網路的檢測器，或者說是一個複雜的映射函數。

反池化Unpooling

在上一篇文章《池化技術總結》中提到最大池化會記錄最大值的坐標，在上圖中就是switches,而反池化就只需要將最大值放到原位置，而其他位置的值並不知道，直接置零。如下圖所示。

修正Rectification

CNN使用ReLU確保feature map上的值都是正的，因此在反卷積中也使用ReLU。這裡所謂Rectification其實就是讓unpooling後的值都是正的，換句話說就是使用ReLU。

Filtering

Filtering指的是反卷積，具體操作就是使用原網路的卷積核的轉置作為卷積核，對Rectification後的輸出進行卷積。

註：在以上重構過程中沒有使用對比歸一化操作。

反卷積網路特徵可視化結果

導向反向傳播

在論文《Striving for Simplicity：The All Convolutional Net》中提出使用導向反向傳播（Guided- backpropagation），導向反向傳播與反卷積網路的區別在於對ReLU的處理方式。在反卷積網路中使用ReLU處理梯度，只回傳梯度大於0的位置，而在普通反向傳播中只回傳feature map中大於0的位置，在導向反向傳播中結合這兩者，只回傳輸入和梯度都大於0的位置，這相當於在普通反向傳播的基礎上增加了來自更高層的額外的指導訊號，這阻止了負梯度的反傳流動，梯度小於0的神經元降低了正對應更高層單元中我們想要可視化的區域的激活值。

使用導向反向傳播與反卷積網路的效果對比

明顯使用導向反向傳播比反卷積網路效果更好。

總結：分析反卷積網路的對各層feature map可視化的結果可知，CNN中會學到影像中的一些主要特徵，如狗頭，鼻子眼睛,紋理，輪廓等內容。但對特徵圖可視化有個明顯的不足，即無法可視化影像中哪些區域對識別具體某個類別的作用，這個主要是使用CAM系列的方法，會在第三篇文章中介紹。下一篇將介紹可視化卷積核的方法。將放在公眾號的技術總結部分。

參考論文：

《Visualizing and Understanding Convolutional Networks》

《Striving for Simplicity：The All Convolutional Net》

本文來源於公眾號《CV技術指南》的技術總結部分，更多相關技術總結請掃描文末二維碼關注公眾號。