CVPR2020 | 即插即用!語義分割網絡用上雙邊超分辨率,效果喜人!
- 2020 年 6 月 16 日
- AI
論文地址://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Dual_Super-Resolution_Learning_for_Semantic_Segmentation_CVPR_2020_paper.pdf
這項工作利用低分辨率的輸入圖像通過超分辨率網絡生成高分辨率的圖像,從而給語義分割模型提供額外的信息進而分割性能,其FA模塊和視覺注意力機制比較類似,而且它額外增加的模塊在部署階段可以去掉,幾乎不會增加計算量,是一種提高分辨率的有效策略。
現當前最先進的語義分割方法通常使用高分辨率輸入來獲得高性能,這帶來了巨大的計算量,並限制了它們嵌入式等計算資源受限設備上的應用。本文提出了靈活而簡單的雙支路網絡框架(DSRL)可以很好地提高網絡精度的同時不引入額外的計算量。
該方法由三部分組成:語義分割超分辨率(SSSR),單圖像超分辨率(SISR)和特徵相似性(FA)模塊,可以保持高分辨率表示和低分辨率輸入,同時降低模型計算的複雜性。此外,它可以容易地推廣到其他任務,例如人體姿勢估計。對於CityScapes數據集上的語義分割任務,該方法可以在具有相似FLOP的情況下實現mIoU≥2%的提高,並保持70%FLOP的性能。對於人體姿勢估計,該方法可以在相同的FLOP情況下獲得≥2%的mAP,並在FLOP減少30%的情況下保持mAP。
對於語義分割這類逐像素的任務而言,同時保持高效的推理速度和出色的性能是一個挑戰,尤其是在計算資源有限的移動設備上。在語義分割中,高分辨率深層特徵表示在語義分割性能提升上起着至關重要的作用。
當前,有兩條主線可以保持高分辨率的表示。一種方法是通過使用空洞卷積替換標準卷積來維護高分辨率表示,例如DeepLab系列方法。另一種是通過結合自上而下的路徑和橫向連接(如UNet等編碼器-解碼器框架)來產生更高分辨率的特徵圖。但是,這些方法通常需要昂貴的計算成本。此外,它們通常以原始的高分辨率圖像作為輸入,這進一步增加了計算量。
最近,輕量級分割網絡由於其在資源受限的設備中的應用優勢而也引起了很多關注。然而,它們的性能遠遠不如最新的方法。為了縮小精度差距,這些方法通常與高分辨率輸入(例如1024×2048或512×1024)結合使用,這也帶來了不錯的效果。但是,一旦限制了輸入大小,無論大型網絡還是輕量網絡,其性能都會下降。
圖1 CityScapes驗證集上不同網絡的準確性與輸入大小的關係。綠點表示具有不同輸入大小的DeepLab-v3 +的結果:256×512、320×640、384×768、448×896、512×1024和1024×2048,藍色三角形標記ESPNetv2的結果。紅色表示分別基於DeepLabv3 +和ESPNetv2的方法的結果。
從圖1可以看出,當輸入分辨率從512×1024降至256×512時,兩個網絡的精度都會降低10%以上。因此,在本文中,設計了一個清晰而簡單的框架來緩解這一難題。具體來說,在圖像超分辨率的驅動下,將具有低分辨率圖片輸入通過超分辨率網絡重建出高分辨率圖像,因此本文提出了一種新穎的雙重超分辨率學習Dual Super-Resolution Learning(DSRL)方法來保持高分辨率表示。這種學習方法被統一在two-stream框架中,該框架由語義分割超分辨率(SSSR),單圖像超分辨率(SISR)和特徵相似性(FA)模塊組成。
更具體地說,將超分辨率的思想整合到現有的語義分割pipline中,從而制定了語義分割超分辨率(SSSR)分支。然後,通過具有特徵相似性(FA)模塊進行SISR分支的細粒度結構表示,進一步增強了SSSR分支的高分辨率功能。此外,這兩個部分共享相同的特徵提取器,並且在訓練過程中使用重建監督對SISR分支進行了優化,在推理階段可以將其從網絡中自由刪除,從而節省了開銷。
主要貢獻:
(1)提出了一種雙重超分辨率學習框架來保持高分辨率表示,可以在保持推理速度的同時提高性能;
(2)驗證DSRL框架的通用性,可以很容易地擴展到其他任務
(3)證明了該方法在語義分割和人體姿勢估計方面的有效性。使用差不多的計算量,可以提高≥2%的精度。
圖2.提出的DSRL框架概述,包括三個部分:語義分割超分辨率(SSSR)分支,單圖像超分辨率(SISR)分支和特徵相似性(FA)模塊。編碼器在SSSR分支和SISR分支之間共享。該體系結構將通過三個損失函數進行優化:SISR分支的MSE損失,FA損失和特定任務的損失,例如語義分割的交叉熵損失。
由於採用傳統的編碼器解碼器結構,大多數現有方法只能將特徵映射上採樣到與輸入圖像相同的大小以進行預測,該尺寸可能小於原始圖像。一方面,這可能導致有效標籤信息的丟失。另一方面,僅依靠解碼器很難恢復原始細節,這限制了性能的提高。
同時,以前的語義分割工作中存在的問題是輸入分辨率大的情況下精度高,但是計算量也高,降低輸入分辨率則精度也會降低,本文提出的方法減輕了這種情況:原理是從低分辨率的輸入重建高分辨率的圖像。
之前類似的工作有四種:1.前上採樣超分辨率,就是將輸入雙線性上採樣到高分辨率然後微調網絡。2.後上採樣超分辨率,就是用網絡後端的可學習的上採樣層代替前上採樣,可以很大程度減少計算複雜度。3.進步上採樣超分辨率,是方法2的改進,它針對減少計算複雜度,用漸進的重建高分辨率圖像並根據多尺度的單圖像分辨率需要進行裁剪。4.迭代式上下採樣超分辨率,採用迭代式上下採樣產生媒介圖像,然後結合它們去重建最後的高分辨率圖像。考慮到計算量問題,本文遵循2方法的理念。
1、 Semantic Segmentation Super-Resolution(SSSR)
對於語義分割,只需附加一個額外的upsampling模塊即可產生最終的預測mask,整個過程稱為語義分割超分辨率(SSSR)。例如,輸入512×1024大小的圖片,將輸出1024×2048大小,比輸入圖像大2倍。其他語義分割方法訓練和測試圖片尺寸一般為512×1024,然後在後處理階段將其放大為1024×2048,然而本文的方法可以充分利用ground truth,避免了預處理導致的有效標籤信息丟失。額外的語義分割upsampling上採樣模塊由一堆反卷積層組成,然後是BatchNorm和ReLU層,只需要較少的參數。
2、Single Image Super-Resolution(SISR)
如上所述,僅依靠解碼器模塊還不足以恢復使用原始圖像作為輸入獲得的類似高分辨率語義特徵表示。由於解碼器是簡單的雙線性上採樣層或子網絡,由於輸入圖片的分辨率較低(例如512×1024),因此不會包含任何其他信息。
SISR旨在從低分辨率輸入中構建高分辨率圖像。這意味着SISR可以在低分辨率輸入下有效地重建圖像的細粒度結構信息,這對於語義分割總是有幫助的。為了顯示更好的理解,在圖3中可視化了SSSR和SISR的功能。通過比較圖3中的(b)和(c),可以輕鬆地發現SISR包含更完整的對象結構。儘管這些結構沒有明確類別,但是可以通過像素與像素或區域與區域之間的關係有效地對它們進行分組。眾所周知,這些關係可以隱式地傳遞語義信息,從而有利於語義分割的任務。
圖3.同一輸入(0.5倍)下SSR和SISTER的特徵層可視化圖。(a)輸入圖像,(b)SSSR特徵可視化(c)SISR特徵可視化。
因此,利用從SISR提取的高分辨率特徵來指導SSSR的高分辨率表示的學習,這些細節可以通過內部像素之間的相關性或關係進行建模,關係學習可以彌補解碼器的簡單設計問題。對於SISR分支,它與SSSR共享特徵提取器,如圖4(b)所示。整個分支都在原始圖像的監督下進行訓練,並將在推理階段自由刪除。具體的設計細節參考了論文《Real-time single image and videosuper-resolution using an efficient subpixel convolu-tional neural network》。
3、Feature Affinity Learning(FA)
因為SISR比SSSR包含更多的完整結構的信息,用此模塊來指導SSSR去學習高分辨率的表徵。FA旨在學習SISR和SSSR分支之間的相似度矩陣的距離,其中,相似度矩陣主要描述像素之間的成對關係。
FA為了學習SISR和SSSR之間相似矩陣的距離,如下式。
相似矩陣的定義:
Sij代表兩個特徵圖任意兩個像素點的關聯,p和q代表正則化方式,這裡p=2,q=1(就是L1正則和L2正則)。
損失函數:
用於語義分割的交叉熵誤差:
用於SISR的均方誤差:
其中SISR(·)和Y代表超分辨率輸出及其對應的ground truth,pi和yi代表像素i的分割預測概率和對應類別,N表示像素數。w1和w2設置為0.1和1.0,使這些損失值範圍固定可以相互比較。
相似矩陣距離誤差:
數據集:Cityscapes Dataset、CamVid
評價指標:mIoU
1、消融實驗
在分別代表輕量級網絡和大型網絡的ESPNetv2和DeepLabv3 +上進行了實驗,並在Cityscape驗證集上評估了mIoU。將圖像的尺寸調整為256×512,作為加速實驗訓練的輸入。如表1所示,以ESPNetv2為例,可以看到SSSR可以將性能從54.5%提高到55.7%,因為它減少了ground truth的定標時間。通過添加SISR分支,可以將mIoU有效提高2.4%。在結合FA損失的同時,性能可以進一步提高到59.5%(比baseline高5.0%),因此表明在SISR和SSSR之間傳輸結構信息是必要的。DeepLabv3 +上的結果也可以得出相同的結論,這始終證明了所提出的DSRL的有效性。
為了更好地理解DSRL,還可視化了baselineESPNetv2和DSRL之間的最終分割特徵。如圖5(c)所示,本文的方法可以顯着提高邊界的清晰度,並改善道路,汽車等不同類別的完整性,從而無疑增強了模型的最終判別能力。
不同分辨率大小輸入圖片的影響:
2、定性評估
3、對比實驗
4、Human Pose Estimation的遷移實驗
數據集:MS COCO
評價指標:AP
baseline:HRNet
表5總結了baselineHRNet方法和所提出的DSRL方法之間的性能比較。以不同的分辨率作為輸入,本文的方法始終超過HRNet 1.2%至3.3%。
更多實驗細節,可以參考原文。