CVPR2020 | 即插即用!語義分割網路用上雙邊超解析度,效果喜人!
- 2020 年 6 月 16 日
- AI

論文地址://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Dual_Super-Resolution_Learning_for_Semantic_Segmentation_CVPR_2020_paper.pdf
這項工作利用低解析度的輸入影像通過超解析度網路生成高解析度的影像,從而給語義分割模型提供額外的資訊進而分割性能,其FA模組和視覺注意力機制比較類似,而且它額外增加的模組在部署階段可以去掉,幾乎不會增加計算量,是一種提高解析度的有效策略。
現當前最先進的語義分割方法通常使用高解析度輸入來獲得高性能,這帶來了巨大的計算量,並限制了它們嵌入式等計算資源受限設備上的應用。本文提出了靈活而簡單的雙支路網路框架(DSRL)可以很好地提高網路精度的同時不引入額外的計算量。
該方法由三部分組成:語義分割超解析度(SSSR),單影像超解析度(SISR)和特徵相似性(FA)模組,可以保持高解析度表示和低解析度輸入,同時降低模型計算的複雜性。此外,它可以容易地推廣到其他任務,例如人體姿勢估計。對於CityScapes數據集上的語義分割任務,該方法可以在具有相似FLOP的情況下實現mIoU≥2%的提高,並保持70%FLOP的性能。對於人體姿勢估計,該方法可以在相同的FLOP情況下獲得≥2%的mAP,並在FLOP減少30%的情況下保持mAP。
對於語義分割這類逐像素的任務而言,同時保持高效的推理速度和出色的性能是一個挑戰,尤其是在計算資源有限的移動設備上。在語義分割中,高解析度深層特徵表示在語義分割性能提升上起著至關重要的作用。
當前,有兩條主線可以保持高解析度的表示。一種方法是通過使用空洞卷積替換標準卷積來維護高解析度表示,例如DeepLab系列方法。另一種是通過結合自上而下的路徑和橫向連接(如UNet等編碼器-解碼器框架)來產生更高解析度的特徵圖。但是,這些方法通常需要昂貴的計算成本。此外,它們通常以原始的高解析度影像作為輸入,這進一步增加了計算量。
最近,輕量級分割網路由於其在資源受限的設備中的應用優勢而也引起了很多關注。然而,它們的性能遠遠不如最新的方法。為了縮小精度差距,這些方法通常與高解析度輸入(例如1024×2048或512×1024)結合使用,這也帶來了不錯的效果。但是,一旦限制了輸入大小,無論大型網路還是輕量網路,其性能都會下降。
圖1 CityScapes驗證集上不同網路的準確性與輸入大小的關係。綠點表示具有不同輸入大小的DeepLab-v3 +的結果:256×512、320×640、384×768、448×896、512×1024和1024×2048,藍色三角形標記ESPNetv2的結果。紅色表示分別基於DeepLabv3 +和ESPNetv2的方法的結果。
從圖1可以看出,當輸入解析度從512×1024降至256×512時,兩個網路的精度都會降低10%以上。因此,在本文中,設計了一個清晰而簡單的框架來緩解這一難題。具體來說,在影像超解析度的驅動下,將具有低解析度圖片輸入通過超解析度網路重建出高解析度影像,因此本文提出了一種新穎的雙重超解析度學習Dual Super-Resolution Learning(DSRL)方法來保持高解析度表示。這種學習方法被統一在two-stream框架中,該框架由語義分割超解析度(SSSR),單影像超解析度(SISR)和特徵相似性(FA)模組組成。
更具體地說,將超解析度的思想整合到現有的語義分割pipline中,從而制定了語義分割超解析度(SSSR)分支。然後,通過具有特徵相似性(FA)模組進行SISR分支的細粒度結構表示,進一步增強了SSSR分支的高解析度功能。此外,這兩個部分共享相同的特徵提取器,並且在訓練過程中使用重建監督對SISR分支進行了優化,在推理階段可以將其從網路中自由刪除,從而節省了開銷。
主要貢獻:
(1)提出了一種雙重超解析度學習框架來保持高解析度表示,可以在保持推理速度的同時提高性能;
(2)驗證DSRL框架的通用性,可以很容易地擴展到其他任務
(3)證明了該方法在語義分割和人體姿勢估計方面的有效性。使用差不多的計算量,可以提高≥2%的精度。
圖2.提出的DSRL框架概述,包括三個部分:語義分割超解析度(SSSR)分支,單影像超解析度(SISR)分支和特徵相似性(FA)模組。編碼器在SSSR分支和SISR分支之間共享。該體系結構將通過三個損失函數進行優化:SISR分支的MSE損失,FA損失和特定任務的損失,例如語義分割的交叉熵損失。
由於採用傳統的編碼器解碼器結構,大多數現有方法只能將特徵映射上取樣到與輸入影像相同的大小以進行預測,該尺寸可能小於原始影像。一方面,這可能導致有效標籤資訊的丟失。另一方面,僅依靠解碼器很難恢復原始細節,這限制了性能的提高。
同時,以前的語義分割工作中存在的問題是輸入解析度大的情況下精度高,但是計算量也高,降低輸入解析度則精度也會降低,本文提出的方法減輕了這種情況:原理是從低解析度的輸入重建高解析度的影像。
之前類似的工作有四種:1.前上取樣超解析度,就是將輸入雙線性上取樣到高解析度然後微調網路。2.後上取樣超解析度,就是用網路後端的可學習的上取樣層代替前上取樣,可以很大程度減少計算複雜度。3.進步上取樣超解析度,是方法2的改進,它針對減少計算複雜度,用漸進的重建高解析度影像並根據多尺度的單影像解析度需要進行裁剪。4.迭代式上下取樣超解析度,採用迭代式上下取樣產生媒介影像,然後結合它們去重建最後的高解析度影像。考慮到計算量問題,本文遵循2方法的理念。
1、 Semantic Segmentation Super-Resolution(SSSR)
對於語義分割,只需附加一個額外的upsampling模組即可產生最終的預測mask,整個過程稱為語義分割超解析度(SSSR)。例如,輸入512×1024大小的圖片,將輸出1024×2048大小,比輸入影像大2倍。其他語義分割方法訓練和測試圖片尺寸一般為512×1024,然後在後處理階段將其放大為1024×2048,然而本文的方法可以充分利用ground truth,避免了預處理導致的有效標籤資訊丟失。額外的語義分割upsampling上取樣模組由一堆反卷積層組成,然後是BatchNorm和ReLU層,只需要較少的參數。
2、Single Image Super-Resolution(SISR)
如上所述,僅依靠解碼器模組還不足以恢復使用原始影像作為輸入獲得的類似高解析度語義特徵表示。由於解碼器是簡單的雙線性上取樣層或子網路,由於輸入圖片的解析度較低(例如512×1024),因此不會包含任何其他資訊。
SISR旨在從低解析度輸入中構建高解析度影像。這意味著SISR可以在低解析度輸入下有效地重建影像的細粒度結構資訊,這對於語義分割總是有幫助的。為了顯示更好的理解,在圖3中可視化了SSSR和SISR的功能。通過比較圖3中的(b)和(c),可以輕鬆地發現SISR包含更完整的對象結構。儘管這些結構沒有明確類別,但是可以通過像素與像素或區域與區域之間的關係有效地對它們進行分組。眾所周知,這些關係可以隱式地傳遞語義資訊,從而有利於語義分割的任務。
圖3.同一輸入(0.5倍)下SSR和SISTER的特徵層可視化圖。(a)輸入影像,(b)SSSR特徵可視化(c)SISR特徵可視化。
因此,利用從SISR提取的高解析度特徵來指導SSSR的高解析度表示的學習,這些細節可以通過內部像素之間的相關性或關係進行建模,關係學習可以彌補解碼器的簡單設計問題。對於SISR分支,它與SSSR共享特徵提取器,如圖4(b)所示。整個分支都在原始影像的監督下進行訓練,並將在推理階段自由刪除。具體的設計細節參考了論文《Real-time single image and videosuper-resolution using an efficient subpixel convolu-tional neural network》。
3、Feature Affinity Learning(FA)
因為SISR比SSSR包含更多的完整結構的資訊,用此模組來指導SSSR去學習高解析度的表徵。FA旨在學習SISR和SSSR分支之間的相似度矩陣的距離,其中,相似度矩陣主要描述像素之間的成對關係。
FA為了學習SISR和SSSR之間相似矩陣的距離,如下式。
相似矩陣的定義:
Sij代表兩個特徵圖任意兩個像素點的關聯,p和q代表正則化方式,這裡p=2,q=1(就是L1正則和L2正則)。
損失函數:
用於語義分割的交叉熵誤差:
用於SISR的均方誤差:
其中SISR(·)和Y代表超解析度輸出及其對應的ground truth,pi和yi代表像素i的分割預測概率和對應類別,N表示像素數。w1和w2設置為0.1和1.0,使這些損失值範圍固定可以相互比較。
相似矩陣距離誤差:
數據集:Cityscapes Dataset、CamVid
評價指標:mIoU
1、消融實驗
在分別代表輕量級網路和大型網路的ESPNetv2和DeepLabv3 +上進行了實驗,並在Cityscape驗證集上評估了mIoU。將影像的尺寸調整為256×512,作為加速實驗訓練的輸入。如表1所示,以ESPNetv2為例,可以看到SSSR可以將性能從54.5%提高到55.7%,因為它減少了ground truth的定標時間。通過添加SISR分支,可以將mIoU有效提高2.4%。在結合FA損失的同時,性能可以進一步提高到59.5%(比baseline高5.0%),因此表明在SISR和SSSR之間傳輸結構資訊是必要的。DeepLabv3 +上的結果也可以得出相同的結論,這始終證明了所提出的DSRL的有效性。
為了更好地理解DSRL,還可視化了baselineESPNetv2和DSRL之間的最終分割特徵。如圖5(c)所示,本文的方法可以顯著提高邊界的清晰度,並改善道路,汽車等不同類別的完整性,從而無疑增強了模型的最終判別能力。
不同解析度大小輸入圖片的影響:
2、定性評估
3、對比實驗
4、Human Pose Estimation的遷移實驗
數據集:MS COCO
評價指標:AP
baseline:HRNet
表5總結了baselineHRNet方法和所提出的DSRL方法之間的性能比較。以不同的解析度作為輸入,本文的方法始終超過HRNet 1.2%至3.3%。
更多實驗細節,可以參考原文。