­

SOGNet:用於全景分割的場景遮蓋圖網路

  • 2019 年 12 月 27 日
  • 筆記

本文授權轉載自:ZERO實驗室atPKU

本文作者:楊一博,李宏揚,李夏,趙祈傑,吳建龍,林宙辰。

本文SOGNet: Scene overlap graph network for panoptic segmentation被AAAI 2020接收。該方法同時在COCO 2019 challenge panoptic segmentation track中被評為最佳創新獎(Innovative Award)。

01

引言

在全景分割任務中,對於背景像素,需要對其進行語義分割,確定其語義類別,對於前景像素,需要對其進行實例分割,確定其實例類別以及實例id。則每個像素只能有確定的類別和id。然而,目前基於區域候選框(region proposal)的實例分割方法,例如Mask R-CNN,輸出的實例結果是包含重疊區域的。如圖一所示,桌子和杯子兩個物體,在杯子區域具有重疊的像素。只有獲得他們的前後關係,才能得到一致的全景分割結果。

圖一

已有的全景分割研究中,解決遮蓋問題的方法包括利用啟發式規則(Panoptic FPN,AUNet等)確定各個物體的遮蓋順序,和構造panoptic head(UPSNet,OANet等)對每個像素所屬的物體進行預測。但這些方法通過比較objectness score或logit的大小來確定遮蓋關係,結果不夠準確,並且不能顯式地輸出物體間的遮蓋關係。

該工作受到場景圖(scene graph)任務的啟發,將物體的遮蓋問題構造為場景遮蓋圖(scene overlap graph)。在這種圖結構中,節點為各個物體,i和j物體間的關係包含三種,i覆蓋j,i被j覆蓋,以及沒有覆蓋關係。但是,與場景圖相關的任務不同,全景分割任務並不具有物體間關係的監督資訊,從而能夠對物體遮蓋關係直接進行監督訓練。該工作通過關係嵌入(relational embedding)模組,顯式地表達物體間的遮蓋關係,並且設計了可微的去除被遮蓋區域logit的模組。由於去除遮蓋的效果對最終全景分割的品質有著直接的影響,該工作利用全景分割提供的像素級(pixel-level)的監督資訊,間接地完成了對物體之間實例級(instance-level)的遮蓋關係的推理。

如圖二所示,該工作主要包含四個部分,分別是聯合分割模組(joint segmentation),關係嵌入模組(relational embedding),遮蓋去除模組(overlap resolving),以及全景分割模組(panoptic head)。

圖二

02

SOGNet

1、聯合分割模組

在聯合分割模組中,實例分割和語義分割共享backbone,一起訓練。Backbone採用目前全景分割研究中常用的方法,ResNet+FPN. 對於實例分割部分,採用標準的Mask R-CNN,利用實例分割的監督資訊,完成對物體檢測和分割。對於語義分割部分,採用UPSNet的方法,FPN各個尺度輸出的特徵首先經過三層deformable convolution, 其次上取樣到統一尺度並沿channel維度拼接,最後經過1×1的卷積層輸出對每個像素的類別的預測。語義分割部分利用全景分割的監督資訊,預測全部類別(包括語義類別和實例類別)。

2、關係嵌入模組

對於一張輸入影像,從標註資訊(ground truth)中我們可以得到

,其中

,

,

分別指第i個物體的位置資訊(bounding box),類別資訊(one-hot形式的類別向量),和形狀資訊(binary mask)。

為該影像中物體的個數。在訓練時,這些標註資訊作為關係嵌入模組的輸入,得到關係特徵,進而顯式地表達各個物體之間的遮蓋關係。在測試時(inference),這些標註資訊被替換為Mask R-CNN輸出的預測。

Bilinear pooling技術可以表達兩個特徵構成的組合關係特徵。受此啟發,我們採用(Kim et al. 2017)提出的低秩外積(low-rank outer product),對各個物體的類別資訊計算他們的類別關係特徵:

其中,

表示逐元素相乘(element-wise multiplication),σ表示ReLU激活函數,

為兩個線性映射,

將關係特徵映射到輸出維度

. 則所有物體的類別關係特徵為:

其中,」[ ]」為拼接操作。採用相似的方式,可以得到所有物體的形狀關係特徵

.

對於位置資訊,該工作採用一種具有平移和尺度不變性(translation- and scale-invariant)的方式,來構造位置關係特徵:

其中

是從bounding box 中提取的位置和尺度資訊,

將四維的相對位置特徵映射到高維. 最終,所有物體之間的關係特徵可以表達為:

其中

.

3、遮蓋去除模組

得到所有物體之間的關係特徵E後,可以顯式地表示物體間的遮蓋關係。如圖二所示,E首先經過一個

層,得到single channel的輸出,再經過sigmoid激活,並將其reshape為方陣,記為

。該矩陣的元素

具有的物理意義為第i個物體被第j個物體遮蓋的勢(potential)。下面可以引入遮蓋關係矩陣,定義為:

其中,

是一個反對稱矩陣,計算各個對稱位置上的勢差,σ為ReLU激活函數,用來過濾掉值為負的勢差。這樣,如果

,代表第i個物體被第j個物體所覆蓋,並且在其對稱位置上,必有

. 如果

,則代表著第i和第j兩個物體沒有覆蓋關係。

利用每張圖片各個物體的標註的位置資訊,可以得到他們的Mask R-CNN輸出的mask logits. 將這些logits進行插值到原圖尺寸,記為

,他們之間具有重疊區域。利用公式(6),可以對物體i和物體j之間的遮蓋區域進行處理:

其中,

為對第i個物體處理後的logits, s(∙)代表sigmoid激活,將

轉變為類似binary形式的mask. 如圖三所示,

計算他們的遮蓋區域。

的值可以控制遮蓋區域的logits是否從A_i中去除。當

>0時,

=0, 對

沒有影響,反之亦然。

圖三

考慮所有其他物體對物體i的遮蓋關係,可以通過公式(7)來處理:

考慮所有物體,整個計算步驟可以表達為:

其中,

,

表示第三個維度上的Tucker product, 即將

reshape為

, 與

做內積,之後再reshape為

. 可以看出,該步驟對當前深度學習框架比較友好,可以通過可微的步驟,對遮蓋區域進行處理。

4、全景分割模組

在全景分割分支上,和UPSNet相似,將語義分割分支上物體i相關位置對應channel的logits,記為

, 與

相結合。在UPSNet中,他們直接相加,記為Panoptic Head 1。SOGNet提出了改進的結合方式,記為Panoptic Head 2。兩種方式對比如下:

其中,

為結合後的logits,

為一常數用來平衡語義輸出logits和mask logits之間的數值尺度。

全景分割分支對每個像素的實例id做預測,並採取標準交叉熵作為損失函數。可以看出,我們的方法利用全景分割的監督資訊,間接地訓練了關係嵌入、遮蓋去重模組。訓練完成後,利用關係矩陣

, 即可獲得物體間的遮蓋關係。

除此之外,儘管在訓練時我們不知道兩個物體中哪一個物體遮蓋另一個,但根據他們的binary mask

, 可以推斷出這兩個物體間是否有遮蓋。我們引入一個對稱矩陣定義如下:

其中,|·|通過求和計算binary mask的面積,指示函數當條件成立時為1. 當

時,代表物體i和j之間有顯著的遮蓋。進而引入如下關係損失函數:

當兩物體有顯著的遮蓋時,促使

接近於1,從而避免在公式(6)中完成遮蓋去除時,只能起到微弱的作用。

03

實驗

在表一中,我們將SOGNet與UPSNet進行詳細的對比。我們把UPSNet和SOGNet在同一實驗環境下進行訓練,採用一致的訓練和測試策略。可以看出,我們改進的全景分割模組具有更好的表現。在UPSNet中,構造了一個void channel用來預測未知類別。使用未知類別預測時,SOGNet具有1% PQ的提升;不使用時,具有1.5% PQ的提升。

Tab 1:CompareSOGNet with UPSNet on COCO val.

在表二中,我們將SOGNet與啟發式的方法進行對比。PlainNet為我們在同一實驗環境下只訓練聯合分割模組得到的模型,並採用啟發式規則得到全景結果。類別先驗強制規定了某些類別之間的遮蓋關係。SOGNet相比這些啟發式方法,能夠根據位置、類別、形狀可微地推理遮蓋關係,並且具有更好的性能。

Tab 2: Compare SOGNet with heuristic inference.

在表三和表四中,我們將SOGNet的表現與State-of-the-art的方法進行比較。表三列出了在COCO測試集上的結果,其中第一塊是COCO 2018 challenge的前三名。可以看出,SOGNet能夠取得目前單模型的最好性能。表四列出了在Cityscapes和COCO驗證集上的結果,可以看出,SOGNet同樣取得了優異表現。

Tab 3: Compare SOGNet with SOTA performances on COCO test-dev.

Tab 4: Compare SOGNet with SOTA performances on COCO and Cityscapes val.

如圖四所示,我們可視化了由SOGNet學習出的物體間的遮蓋關係。右邊的激活圖是對關係矩陣O的可視化,在(i, j)處的激活O_ij,代表著第i個物體被第j個物體所覆蓋。可以看出SOGNet較為準確地表達了物體間的遮蓋關係,比如:baseball glove遮蓋person,tie遮蓋person,然後person再遮蓋bus,spoon遮蓋cup,然後cup再遮蓋dining table.

圖四

相關鏈接

項目主頁:

https://zero-lab-pku.github.io/publication/lixia/aaai20_sognet_scene_overlap_graph_network_for_panoptic_segmentation/

論文地址:

https://arxiv.org/pdf/1911.07527.pdf

COCO 2019 challenge slides:

https://drive.google.com/file/d/1JCgIqr5-4PUh1WIpiHaTLWGDqv8M-xP_/view

程式碼將發佈於:

https://github.com/LaoYang1994/SOGNet

相關論文

[1] Kaiming He, Georgia Gkioxari, Piotr Dollar and Ross Girshick, Mask r-cnn. In ICCV, 2017.

[2] Jin-Hwa Kim, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha and Byoung-Tak Zhang, Hadamard product for low-rank bilinear pooling. In ICLR, 2017.

[3] Alexander Kirillov, Ross Girshick, Kaiming He and Piotr Dollar, Panoptic feature pyramid networks. In CVPR, 2019.

[4] Alexander Kirillov, Kaiming He, RossGirshick, Carsten Rother and Piotr Dollar, Panoptic segmentation. In CVPR, 2019.

[5] Justin Lazarow, Kwonjoon Lee, Kunyu Shi and Zhuowen Tu, Learning instance occlusion for panoptic segmentation. arXiv preprint arXiv:1906.05896.

[6] Qizhu Li, Anurag Arnab and Philip H.S.Torr, Weakly-and semi-supervised panoptic segmentation. In ECCV, 2018.

[7] Jie Li, Allan Raventos, Arjun Bhargava, Takaaki Tagawa and Adrien Gaidon, Learning to fuse things and stuff. arXiv preprint arXiv:1812.01192.

[8] Yanwei Li, Xinze Chen, Zheng Zhu, Lingxi Xie, Guan Huang, Dalong Du and Xingang Wang, Attention-guided unified network for panoptic segmentation. In CVPR, 2019.

[9] Huanyu Liu, Chao Peng, Changqian Yu, Jingbo Wang, Xu Liu, Gang Yu and Wei Jiang, An end-to-end network for panoptic segmentation. In CVPR, 2019.

[10] Sanghyun Woo, Dahun Kim, Donghyeon Cho and In So Kweon, Linknet: Relational embedding for scene graph. In NeurIPS, 2018.

[11] Yuwen Xiong, Renjie Liao, Hengshuang Zhao, Rui Hu, Min Bai, Ersin Yumer and Raquel Urtasun, Upsnet: A unified panoptic segmentation network. In CVPR, 2019.