ICCV2019 | 南大&同濟等提出PAN:任意形狀文本檢測的像素聚合網路

  • 2019 年 10 月 7 日
  • 筆記

點擊上方「CVer」,選擇加"星標"或「置頂」

重磅乾貨,第一時間送達

本文轉載自:CSIG文檔影像分割與識別專委會

本文簡要介紹了2019年7月被ICCV錄用的論文「Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network」的主要工作。該論文主要解決了自然場景文本檢測中的兩個問題:一是如何權衡在自然場景任意形狀文本檢測的速度與精度,二是不規則文本的精準檢測。

一、研究背景

自然場景文本檢測是電腦視覺領域一項基礎而又有挑戰性的任務,它在現實生活中也有著廣泛的應用。近年來隨著深度學習的發展,自然場景文本檢測也取得了突破性的進展。在任意四邊形文本的檢測上,目前的很多方法比如EAST是非常高效的。但是,自然場景中存在著大量的任意形狀而且不規則的文本,儘管針對這些不規則文本也有很多檢測方法能得到很好的結果,但其檢測速度會由於模型過於龐大或者複雜的後處理變得很慢,這會限制這些方法在現實生活中的應用。該論文針對任意形狀文本檢測考慮了如何權衡模型的速度和性能的問題,提出了相應的檢測模型—–像素聚合網路PAN,它在大幅提高任意形狀文本檢測性能的同時也顯著提高了計算速度。

二、PAN原理簡述

Fig.1. The overall pipeline of PAN

Fig.1是像素聚合網路PAN的流程圖。PAN的主要流程可以分為簡單的兩步,首先通過一個分割網路預測得到文本區域,文本核以及每個像素的相似向量;然後通過預測的核重建文本實例。其中,文本區域是為了描述文本的完整形狀,文本核參數為了區分不同的文本,預測每個像素的相似向量也是為了保證同一文本像素的相似向量和文本核距離夠小。

Fig.2. Overall architecture of PAN

Fig.2是PAN的整體結構,它主要可以分為三個部分:主幹網路、Segmentation Head以及可學習的後處理演算法。為了減少模型的計算量並提高效率,像素聚合網路PAN使用了輕量級的ResNet18作為主幹網路。但單純使用這樣一個淺層的主幹網路會使得其不具備足夠的感受野,而且不能提取到足夠強的特徵。為了解決這樣的問題,PAN在主幹網路後添加了一個Segmentation Head去增強特徵表達。Segmentation Head包含了特徵金字塔增強模組(FPEM)和特徵融合模組 (FFM),經過這個結構,PAN預測得到了上述提到的文本區域,核以及相似向量。最後,PAN使用一個簡單而又可學習的後處理演算法(Pixel Aggregation)得到最終的結果。

Fig.3. The details of FPEM

Segmentation Head中的特徵金字塔增強模組(FPEM)是一個U形的模組,Fig.3展示了FPEM的結構細節,它包含了上取樣增強和下取樣增強兩個階段。上取樣增強作用於輸入的特徵金字塔,它以32、16、8、4個像素為步長在特徵圖上迭代增強,而下取樣增強則是作用於上一階段所產生的的特徵金字塔並得到FPEM最終的輸出,該階段的增強步長為4-32。FPEM有如下兩個優勢:第一,FPEM是可級聯的,N個FPEM級聯後的模組可以能夠很好的融合不同尺度的特徵,並且特徵的感受野也會增大;第二,FPEM是由分離的只需要最小計算量的卷積組成,所以它的運算量很低,只有傳統FPN的1/5。

Fig.4. The details of FFM

Segmentation Head中的特徵融合模組(FFM)的結構細節如Fig.4所示,它能夠將不同深度的FPEMs提取到的特徵融合在一起,以此融合低級和高級的語義資訊。FFM首先將相應尺寸的特徵圖逐像素相加(Element-wise),然後得到的特徵會被上取樣並連接成一個只有4ⅹ128的特徵圖。

經過Segmentation Head預測得到了文本區域、文本核和相似向量。文本區域雖然保留了文本的完整形狀但也會出現區域重疊的情況,文本核可以區分不同的文本,但是它並不是完整的文本。要得到完整的文本實例,PAN要把文本區域中的像素融合到文本核,於是提出了一個可學習的後處理演算法—-像素聚合(Pixel Aggregation)來指引不同的像素聚合到正確的核。在像素聚合中,借鑒了聚類的思想,將文本實例的核視為聚類的中心,文本區域的像素是聚合樣本,要將文本像素聚合到對應的核,則文本像素和相同文本的核的距離要很小。於是在訓練階段,用如下損失函數來引導像素聚類的訓練:

此外,聚類中心也需要一直劃分清楚,不同文本的核需要保持足夠的距離。因此在訓練時也用如下損失函數引導訓練。

三、實驗結果

TABLE 1. The results on SCUT-CTW1500.

TABLE 2. The results on Total-Text.

TABLE 3. The results on ICDAR 2015.

TABLE 4. The results on MSRA-TD500.

本文提出的PAN在不規則文本數據集SCUT-CTW1500和Total-Text以及任意四邊形文本數據集ICDAR 2015和MSRA-TD500上表現非常出色。PAN不僅在檢測結果上達到了state-of-the-art的效果,而且在速度上比之前的方法都要快很多。Fig.5展示了不同檢測方法在SCUT-CTW1500的檢測速度和表現的比較,可以看到PAN是效果最優且速度最快的。

Fig.5. The performance and speed on curved text dataset SCUT-CTW1500.

四、結論

這篇論文考慮了如何權衡場景文本檢測中精度和速度這一重要問題,提出了一個可以實時檢測任意形狀文本的高效自然場景文本檢測器PAN。PAN使用了輕量的主幹網路,並加入了包含特徵金字塔增強模組和特徵融合模組的Segmentation Head以增強特徵表達,而且也不會帶來額外的龐大計算量。此外提出了可學習的後處理演算法—-Pixel Aggregation去預測文本核與周圍像素的相似向量以得到完整的文本區域,避免了以往方法中繁瑣的後處理方式。這些方法使得PAN在各數據集上取得最優結果的同時,檢測的速度也能達到最優。

參考文獻

[1] Wenhai Wang , Enze Xie and Xiaoge Song.Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV, 2019.

[2] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick,Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networksfor object detection. In CVPR, 2017.

[3] Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang,Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: an efficient and accuratescene text detector. In CVPR, 2017.

[4] Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, Jian Yang. Shape robust text detection withprogressive scale expansion network. In CVPR, 2019.

[5] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Sheng Zhang, Curved scene text detectionvia transverse and longitudinal sequence connection, Pattern Recognition,2019.


原文作者:Wenhai Wang, Enze Xie, Xiaoge Song, Yuhang Zang, Wenjia Wang, Tong Lu, Gang Yu, Chunhua Shen

撰稿:劉崇宇

編排:高 學

審校:殷 飛

發布:金連文


免責聲明:(1)本文僅代表撰稿者觀點,個人理解及總結不一定準確及全面,論文完整思想及論點應以原論文為準。(2)本文觀點不代表本公眾號立場。