Object Detection in Optical Remote Sensing Images: A Survey and A New Benchmark

  • 2019 年 10 月 5 日
  • 筆記

版權聲明:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接和本聲明。

本文鏈接:https://blog.csdn.net/weixin_36670529/article/details/100902298

摘要:

最近已作出大量努力,提出光學遙感圖像中的各種目標檢測方法。然而,目前對光學遙感圖像中目標檢測的數據集調查和基於深度學習的方法還不夠完善。此外,現有的數據集大多存在一些不足之處,如圖像和目標類別數量較少,圖像多樣性和變異性不足。這些局限性極大地影響了基於深度學習的目標檢測方法的發展。本文綜述了近年來計算機視覺和地球觀測領域基於深度學習的目標檢測研究進展。然後,我們提出了一個大規模、公開可用的光學遙感圖像目標檢測基準,我們將其命名為DIOR。數據集包含23463張圖像和190288個實例,覆蓋20個目標類。建議的DIOR數據集1)在目標類別、目標實例數量和總圖像數量上都是大規模的;2)具有大範圍的對象尺寸變化,不僅在空間分辨率方面,而且在跨目標的類間和類內尺寸變化方面;3)由於成像條件、天氣、季節、成像質量的不同,成像結果差異較大;4)具有較高的類間相似性和類內多樣性。提出的基準可以幫助研究人員開發和驗證他們的數據驅動方法。最後,我們評估了DIOR數據集中的幾種最先進的方法,為未來的研究奠定了基礎。

1、簡介

遙感技術的迅速發展大大增加了遙感圖像的數量和質量,可以用來描述地球表面的各種物體,如機場、飛機、建築物等。這自然對通過自動分析和理解衛星或航空圖像進行智能地球觀測提出了強烈的要求。目標檢測在圖像判讀中起着至關重要的作用,在智能監測、城市規劃、精準農業、地理信息系統(GIS)更新等領域有着廣泛的應用。在這一要求的推動下,近年來在光學遙感圖像中開發各種目標檢測方法進行了大量的工作。

近年來,基於深度學習的算法以其強大的特徵表示能力在各種視覺識別任務的精度基準中佔據了主導地位。得益於此以及一些公開可用的自然圖像數據集,如Microsoft Common Objects in Context (MSCOCO)和PASCAL Visual Object Classes (VOC) ,許多基於深度學習的目標檢測方法在自然場景圖像中取得了巨大的成功。然而,儘管在自然圖像中取得了顯著的成功,但將基於深度學習的目標檢測方法直接應用於光學遙感圖像中存在困難。正如我們所知,高質量和大規模的數據集對於訓練基於深度學習的目標檢測方法非常重要。然而,遙感圖像與自然景物圖像之間的差異是顯著的。如圖1所示,遙感圖像通常捕捉地理空間目標的屋頂信息,而自然場景圖像通常捕捉對象的輪廓信息。因此,從自然景物圖像中學習到的目標探測器不容易應用到遙感圖像中也就不足為奇了。雖然在地球觀測領域提出了NWPU VHR‐10、UCAS‐AOD、COWC、DOTA等幾種流行的目標檢測數據集,但仍遠遠不能滿足深度學習算法的要求。

迄今為止,在遙感圖像目標檢測方面已經作出了重大努力。然而,目前關於數據集和基於深度學習的目標檢測方法的文獻綜述還不夠。此外,現有的公共可用數據集大多存在一些不足,如圖像和目標類別數量較少,圖像多樣性和變異性也不夠。這些局限性極大地阻礙了基於深度學習的目標檢測方法的發展。為了解決上述問題,本文試圖對基於深度學習的目標檢測方法的研究進展進行全面的綜述。然後,我們提出了一個大規模、公開可用的光學遙感圖像目標檢測基準,我們將其命名為DIOR。我們提出的數據集由20個對象類別覆蓋的23463幅圖像組成,每個類別包含約1200幅圖像。在與其他現有對象檢測數據集進行比較時,我們突出了DIOR數據集的四個關鍵特徵。首先,總體圖像、目標類別和對象實例的數量都很大。其次,這些物體的尺寸變化範圍很大,不僅在空間分辨率方面如此,而且在跨物體的類別間和類別內尺寸變化方面也是如此。第三,我們的數據集有很大的變化,因為這些圖像是在不同的成像條件、天氣、季節和圖像質量下獲得的。四是具有較高的類間相似性和類內多樣性。圖2顯示了一些示例圖像及其來自我們建議的DIOR數據集的注釋。

我們的主要貢獻總結如下:

1)基於深度學習的目標檢測進展綜合調查。本文綜述了計算機視覺和地球觀測領域中已有的數據集和具有代表性的基於深度學習的目標檢測方法的研究進展。

2)創建大型基準數據集。本文提出了一種大規模、公開可用的光學遙感圖像目標檢測數據集。據我們所知,所提議的DIOR數據集在對象類別數量和圖像總數上都是規模最大的。該數據集使社區能夠驗證和開發數據驅動的目標檢測方法。

3)建議的DIOR數據集的性能基準。我們在我們的DIOR數據集上對幾種具有代表性的基於深度學習的目標檢測方法進行了基準測試,以便為未來的研究工作提供對當前技術狀態的概述。

本文的其餘部分組織如下。第2‐3節分別回顧了基準數據集和計算機視覺和地球觀測領域的深度學習方法在目標檢測方面的最新進展。第4節詳細描述了所提議的DIOR數據集。第5節在提出的數據集上測試了幾種具有代表性的基於深度學習的對象檢測方法。最後,第六部分對本文進行了總結。

2、計算機視覺領域中目標檢測研究綜述

隨着各種深度學習模型的出現,特別是卷積神經網絡(CNN)在圖像分類方面取得了巨大的成功,基於深度學習的目標檢測框架在計算機視覺領域被提出。因此,我們將首先對自然場景圖像中目標檢測任務的數據集參考文獻以及基於深度學習的方法進行系統的綜述。

2.1、自然場景圖像的目標檢測數據集

大規模、高質量的數據集對於提高目標檢測性能非常重要,尤其是對於基於深度學習的方法。PASCAL VOC、MSCOCO 和ImageNe對目標檢測數據集是三種廣泛應用於自然場景圖像中對象檢測的數據集。下面簡要回顧這些數據集。

1) PASCAL VOC數據集。PASCAL VOC 2007和VOC 2012是用於自然場景圖像目標檢測的兩個最常用的數據集。它們都包含20個目標類,但是圖像編號不同。具體來說,PASCAL VOC 2007數據集共包含9963張圖像,其中5011張用於訓練,4952張用於測試。PASCAL VOC 2012數據集對PASCAL VOC 2007數據集進行了擴展,得到了一個更大的數據集,包括11540張用於訓練的圖像和10991張用於測試的圖像。

2)MSCOCO數據集。MSCOCO數據集是微軟在2014年提出的。無論是目標類別的數量還是目標實例的數量,MSCOCO數據集的規模都遠遠大於PASCAL VOC數據集。具體來說,數據集由80個目標類別覆蓋的20多萬幅圖像組成。數據集進一步劃分為三個子集:訓練集、驗證集和測試集,分別包含約80k、40k和80k圖像。

3) ImageNet目標檢測數據集。該數據集發佈於2013年,是所有目標檢測數據集中目標類別最多、圖像數量最多的數據集。具體而言,該數據集包括200個目標類和50多萬幅圖像,其中用於訓練的圖像為456567幅,用於驗證的圖像為20121幅,用於測試的圖像為40152幅。

2.2、基於深度學習的計算機視覺社區目標檢測方法

近年來,許多基於深度學習的目標檢測方法被提出,極大地提高了目標檢測的性能。通常,現有的用於目標檢測的深度學習方法可以根據是否生成區域建議分為兩類。它們是基於區域建議的方法和基於回歸的方法。

2.2.1、基於區域建議的方法

近年來,基於區域建議‐的目標檢測方法在自然場景圖像中取得了巨大的成功。這種方法將目標檢測框架分為兩個階段。第一階段的重點是生成一系列可能包含目標的候選區域建議。第二階段的目標是將第一階段獲得的候選區域建議分類為目標類或背景,並進一步微調邊界框的坐標。由Girshick等人提出的基於區域的CNN (R‐CNN)是各種基於區域的提案方法中最著名的方法之一。採用CNN模型生成豐富的目標檢測特徵是具有代表性的工作,與以往的所有工作相比,實現了突破性的性能改進,主要基於可變形零件模型(deformable part model, DPM) 。簡單地說,R‐CNN由三個簡單的步驟組成。首先,使用選擇性搜索方法對輸入圖像進行掃描,尋找可能的目標,生成約2000個區域建議。其次,將這些區域提案調整為固定的尺寸(如224×224),利用PASCAL VOC數據集上微調過的CNN模型提取每個區域提案的深層特徵。最後,將每個區域建議的特徵輸入到一組特定於類的支持向量機(SVMs)中,將每個區域建議標記為目標或背景,並使用線性回歸器細化目標本地化(如果存在目標)。

雖然R‐CNN超越了以往的目標檢測方法,但由於重複計算大量的區域建議,效率低下是其主要缺點。為了獲得更好的檢測效率和精度,最近的一些工作,如SPPnet和Fast R‐CNN,提出了共享計算負荷的CNN特徵提取的所有區域的建議。與R-CNN相比,Fast R-CNN和SPPnet對整幅圖像進行特徵提取與感興趣的區域(RoI)層和一個空間金字塔池(SPP)層,分別在CNN模型運行在整個圖像只有一次而不是數千倍,因此他們需要更少的計算時間。雖然SPPnet和Fast R‐CNN的工作速度比R‐CNN快,但它們需要提前獲得區域提案,這些提案通常由手工工程提案檢測器(如EdgeBox和選擇性搜索方法)生成。然而,手工區域建議機制是整個目標檢測過程中的一個嚴重瓶頸。因此,為了解決這個問題,提出了Faster R‐CNN。Fast R‐CNN的主要觀點是採用一個快速模塊來生成區域建議,而不是採用緩慢的選擇搜索算法。具體來說,Faster R‐CNN框架由兩個模塊組成。第一個模型是區域建議網絡(RPN),它是一個用於生成區域建議的全卷積網絡。第二個模塊是Fast R‐CNN目標檢測器,用於對與第一個模塊生成的提案進行分類。Faster R‐CNN的核心思想是為RPN和Fast R‐CNN檢測器共享相同的卷積層,直到它們自己的完全連接的層。這樣,圖像只需要經過CNN一次就可以生成區域提案及其對應的特徵。更重要的是,由於卷積層的共享,可以使用非常深入的CNN模型生成比傳統的區域建議生成方法更高質量的區域建議。

此外,一些研究人員進一步擴展了Fast R‐CNN的工作,以獲得更好的性能。例如,Mask R‐CNN建立在Faster R‐CNN之上,並添加了一個額外的分支來預測與現有分支並行的目標掩碼,用於邊界框檢測。因此,Mask R‐CNN可以準確地識別目標,同時為每個對象實例生成高質量的分割掩碼。為了進一步加快Faster R‐CNN的目標檢測,提出了基於區域‐的全卷積網絡(R‐FCN)。它使用一個位置敏感的感興趣區域(RoI)池層來聚合最後一個卷積層的輸出,並為每個RoI生成分數。與Faster R‐CNN相比,R‐FCN在整個圖像上幾乎共享所有計算負載,從而比更快的R‐CNN快2.5‐20×。此外,Li等提出了一種Light Head R‐CNN,通過使探測網絡的頭儘可能輕,進一步加快R‐FCN的探測速度。此外,Singh等人提出了一種新型探測器,名為R‐FCN‐3000 ,用於3000個目標類的大規模實時目標檢測。該方法是R‐FCN的一個改進,用於學習共享過濾器,以便跨不同目標類執行本地化。

2017年,通過在CNNs內部構建特徵金字塔,提出了一種特徵金字塔網絡(FPN),該網絡作為一種通用的特徵提取器,以Faster R‐CNN和Mask R‐CNN為框架,對目標檢測進行了顯著改進。此外,提出了一種路徑聚合網絡(PANet),通過自下而上的路徑增強,以精確的低層定位信息增強整個特徵層次結構,可以顯著縮短低層與頂層特徵之間的信息路徑。最近,Singh等人提出了兩種先進而有效的目標檢測數據論證方法,包括圖像金字塔尺度歸一化(SNIP)和高效重採樣(SNIPER)的SNIP。這兩種方法對極端尺度變化下的目標檢測和識別技術進行了詳細的分析。具體來說,SNIP是一種新的訓練範式,它在訓練和檢測階段都構建圖像金字塔,並且只選擇性地反向傳播不同大小目標的梯度作為圖像尺度的函數。因此,在不減少訓練樣本的情況下,減少訓練期間的規模變化將顯著受益。狙擊手是一種高效的多尺度訓練方法,它根據圖像內容,從圖像金字塔的多個尺度自適應地生成訓練樣本。在相同的條件下,狙擊手表現得和狙擊一樣好,同時在訓練中減少了3倍的像素處理。這裡需要指出的是,SNIP和SNIPER是通用的,因此可以廣泛應用於許多檢測器,如Faster R‐CNN、Mask R‐CNN、R‐FCN、deformable R‐FCN等。

2.2.2、基於回歸的方法

這種方法使用一個一階段目標檢測器進行目標實例預測,從而將檢測簡化為一個回歸問題。與基於區域建議的方法相比,基於回歸的方法更簡單、更有效,因為不需要生成候選區域建議和隨後的特徵重新採樣階段。OverFeat是第一款基於深度網絡的基於回歸的對象檢測器,使用滑動窗口範式。最近,You Look Only Once(YOLO),Single Shot multibox Detector (SSD)和RetinaNet更新了基於回歸的方法的性能。YOLO是一種典型的基於回歸的目標檢測方法。它採用一個CNN主幹,在一次評估中直接從整個圖像預測邊界框和類概率。它的工作原理如下。給定一個輸入圖像,首先將其劃分為S×S網格。如果一個目標的中心落在網格單元格中,該網格負責檢測該目標。然後,每個網格單元預測B個邊界框以及它們的置信度得分和C類概率。YOLO將目標檢測重新定義為一個單一的回歸問題,從而實現實時目標檢測。然而,它仍然難以精確地定位某些目標,尤其是小型目標。

為了提高系統的速度和精度,提出了一種SSD算法。具體來說,邊界框的輸出空間被離散成一組默認框,每個特徵映射位置具有不同的尺度和寬高比。在預測過程中,基於SSD模型生成每個默認框中每個目標類存在的置信度評分,並對該框進行調整以更好地匹配目標形狀。此外,為了解決目標尺寸變化的問題,SSD將不同分辨率的多地物圖的預測結果結合起來。與YOLO相比,SSD通過引入默認盒機制和多尺度特徵圖,在檢測和定位小尺寸目標方面取得了更好的性能。另一個有趣的工作是RetinaNet檢測器,它本質上是一個特徵金字塔網絡,傳統的交叉熵損失被一個新的焦損所取代,從而顯著提高了精度。YOLOv2模型在提高目標檢測精度的同時,仍然是一種高效的目標檢測方法。為此,本文提出了對原YOLO方法的各種改進。例如,為了避免在不使用dropout的情況下進行過度擬合,YOLOv2在所有卷積層上添加了批處理歸一化。通過將輸入圖像的尺寸從224×224 (YOLO)調整到448×448 (YOLOv2),接收高分辨率圖像作為輸入,從而有效地檢測較小尺寸的目標。此外,YOLOv2從原來的YOLO檢測器中移除全連接層,並基於錨盒預測邊界盒,這與SSD有類似的想法。

最近,提出了YOLOv3模型,該模型具有類似的性能,但比YOLOv2、SSD和RetinaNet更快。YOLOv3遵循YOLOv2的機制。具體來說,使用維度集群作為錨框來預測邊界框。然後,用獨立的邏輯分類器代替軟最大分類器對每個邊界框輸出一個目標得分。與FPN概念相似,通過從這些尺度中提取特徵,在三個不同尺度下預測邊界框。YOLOv3使用一個新的主幹網Darketnet‐53來執行特徵提取。它有53個卷積層,是一個新穎的剩餘網絡。由於引入了Darketnet‐53和多比例尺特徵圖,與最初的YOLO或YOLOv2相比,YOLOv3實現了極大的速度改進,並提高了對小型目標的檢測精度。此外,Law和Deng還提出了角網,這是一種新的有效的對象檢測範式,將對象邊界框檢測為成對的角(即,左上角和右下角)。通過將目標檢測為成對的角,角網消除了設計一組廣泛用於基於回歸的目標檢測器的錨盒的需要。這項工作還引入了拐角池,這是一種新型的池化層,可以幫助網絡更好地本地化拐角。

一般來說,基於區域建議的目標檢測方法比基於回歸‐的算法具有更好的準確性,而基於回歸‐的算法在速度上具有優勢。一般認為,CNN框架在目標檢測任務中起着至關重要的作用。CNN架構作為各種對象檢測框架的網絡骨架。代表性的CNN模型架構包括AlexNet、ZFNet、VGGNet、GoogLeNet、Inception系列、ResNet、DenseNet和SENet。為了進一步提高基於深度學習的目標檢測方法的性能,如特徵增強、硬負挖掘、上下文信息融合、目標變形建模等方面的研究也得到了廣泛的探索。

3、地球觀測系統中目標檢測研究進展綜述

在過去的幾年裡,人們探索了許多目標檢測方法來檢測地球觀測社區中的各種地理空間對象。Cheng等在2016年對光學遙感圖像中的目標檢測算法進行了全面綜述。但是,本文的工作並沒有對各種基於深度學習的目標檢測方法進行綜述。與之前發表的幾項調查不同,我們重點回顧了地球觀測領域中關於數據集和基於深度學習的目標檢測方法的文獻。

3.1、光學遙感圖像目標檢測數據集

在過去的幾十年里,一些不同的研究小組已經發佈了他們的公開的地球觀測圖像數據集用於目標檢測(見表1)。這些數據集將被簡要回顧如下。

1) TAS: TAS數據集用於航空圖像中的汽車檢測。它總共包含30張圖片和1319輛帶有任意方向手動標註的汽車。這些圖像的空間分辨率相對較低,由建築物和樹木造成的陰影較多。

2) SZTAKI‐INRIA: SZTAKI‐INRIA數據集用於對各種建築檢測方法進行基準測試。它由665棟建築組成,手工標註了定向邊界框,分佈在來自曼徹斯特(英國)、薩達和布達佩斯(匈牙利)、科達·阿蘇爾和諾曼底(法國)以及博登西(德國)的9幅遙感圖像中。所有的圖像只包含紅色(R)、綠色(G)和藍色(B)三個通道。其中,兩幅圖像(Szada和Budapest)是航空圖像,其餘七幅圖像是來自QuickBird、IKONOS和谷歌Earth的衛星圖像。

3) NWPU VHR‐10:NWPU VHR‐10數據集有10個地理空間對象類,包括飛機、棒球場、籃球場、橋樑、港口、地面田徑場、船舶、儲罐、網球場和車輛。它由715幅RGB圖像和85幅pan‐銳化彩色紅外圖像組成。其中715幅RGB圖像採集自谷歌地球,空間分辨率從0.5m到2m不等。85幅經過pan‐銳化的紅外圖像,空間分辨率為0.08m,來自Vaihingen數據。該數據集共包含3775個對象實例,其中包括757架飛機、390個棒球方塊、159個籃球場、124座橋樑、224個港口、163個田徑場、302艘船、655個儲罐、524個網球場和477輛汽車,這些對象實例都是用水平邊框手工標註的。該數據集已廣泛應用於地球觀測領域。

4) VEDAI: VEDAI數據集用於航空圖像中的多類車輛檢測。它包含3640個車輛實例,包括9個類別,包括船、車、露營車、飛機、接送車、拖拉機、卡車、貨車和其他類別。該數據集共包含來自猶他州AGRC (http://gis.utah.gov/)的1210 1024×1024張航空圖像,空間分辨率12.5 cm。數據集中的圖像採集於2012年春季,每張圖像都有四個未壓縮的彩色通道,包括三個RGB彩色通道和一個近紅外通道。

5) UCAS‐AOD: UCAS‐AOD數據集用于飛機和車輛檢測。具體地說,飛機數據集由600張3210架飛機的圖像組成,而車輛數據集由310張2819架車輛的圖像組成。所有的圖像都經過精心選擇,使數據集中的目標方向分佈均勻。

6) DLR 3K車輛:DLR 3K車輛數據集是另一個用於車輛檢測的數據集。包含20張5616×3744航拍圖像,空間分辨率為13厘米。這些照片是在德國慕尼黑上空1000米高空使用DLR 3K攝像系統(一種近乎實時的機載數字監控系統)拍攝的。有14235輛汽車是通過在圖像中使用定向包圍框手動標記的。

7) HRSC2016: HRSC2016數據集包含1070張圖像,共2976艘船,採集自谷歌Earth,用於船舶檢測。圖像尺寸從300×300變化到1500×900,大部分在1000×600左右。這些圖像的採集具有很大的旋轉、比例、位置、形狀和外觀的變化。

8) RSOD: RSOD數據集包含從谷歌Earth和Tianditu下載的976張圖像,這些圖像的空間分辨率在0.3m到3m之間。它總共包含6950個對象實例,由4個目標類覆蓋,包括1586個油箱、4993架飛機、180個立交橋和191個操場。

9) DOTA: DOTA是一個全新的大型地理空間目標檢測數據集,包括15個不同的對象類別:棒球場、籃球場、橋樑、港口、直升機、地面田徑場、大型車輛、飛機、船舶、小型車輛、足球場、儲水池、游泳池、網球場、環島等。該數據集共包含2806張來自不同傳感器和平台的多分辨率航空圖像。有188282個目標實例由一個面向對象的包圍框標記。圖像的大小從800×800到4000×4000像素不等。每個圖像包含多個不同尺度、方向和形狀的目標。到目前為止,這個數據集是最具挑戰性的。

3.2、基於深度學習的地球觀測小區目標檢測方法

受計算機視覺領域中基於深度學習的目標檢測方法的巨大成功啟發,近年來對光學遙感圖像中的目標檢測進行了廣泛的研究。與自然場景地圖中的目標檢測不同,大多數研究使用基於區域建議的方法來檢測地球觀測社區中的多類目標。因此,在地球觀測領域,我們不再區分基於區域建議的方法和基於回歸的方法。在這裡,我們主要回顧一些有代表性的方法。

由於R‐CNN在自然場景圖像目標檢測方面的優異性能,許多地球觀測研究人員採用R-CNN流程來檢測遙感圖像中的各種地理空間目標。例如,Cheng等人提出在R‐CNN框架中學習用於多類地理空間目標檢測的旋轉不變CNN(RICNN)模型。RICNN是通過添加一個新的旋轉‐不變層到非‐架CNN模型,如AlexNet來實現的。為了進一步提高檢測目標的技術水平,提出了一種新的方法來訓練旋轉‐不變和費雪判別CNN (RIFD‐CNN)模型,方法是在CNN特徵上添加旋轉‐不變正則化器和費雪判別正則化器。為了在高分辨率地球觀測圖像中實現地理空間目標的精確定位,Long等提出了一種基於R‐CNN框架的基於無監督分數的邊界盒回歸(USB‐BBR)方法。儘管上述方法在地球觀測領域取得了良好的性能,但它們仍然非常耗時,因為這些方法依賴於人工設計的目標建議生成方法,這些方法佔用了目標檢測系統的大部分運行時間。此外,基於手工設計的低‐級特徵生成的區域建議質量不佳,因此會降低目標檢測性能。

為了進一步提高探測精度和速度,一些研究工作將Fast R‐CNN框架擴展到地球觀測社區。例如,Li等人(Li et al., 2018)提出了一種旋轉‐不敏感RPN,在現有的基於快速R‐CNN管道的RPN中引入多角度錨,可以有效地處理地理空間目標旋轉變化問題。此外,為了解決外觀模糊問題,設計了一個雙通道特徵組合網絡來學習局部和上下文屬性。Zhong等人利用位置敏感平衡(PSB)方法來提高生成區域提案的質量。在提出的PSB框架中,基於殘差網絡引入了全卷積網絡(FCN)來解決目標檢測中的平移方差與圖像分類中的平移不變性之間的矛盾。Xu等人提出了一種可變形CNN來對物體的幾何變化進行建模。在這篇文章中,開發了受寬高比約束的非‐最大抑制,以減少虛假區域建議的增加。針對車輛檢測,Tang等提出了一種超區域建議網絡(HRPN)來尋找類車區域,並利用硬負挖掘進一步提高檢測精度。

雖然採用基於區域建議‐的方法(如R‐CNN、Fast R‐CNN及其變體)來檢測地球觀測圖像中的地理空間目標顯示出非常有前途的性能,但在探索不同的基於深度學習的方法方面已經做出了顯著的努力,它們沒有遵循基於區域建議的方法來檢測遙感圖像中的目標。例如,Yu et al. 提出了一個旋轉不變量方法來檢測地理空間目標,在超像素分割應承擔的策略是首先用於生產當地的補丁,然後,深玻耳茲曼機採用構建高水平的特徵表示本地補丁,最後一組多人規模的腳腕森林是建立起把旋轉不變的選票來定位目標重心。鄒等利用奇異值解算網絡獲取類船區域,採用特徵池操作和線性SVM分類器對每艘候選船進行檢測驗證。雖然這個檢測框架很有趣,但是訓練過程仍然很笨拙和緩慢。

最近,為了實現實時目標檢測,一些研究嘗試將基於回歸的自然場景圖像檢測方法轉移到遙感圖像上。例如,Tang等人與SSD分享了類似的想法,他們使用基於回歸的目標檢測器來檢測車輛目標。具體來說,檢測邊界框是通過對每個feature map位置使用一組具有不同比例的默認框生成的。此外,對於每個默認框,預測偏移量更適合對象形狀。Liu et al.將傳統的邊界框替換為嵌入到SSD框架中的可旋轉邊界框(RBox) ,由於其具有估計物體方位角的能力,因此具有旋轉不變性。Liu等人設計了一個用於檢測任意‐方向船隻的框架。該模型以YOLOv2體系結構為基本網絡,可以直接預測旋轉/定向的邊界盒。此外,hard example mining ,多人特性融合,儘管大多數現有的深度學習方法展示了重大成就基於目標檢測的任務在地球觀測社區,他們是轉移的方法(例如,R-CNN和Faster R-CNN在SSD,等等)設計對自然場景圖像。事實上,正如我們上文所指出的,地球觀測圖像與自然場景圖像的顯著差異是顯著的,尤其是在旋轉、尺度變化以及複雜而雜亂的背景方面。雖然現有的方法通過引入先驗知識或設計專有模型在一定程度上解決了這些問題,但對地球觀測圖像的目標檢測仍然是一個有待進一步研究的開放問題。

4、提出的DIOR數據集

在過去的幾年裡,在地球觀測社區中發佈各種目標檢測數據集的工作取得了顯著的進展。然而,現有的地球觀測領域的目標檢測數據集大多存在一些共同的不足,如圖像數量和目標類別數量都比較小,圖像多樣性和目標變異性不夠。這些局限性極大地影響了基於深度學習的目標檢測方法的發展。在這種情況下,利用遙感圖像建立大規模的目標檢測數據集是地球觀測界迫切需要的。這促使我們創建一個名為DIOR的大型數據集。它是公開的,可以免費用於光學遙感圖像中的目標檢測。

4.1、目標類別選擇

選擇合適的地理空間目標類是構建數據集的第一步,對數據集至關重要。在我們的工作中,我們首先調查了所有現有數據集的目標類獲得NWPU VHR‐10數據集和DOTA數據集中常用的10個目標類別。然後我們進一步擴展數據集的目標類別通過搜索關鍵字「目標檢測」,「目標識別」、「地球觀測圖像」,和「遙感圖像」谷歌學術搜索和網絡科學的仔細選擇其他10個目標類,根據一種目標是否常見或者其價值真實世界的應用程序。例如,選擇火車站、高速公路服務區、機場等交通基礎設施,主要是因為它們在實際應用中的價值。此外,現有數據集中的大多數目標類別都是從城市區域中選擇的。因此,為了提高地理空間目標的多樣性和差異性,選擇了在郊區較為常見的水壩和風磨,以及重要的基礎設施。在這種情況下,總共選擇20個目標類來創建建議的DIOR數據集。這20個目標類分別是飛機、機場、棒球場、籃球場、橋樑、煙囪、大壩、高速公路服務區、高速公路收費站、港口、高爾夫球場、地面田徑場、立交橋、船舶、體育場、儲罐、網球場、火車站、車輛和風磨。

4.2、我們建議的DIOR數據集的特徵

DIOR數據集是地球觀測社區中最大、最多樣化和公開可用的目標檢測數據集之一。我們使用開源圖像注釋工具LabelMe 來注釋目標實例。每個目標實例都由一個水平包圍框手工標記,該框通常用於遙感圖像和自然場景圖像中的目標註釋。圖3報告了每個類的目標實例數。在DIOR數據集中,船舶和車輛的對象類實例數較高,而火車站、高速公路收費站和高速公路服務區的目標類實例數較低。物體大小的多樣性對現實世界的任務更有幫助。如圖4所示,我們在小型實例和大型實例之間實現了良好的平衡。此外,不同類別目標的顯著尺寸差異使得檢測任務更具挑戰性,因為這要求探測器必須足夠靈活,能夠同時處理小尺寸和大尺寸目標。

與包括現有對象檢測數據集在內的現有對象檢測數據集相比,所提出的DIOR數據集具有以下四個顯著特徵。

1)大型規模。DIOR由23463張最優遙感圖像和190288個目標實例組成,這些目標實例用軸向對齊的邊界框手動標記,覆蓋20個常見對象類別。數據集中圖像大小為800×800像素,空間分辨率為0.5m ~ 30m。與大多數現有數據集類似,該數據集也是由地球觀測解釋領域的專家從谷歌Earth(谷歌Inc.)採集的。與所有現有的用於目標檢測的遙感圖像數據集相比,我們所知的DIOR數據集在圖像數量和目標類別數量上都是規模最大的。該數據集的發佈將有助於地球觀測界探索和評估各種基於深度學習的方法,從而進一步提高技術水平。

2)目標尺寸變化範圍大。空間尺度變化是地理空間物體的一個重要特徵。這不僅是因為傳感器的空間分辨率,還因為‐級尺寸變化(例如航空母艦對汽車)和級內尺寸變化(例如航空母艦對漁船)。在所提議的DIOR數據集中,目標實例的大小變化範圍很大。為了增加目標的尺寸變化,我們收集目標空間分辨率不同的圖像,並在我們的數據集中收集同一目標類別和不同目標類別中包含豐富尺寸變化的圖像。如圖5 (a)所示,「vehicle」和「ship」實例的大小不同。此外,由於空間分辨率的不同,「體育場」實例的目標大小也存在明顯差異。

3)豐富的圖像變化。任何目標檢測系統都非常需要的一個特性是對圖像變化的魯棒性。然而,現有的數據集大多缺乏完全或部分的圖像變化。例如,廣泛使用的NWPU VHR‐10數據集僅包含800幅圖像,太小,無法在各種天氣、季節、成像條件、尺度等方面擁有更豐富的變化。相反,所提議的DIOR數據集包含了覆蓋80多個國家的23463幅遙感圖像。此外,這些圖像是在不同的天氣、季節、成像條件和圖像質量下仔細收集的(見圖5 (b))。因此,我們提出的DIOR數據集在視點、平移、光照、背景、物體姿態和外觀、遮擋等方面都有更豐富的變化,對於每個目標類。

4)類間相似性和類內多樣性高。我們提出的數據集的另一個重要特徵是,它具有很高的類間相似性和類內多樣性,因此非常具有挑戰性。為了獲得較大的類間相似性,我們添加了一些細粒度的語義重疊的目標類,如「橋」與「立交橋」、「橋」與「壩」、「田徑場」與「體育場」、「網球場」與「籃球場」等。為了增加類內多樣性,在收集圖像時要考慮各種因素,如不同的目標顏色、形狀和比例。如圖5 (c)所示,「煙囪」實例呈現出不同的形狀,「大壩」和「橋樑」實例呈現出非常相似的外觀。

5、代表方法的基準測試

本節的重點是在我們所提議的DIOR數據集上對一些具有代表性的基於深度學習的對象檢測方法進行基準測試,以便為未來的研究工作提供對當前狀態的概述。

5.1、實驗步驟

為了保證訓練驗證(trainval)數據和測試數據分佈的相似性,我們隨機選取了11725幅遙感圖像(即,50%的數據集)trainval集,剩下的11738圖像作為測試集。trainval數據由兩部分組成,訓練(培訓)和驗證(val)。對於每個目標類別和子集,圖像的數量至少包含一個對象類的目標實例是在表2。注意,一個圖像可能包含多個目標類,因此列總數並不簡單地等於每個對應列的和。如果檢測的邊界框與地面真實值重疊超過50%,則認為檢測是正確的;否則,檢測結果將被視為假陽性。我們在一台只有英特爾酷睿i7 CPU、64 GB內存和NVIDIA Titan X加速GPU的計算機上進行了所有實驗。

我們選取了12種具有代表性的基於深度學習的目標檢測方法作為基準測試算法,這些方法廣泛應用於自然場景圖像和地球觀測圖像中的目標檢測。具體來說,我們的選擇包括8種基於區域建議的方法:R‐CNN、RICNN(使用R‐CNN框架)、RICAOD、Fast R‐CNN、RIFD‐CNN(使用Faster R‐CNN框架)、Fast R‐CNN(帶有FPN和PANet)、Mask R‐CNN以及4種基於回歸的方法:YOLOv3、SSD、RetinaNet和CornerNet。為了進行公平的比較,我們保持了所有的實驗設置與相應的論文中描述的相同。R‐CNN、RICNN、RICAOD 和RIFD‐CNN都是基於Caffe框架構建的。Faster R‐CNN,帶FPN的Faster R‐CNN,帶FPN的Mask R‐CNN, PANet, RetinaNet使用Pytorch重新實現。YOLOv3使用Darknet‐53框架, SSD使用TensorFlow實現。注意,R‐CNN 、RICNN、RICAOD、Faster R‐CNN、RIFD‐CNN和SSD的骨幹網絡為VGG16模型。YOLOv3使用Darknet‐53作為骨幹網絡。對於使用FPN的Faster R‐CNN、Mask R‐CNN、FPN 、PANet和RetinaNet ,我們使用ResNet‐50和ResNet‐101作為骨幹網絡。至於CornerNet,其骨幹網絡是Hourglass‐104。採用平均精度(AP)和平均AP作為評價目標檢測性能的指標。關於這兩個指標的更多細節可以參考。

5.2、實驗結果

12種代表性方法的結果如表3所示。由表3可以看出:(1)主幹網越深,網絡的表示能力越強,檢測精度越高。它通常遵循以下順序:ResNet‐101和沙漏‐104 > ResNet50和Darknet‐53 > VGG16。RetinaNet與ResNet‐101和PANet與ResNet‐101的檢測結果均達到66.1%的最高值。(2)由於CNNs通過正向傳播自然形成特徵金字塔,利用CNNs固有的金字塔層次結構構建特徵金字塔網絡,如FPN和PANet,可以顯著提高檢測精度。在基本的Fast R‐CNN和Mask RCNN系統中使用FPN顯示了在檢測具有廣泛尺度的目標方面的巨大進步。因此,FPN現在已經成為許多最新探測器的基本組成部分,如RetinaNet 和PANet。(3) YOLOv3 在檢測小型目標實例(如車輛、儲罐和船隻)時,總是能夠達到比其他方法更高的精度。特別是對於艦船類,YOLOv3的檢測精度達到87.40%,遠遠優於其他11種方法。這可能是因為Darknet‐53主幹網是專門為目標檢測任務而設計的,而且YOLOv3引入了新的多尺度預測,這使得它能夠從三個不同的尺度中提取更豐富的特徵。(4)對於船舶、飛機、籃球場、車輛、橋樑、RIFD‐CNN 、RICAOD 和RICNN,與Fast R‐CNN和R‐CNN 的baseline方法相比,在一定程度上提高了檢測精度。這主要是因為這些方法提出了不同的策略來豐富遙感圖像的特徵表示,以解決地理空間對象旋轉變化的問題。具體來說,RICAOD設計了一個旋轉敏感區域建議網絡。RICNN通過添加一個新的全連接層,提出了一個旋轉‐不變CNN。RIFD‐CNN在不改變CNN模型結構的前提下,提出了新的目標函數,從而學習了旋轉‐不變和Fisher判別CNN。(5) CornerNet 對20個目標類中的9個獲得了最好的結果,這表明將一個目標檢測為一對邊界框角是一個非常有前景的研究方向。

雖然一些目標類別的結果是有希望的,但幾乎所有目標類別都有很大的改進空間。對於橋樑、港口、立交橋、車輛等目標類,檢測精度仍然很低,現有方法難以取得滿意的結果。這可能是由於航空圖像與自然場景圖像相比,圖像質量相對較低,背景複雜雜亂。這也表明,所提出的DIOR數據集是一個具有挑戰性的地理空間目標檢測基準。在未來的工作中,一些新穎的訓練計劃包括SNIP和SNIPER可以應用於許多現有的檢測器,如更快的R-CNN,Mask R-CNN,R-FCN,deformable R‐FCN來達到更好的效果。

6、結論

本文首先強調了最近在目標檢測方面的進展,包括基準數據集和基於先進深度學習的方法,包括計算機視覺和地球觀測領域。在此基礎上,提出了一個大規模、公開可用的目標檢測基準數據集。這個新的數據集可以幫助地球觀測界進一步探索和驗證基於深度學習的方法。最後,利用所提出的數據集對幾種具有代表性的目標檢測方法的性能進行了評價,實驗結果可作為今後研究的一個有用的性能基準。