RPN在Faster-RCNN中是怎樣運行的
- 2019 年 10 月 7 日
- 筆記
【導讀】Faster-RCNN是目標檢測的一種演算法,而RPN(Region Proposal Network)用於在特徵圖上產生候選預測區域。本文主要介紹RPN的運行機制。
第一步
輸入影像通過卷積網路,在網路的最後一個卷積層上輸出一組卷積特徵圖,如下圖:

第二步
滑動窗口在這些特徵圖上滑動,滑動窗口的大小為NxN,這裡是3×3。每個滑動窗口,都會生成一組9個錨框,它們都具有相同的中心

但有3種不同的ratio(長寬比)和3種不同的scale(比例),如下所示。注意,所有這些坐標都是相對於原始影像計算的。

此外,每個錨框都對應著一個p*,p*表示錨框(anchor box)與真實圖片(baounding box)的重疊度。

其中,iou是交集占合集的比例,如下計算:

第三步
最後,從那些卷積特徵圖中提取的3×3空間特徵(如上面紅框中所示)被送到較小的網路,該網路具有兩個任務:分類(cls)和回歸(reg)。回歸的輸出確定預測的邊界框(x,y,w,h),分類的輸出是指示預測的框是否包含對象的概率p或者它來自背景(不包含對象)。

損失函數在兩個子網的輸出上定義,由兩項相加,還有個平衡因子λ。
參考鏈接:
- https://www.quora.com/How-does-the-region-proposal-network-RPN-in-Faster-R-CNN-work