學術資訊 | 優Tech分享-優圖檢測跟蹤演算法研究概覽

自2012年AlexNet以顯著優勢獲得ILSVRC(ImageNet大規模視覺識別挑戰賽)冠軍以來,業界迅速掀起了深度學習研究的熱潮。藉助深度學習的進步,電腦視覺領域的檢測、跟蹤方向也取得了顯著發展,湧現了眾多性能優異的演算法,如目標檢測領域的faster-rcnn、R-FCN 、SSD、YOLO、RetinaNet等;目標跟蹤領域的deepSort、subgraph multicut、tracktor、Siamese系列、GradNet等。

目標檢測是在影像中定位出目標位置(通常以矩形框形式輸出),目標跟蹤分為單目標跟蹤(SOT)和多目標跟蹤(MOT)。SOT一般在首幀給出目標,跟蹤器(tracker)需要在後續幀定位出目標位置,可以看成目標重定位問題。MOT一般需要檢測器(detector)先檢測出目標,跟蹤器對屬於同一目標的框進行關聯,可以看作目標匹配問題。

從感測器獲取影片流後,檢測、跟蹤往往是整個演算法Pipeline的第一步,其結果輸入給後續的識別、分割、關鍵點、人流計數等演算法使用(如下圖所示)

優圖實驗室以人臉、人體的檢測、跟蹤為基礎,在檢測、跟蹤方向上持續創新,取得了一系列技術進展。並基於長期的技術積累,打造了「千尋」檢測平台和「如影」跟蹤平台,以不斷集成我們自研演算法,提升研究效率,如下圖所示。

在檢測、跟蹤方向上的研究,我們大體上可分三個階段(圖中的Stage1-Stage3)

該階段優圖實驗室以支援各業務線技術需求為主,同時在多目標跟蹤、人臉檢測、行人檢測方向,進行常規探索。該階段主要研究目標是提升通用場景下的模型效果,為此我們提出了TPM、DSFD、NMS-loss等演算法,並在Pattern Recognition、CVPR上發表。

隨著業務的拓展,部分產品提出了時序動作分析的需求,另外近年來學術界在時序動作方向的研究亦逐漸增多,為此優圖拓展了時序動作檢測(識別)技術。通常認為光流包含了影片的運動和時序資訊,因此對光流的研究也很有必要。在這些方向上,優圖實驗室提出了DBG、TEINet、ARFlow自監督光流演算法,並在AAAI、CVPR上發表。

基於前期的技術積累,我們進一步在更複雜、更廣泛的檢測跟蹤問題上展開研究。為充分利用檢測、跟蹤兩種演算法模型的資訊,優圖在學術界首次提出基於兩幀輸入的檢測跟蹤一體化演算法:ChainedTracker。

優圖還嘗試解決超密集場景下多目標跟蹤技術難點,並參加了ACM MM HiEve挑戰賽並獲得第一。在內容審核業務中,提出了卡通人臉檢測需求,支援業務的同時,優圖實驗室參加了IJCAI 2020 卡通臉檢測挑戰賽並獲得冠軍。

以上研究,優圖基本上沿著由點到面、由一般到複雜的路徑推進。一方面研究創新,支撐業務發展。另一方面業務拓展,需要研究不斷進化。

截止目前,優圖實驗室在檢測、跟蹤以及相關方向上共發表了9篇高峰會或期刊論文,刷新了14項挑戰賽或數據集紀錄。發表的Paper簡介如下。

本文提出了一種基於軌跡超平面匹配的多目標跟蹤演算法(TPM),先將目標檢測框聚合成高置信度短軌跡,再通過軌跡超平面匹配對短軌跡進行聚類和匹配,得到完整目標軌跡。此外,本文還提出了短軌跡重要性評估機制和代表目標選擇網路,進一步提升跟蹤效果,該演算法同時刷新了MOT15、MOT16、MOT17榜單記錄。

本文提出了一種雙分支人臉檢測器,提出了新的特徵增強模組(FEM)、「分層錨點漸進式」的代價函數(PAL)以及「改進的錨點匹配策略」(IAM),該演算法刷新了人臉檢測兩大數據集WiderFace、FDDB。

本文提出了兩個層次化的圖結構,構建了intra-proposal graph和inter-proposal graph,前者主要用於構造候選框之間的位置關係,後者用於構造行人不同部位之間的語義關係。基於這樣的graph設計,我們的演算法在Caltech、CityPersons上取得了很好的效果提升。

本文提出了一種快速、端到端的動作檢測(動作提名)演算法。提出了proposal feature generation layer(PFG),與之前方法比,PFG能更好的捕獲全局特徵。通過動作完整度回歸模組,獲得額外的action監督資訊。該演算法在刷新了ActivityNet榜單、THUMOS14數據集紀錄。

為更好的提取時序特徵,本文提出了時序增強和交互網路。它包含兩個模組:運動增強模組(MEM)和時序交互模組(TIM)。其中MEM能夠增強運動相關特徵抑制無關資訊,TIM可以補充更多的時序上下文資訊。該演算法刷新了Something-Something v2數據集紀錄,並在Kinetics取得了出色效果。

本文提出了一種新的自監督光流估計方法- ARFlow,基於類比學習,我們僅使用一個model,通過我們提出的變換,將變換後的圖作為自監督資訊,指導模型訓練。我們驗證了我們的演算法框架在多種變換上的有效性,我們的自監督方法可達到近些年監督方法的效果。該方法刷新了MPI-Sintel、KITTI無監督方法紀錄。

本文提出了一種鏈式跟蹤演算法(Chained Tracker),業內首創兩幀輸入模式,實現端到端聯合檢測跟蹤。模型設計上,將目標檢測、特徵提取、目標關聯3個模組融合進入一個model進行全局優化。此外,我們設計了聯合注意力模組(JAM),進一步提升效果。該演算法也進一步刷新了MOT17紀錄。

本文提出非對稱式卡通臉檢測器,使用非對稱雙向特徵金字塔結構(ABi-FPN)進行多尺度特徵融合,並採用動態錨點匹配策略(DAM)、margin loss提升訓練效果。本文方法榮獲IJCAI 2020 iCartoonFace挑戰賽冠軍。

本文提出了框級超平面匹配演算法BPM,將大規模人體跟蹤任務中的目標分而治之處理。然後引入了基於多層融合機制的人體判別模型LADM,去除誤檢候選框。本文還設計了基於全局注意力的人體特徵模型GAFM,提升跟蹤準確率。該方法榮獲ACM MM 2020 HiEve多目標跟蹤挑戰賽第一名。

電腦視覺行業的蓬勃發展,需要研究不斷創新;另外隨著學術研究的不斷深入,也需要不斷加強與業界的交流。因此,優圖實驗室不但開源已有研究成果,而且與來自世界各地的研究者、開發者討論碰撞,從而進一步提升我們的研究水平。

目前優圖在檢測、跟蹤方向對外開源了4項成果,累計獲得4300+ star,分別是:

1、DSFD高精度雙分支人臉檢測器

2、一階段通用目標檢測庫OneDet

3、時序動作檢測演算法DBG

4、卡通臉檢測演算法ACFD

▶  開源成果見://github.com/TencentYoutuResearch/

隨著視覺行業應用的不斷拓展,作為基礎的檢測、跟蹤基礎技術仍將是剛需。但隨著常規問題的解決,檢測、跟蹤領域的研究也出現了一些新的發展趨勢,例如從常規的2D目標檢測到3D目標檢測、從單幀輸入的影像目標檢測到時序動作檢測、從單一的目標框的檢測到目標之間的關係檢測等。跟蹤方向上,相較於之前的「目標框」跟蹤,向「像素級」跟蹤發展。

此外更加實用化的MOT方法受到越來越多人的關注,例如檢測跟蹤的聯合(JDT)。未來,優圖實驗室在持續深耕檢測、跟蹤技術的同時,將探索更多相關的前沿方向,為業務發展提供堅實技術保障。