學術資訊 | 優Tech分享-優圖檢測跟蹤演算法研究概覽

2020 年 9 月 24 日
AI
目標檢測, 目標追蹤

自2012年AlexNet以顯著優勢獲得ILSVRC（ImageNet大規模視覺識別挑戰賽）冠軍以來，業界迅速掀起了深度學習研究的熱潮。藉助深度學習的進步，電腦視覺領域的檢測、跟蹤方向也取得了顯著發展，湧現了眾多性能優異的演算法，如目標檢測領域的faster-rcnn、R-FCN 、SSD、YOLO、RetinaNet等；目標跟蹤領域的deepSort、subgraph multicut、tracktor、Siamese系列、GradNet等。

目標檢測是在影像中定位出目標位置（通常以矩形框形式輸出），目標跟蹤分為單目標跟蹤(SOT)和多目標跟蹤(MOT)。SOT一般在首幀給出目標，跟蹤器(tracker)需要在後續幀定位出目標位置，可以看成目標重定位問題。MOT一般需要檢測器(detector)先檢測出目標，跟蹤器對屬於同一目標的框進行關聯，可以看作目標匹配問題。

從感測器獲取影片流後，檢測、跟蹤往往是整個演算法Pipeline的第一步，其結果輸入給後續的識別、分割、關鍵點、人流計數等演算法使用（如下圖所示）

優圖實驗室以人臉、人體的檢測、跟蹤為基礎，在檢測、跟蹤方向上持續創新，取得了一系列技術進展。並基於長期的技術積累，打造了「千尋」檢測平台和「如影」跟蹤平台，以不斷集成我們自研演算法，提升研究效率，如下圖所示。

在檢測、跟蹤方向上的研究，我們大體上可分三個階段（圖中的Stage1-Stage3）

該階段優圖實驗室以支援各業務線技術需求為主，同時在多目標跟蹤、人臉檢測、行人檢測方向，進行常規探索。該階段主要研究目標是提升通用場景下的模型效果，為此我們提出了TPM、DSFD、NMS-loss等演算法，並在Pattern Recognition、CVPR上發表。

隨著業務的拓展，部分產品提出了時序動作分析的需求，另外近年來學術界在時序動作方向的研究亦逐漸增多，為此優圖拓展了時序動作檢測（識別）技術。通常認為光流包含了影片的運動和時序資訊，因此對光流的研究也很有必要。在這些方向上，優圖實驗室提出了DBG、TEINet、ARFlow自監督光流演算法，並在AAAI、CVPR上發表。

基於前期的技術積累，我們進一步在更複雜、更廣泛的檢測跟蹤問題上展開研究。為充分利用檢測、跟蹤兩種演算法模型的資訊，優圖在學術界首次提出基於兩幀輸入的檢測跟蹤一體化演算法：ChainedTracker。

優圖還嘗試解決超密集場景下多目標跟蹤技術難點，並參加了ACM MM HiEve挑戰賽並獲得第一。在內容審核業務中，提出了卡通人臉檢測需求，支援業務的同時，優圖實驗室參加了IJCAI 2020 卡通臉檢測挑戰賽並獲得冠軍。

以上研究，優圖基本上沿著由點到面、由一般到複雜的路徑推進。一方面研究創新，支撐業務發展。另一方面業務拓展，需要研究不斷進化。

截止目前，優圖實驗室在檢測、跟蹤以及相關方向上共發表了9篇高峰會或期刊論文，刷新了14項挑戰賽或數據集紀錄。發表的Paper簡介如下。

本文提出了一種基於軌跡超平面匹配的多目標跟蹤演算法(TPM)，先將目標檢測框聚合成高置信度短軌跡，再通過軌跡超平面匹配對短軌跡進行聚類和匹配，得到完整目標軌跡。此外，本文還提出了短軌跡重要性評估機制和代表目標選擇網路，進一步提升跟蹤效果，該演算法同時刷新了MOT15、MOT16、MOT17榜單記錄。

本文提出了一種雙分支人臉檢測器，提出了新的特徵增強模組(FEM)、「分層錨點漸進式」的代價函數（PAL）以及「改進的錨點匹配策略」(IAM)，該演算法刷新了人臉檢測兩大數據集WiderFace、FDDB。

本文提出了兩個層次化的圖結構，構建了intra-proposal graph和inter-proposal graph，前者主要用於構造候選框之間的位置關係，後者用於構造行人不同部位之間的語義關係。基於這樣的graph設計，我們的演算法在Caltech、CityPersons上取得了很好的效果提升。

本文提出了一種快速、端到端的動作檢測（動作提名）演算法。提出了proposal feature generation layer（PFG），與之前方法比，PFG能更好的捕獲全局特徵。通過動作完整度回歸模組，獲得額外的action監督資訊。該演算法在刷新了ActivityNet榜單、THUMOS14數據集紀錄。

為更好的提取時序特徵，本文提出了時序增強和交互網路。它包含兩個模組：運動增強模組(MEM)和時序交互模組(TIM)。其中MEM能夠增強運動相關特徵抑制無關資訊，TIM可以補充更多的時序上下文資訊。該演算法刷新了Something-Something v2數據集紀錄，並在Kinetics取得了出色效果。

本文提出了一種新的自監督光流估計方法- ARFlow，基於類比學習，我們僅使用一個model，通過我們提出的變換，將變換後的圖作為自監督資訊，指導模型訓練。我們驗證了我們的演算法框架在多種變換上的有效性，我們的自監督方法可達到近些年監督方法的效果。該方法刷新了MPI-Sintel、KITTI無監督方法紀錄。

本文提出了一種鏈式跟蹤演算法（Chained Tracker），業內首創兩幀輸入模式，實現端到端聯合檢測跟蹤。模型設計上，將目標檢測、特徵提取、目標關聯3個模組融合進入一個model進行全局優化。此外，我們設計了聯合注意力模組(JAM)，進一步提升效果。該演算法也進一步刷新了MOT17紀錄。

本文提出非對稱式卡通臉檢測器，使用非對稱雙向特徵金字塔結構(ABi-FPN)進行多尺度特徵融合，並採用動態錨點匹配策略(DAM)、margin loss提升訓練效果。本文方法榮獲IJCAI 2020 iCartoonFace挑戰賽冠軍。

本文提出了框級超平面匹配演算法BPM，將大規模人體跟蹤任務中的目標分而治之處理。然後引入了基於多層融合機制的人體判別模型LADM，去除誤檢候選框。本文還設計了基於全局注意力的人體特徵模型GAFM，提升跟蹤準確率。該方法榮獲ACM MM 2020 HiEve多目標跟蹤挑戰賽第一名。

電腦視覺行業的蓬勃發展，需要研究不斷創新；另外隨著學術研究的不斷深入，也需要不斷加強與業界的交流。因此，優圖實驗室不但開源已有研究成果，而且與來自世界各地的研究者、開發者討論碰撞，從而進一步提升我們的研究水平。

目前優圖在檢測、跟蹤方向對外開源了4項成果，累計獲得4300+ star，分別是：

1、DSFD高精度雙分支人臉檢測器

2、一階段通用目標檢測庫OneDet

3、時序動作檢測演算法DBG

4、卡通臉檢測演算法ACFD

▶ 開源成果見：//github.com/TencentYoutuResearch/

隨著視覺行業應用的不斷拓展，作為基礎的檢測、跟蹤基礎技術仍將是剛需。但隨著常規問題的解決，檢測、跟蹤領域的研究也出現了一些新的發展趨勢，例如從常規的2D目標檢測到3D目標檢測、從單幀輸入的影像目標檢測到時序動作檢測、從單一的目標框的檢測到目標之間的關係檢測等。跟蹤方向上，相較於之前的「目標框」跟蹤，向「像素級」跟蹤發展。

此外更加實用化的MOT方法受到越來越多人的關注，例如檢測跟蹤的聯合(JDT)。未來，優圖實驗室在持續深耕檢測、跟蹤技術的同時，將探索更多相關的前沿方向，為業務發展提供堅實技術保障。

Tags: 目標檢測目標追蹤

學術資訊 | 優Tech分享-優圖檢測跟蹤演算法研究概覽

VirMach 便宜 VPS

QNews

學術資訊 | 優Tech分享-優圖檢測跟蹤演算法研究概覽

分享此文：

Related Posts

【目標檢測】用Fast R-CNN訓練自己的數據集超詳細全過程

太魔幻了！DALL·E 2 居然能用自創的語言來生成影像，AI模型的可解釋性再一次暴露短板

全新勞斯萊斯古思特長軸中國首發:衛星輔助預知前方道路

Shiro性能優化：解決Session頻繁讀寫問題

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋