新聞動態 | 騰訊優圖刷新人體姿態估計國際權威榜單，相關論文被ECCV2020收錄

2020 年 10 月 26 日
AI
姿態檢測

近日，騰訊優圖實驗室在人體2D姿態估計任務中獲得創新性技術突破，其提出的基於語義對抗的數據增強演算法Adversarial Semantic Data Augmentation (ASDA)，刷新了人體姿態估計國際權威榜單。相關論文（Adversarial Semantic Data Augmentation for Human Pose Estimation）已被電腦視覺頂級會議EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV2020)收錄。

作為電腦視覺領域的基礎技術之一，人體姿態可以理解為對「人體」的姿態（關鍵點，比如頭、左手、右腳等）的位置估計，其中2D人體姿態估計在多種視覺應用中發揮著重要作用。不過儘管該技術方向的研究歷程較長，但在一些挑戰場景下效果依然不盡人意。

如圖1所示，對於對稱性較強的人體、遮擋比較嚴重的場合以及多人場景，2D姿態估計的表現普遍不佳。解決上述問題的一種有效的方法是對數據集進行數據增強，然而現有的數據增強演算法比如圖片翻轉、旋轉或圖片色度改變，均為全局尺度上的數據增強方式，無法解決圖中所示局部部件帶來的挑戰性案例。

圖1 二維人體姿態估計的挑戰性案例

為解決上述提及的難點，優圖提出了基於語義對抗的數據增強演算法Adversarial Semantic Data Augmentation (ASDA)。該演算法的整體pipeline如圖2所示，輸入圖片經過生成網路，進行語義粒度上的數據增強；增強後的圖片作為姿態估計網路的輸入，進行姿態估計，得到二維人體姿態。生成網路生成增強樣本，提升姿態估計網路的預測難度，姿態估計網路則試圖預測增強後圖片。

圖2 ASDA演算法流程圖

與其他演算法相比，騰訊優圖的演算法有三點創新。創新之一，提出了一種基於局部變換的數據增強方式，有效填補了全局數據增強的缺陷。

創新之二設計了一種基於人體語義部件的數據增強演算法（SDA, Semantic Data Augmentation），通過語義粒度上的影像替換以及變換來有效模擬之前網路無法處理的挑戰案例。

第三點創新便是提出了ASDA演算法，該演算法在MPII、COCO、LSP等主流二維人體姿態估計Benchmark上均超過了以往Baseline，達到State-of-the-art精度，將人體2D姿態估計精度水平推進到全新高度。ASDA作為一種通用的數據增強方法，可以便捷地用在二維人體姿態估計的不同數據集以及不同網路結構上。

圖4-7展示了ASDA方法在以上三個權威數據集上與其他過往SOTA方法在預測精度上的定量對比結果。為了方便展示ASDA演算法效果，在COCO測試集進行可視化得到圖3，可以看到ASDA方法能夠有效解決圖1中的挑戰性案例。