當姿態估計算法遇上《本草綱目》,看「劉畊宏男孩」如何驅動虛擬人

最近,最炙烈的話題莫過於劉畊宏的男孩女孩們。

劉畊宏的燃脂健身直播刷屏網絡,掀起了一陣狂熱不退的居家健身潮,以周杰倫的《本草綱目》為旋律的毽子舞,更是引發了全民打卡熱。

於是,程序員圈是怎麼游刃於這波熱潮的?

A44FB90C-543D-45B9-A99A-8F70694D12D2.png

阿里雲程序員化身「劉畊宏男孩」

一則程序員的「本草綱目」讓大家預熱體會一下「人體姿態估計算法」。

短視頻中,阿里雲視頻雲工程師身上酷似「火柴人「的造型,便是將「人體姿態估計算法」可視化,而人體姿態識別是計算機視覺中的重要任務,也是計算機理解人體的動作、行為不可或缺的一部分。

早在劉畊宏現象之前,視頻雲技術團隊就開始深耕人體姿態估計算法,此次算法工程師們紛紛化身「劉畊宏男孩」,就是為了探索「人體姿態估計算法」的真實場景應用。

我們知道,在劉畊宏健身熱潮的同時,隨之受傷的男孩女孩們更是不計其數,雖然劉畊宏在社交媒體會為部分粉絲批改視頻、糾正動作,但還是難以解決部分粉絲跟跳受傷的情況。

當然,肉眼識別的誤差很大,僅靠人力是無法完成粉絲的動作糾正。於是,一種更智能、更高效的識別技術可以解決這個問題,即「人體姿態估計算法」。

人體姿態估計算法?

人體姿態是人體重要的生物特徵之一,進行姿態估計是人體數字化與智能化的重要技術基礎,具有廣泛的應用場景,包含步態分析、視頻監控、增強現實、人機交互、體育科學等等。

我們所說的人體姿態估計(Pose Estimation),包含了目標檢測、人體骨骼關鍵點檢測、分割等關鍵技術,旨在給定圖像視頻之後,根據圖像視頻中的人體信息,定位並確定人體各個部位的骨骼關鍵點,從而對人體的姿態進行估計。

可以看到短視頻中工程師們身上酷似「火柴人」的形態,代表了人體18個人體骨骼關鍵點(頭部、肩部關節、肘部關節等)的精準識別。

part2.png

人體18個人體骨骼關鍵點

阿里雲視頻雲的人體姿態估計算法,能夠快速、精準實現靜態和動態場景下的動作識別,並且,更關鍵的是,能隨着人體的運動變化可以在移動端實現多人、實時跟蹤識別。

截屏2022-05-18 上午10.18.52 (2).png

移動端實時人體18個關鍵點識別

要知道,在移動端實現多人、實時跟蹤識別,並非易事。

移動端受限於硬件計算能力,特別是一些性能較差的低端機,需要設計輕量級的模型結構和工程化策略來實現實時運行,而多人識別的難點在於如果對每個人進行分別單獨的預測,所耗時間就會成比例上升,也難以實時完成。

為了實現實時和精度的平衡,阿里雲視頻雲在技術上對Bottom-Up方案(先檢測出圖像中的所有關節點,再判斷每一個關節點屬於哪一個人,實現步驟是關鍵點檢測到關鍵點匹配)進行了整體的改進和優化,其預測了兩個feature map分支,一個是如肩部關節、肘部關節等關鍵點未知的預測,另一個是預測兩兩關鍵點之間的矢量場,這是用來判斷各個關鍵點屬於圖中的哪個人,並通過「匈牙利算法」來組裝成一個完整的人。

由此,才能實現移動端多人實時的姿態識別,打開更低門檻、更廣泛的商業場景應用空間。

算法帶來的真實價值

技術的探索,終點服務於人的生活。

人體姿態估計技術的一個應用是動作識別。

例如在體育健身場景中,阿里雲視頻雲的人體姿態估計算法,除了能夠識別各種動作及對風險動作進行識別預警,進而還能給出動作準確度等信息反饋,利用運動更精準、更實時、更多人的準確性判斷,同時也可對跳繩、深蹲、俯卧撐等各類動作進行運動計數等更多數字化體育科技服務。

part.png 人體姿態估計的動作識別

具象到場景,技術在養老、醫學、體育競技、運動訓練等等場景都有重要價值。

在養老行業,通過算法可精準識別老人的潛在危險動作並實時發出預警;

在醫學領域,技術可用於觀察骨骼恢復狀況,以及病人的姿態監督;

在競技體育界,可以通過監督運動員姿態,創建輔助訓練系統,分析運動員的每一時刻的動作,協助運動員找到更好的姿勢;

在日常運動上,技術可以更直觀地應用於各類健身、體育、舞蹈等的自動教學上。

當然,在視頻監控、金融服務、移動支付、娛樂社交、遊戲互動等更多具體場景中,該技術還有更具價值的應用空間。

更智趣的虛擬人驅動

人體姿態估計技術的另一個有趣應用,是通過追蹤人體姿態的變化來實現虛擬人的驅動。

一般來說,真人驅動型虛擬數字人是以真人為核心,通過3D建模、動作捕捉技術、渲染等技術,形成一個虛擬化身。

目前,虛擬數字人肢體動作的主要實現方式是光學式動作捕捉、慣性式動作捕捉,及基於計算機視覺的動作捕捉。

光學式動作捕捉的原理是跟蹤、識別並命名目標身上各反光標記點,得出目標的基本骨架,再對標記點位進行持續跟蹤。慣性式動作捕捉主要以裝備用於人體各主要骨骼節點上的慣性傳感器,從而完成數據採集,通過處理建立運動的三維模型。

然而,當前的這兩種方式存在諸多問題:對環境要求高、軟硬件設備高昂,以及精度較低、連續使用易產生累積誤差等。

虛擬人實時驅動示意

然而,大家可以看到,視頻中的工程師即使在普通室外環境及無穿戴傳感器設備的情況下,便可精準驅動虛擬人,這便是基於計算機視覺的動作捕捉,即基於拍攝到的二維圖像、三維形狀特徵,以還原各關節點運動信息。

值得一提的是,阿里雲視頻雲的技術團隊通過視頻雲超輕量級別的人臉跟蹤及AAI推理框架實現了虛擬人的面部表情模擬,並能在PC端CPU實現實時驅動+渲染,同時正在加入手掌及手勢的全態模擬,在虛擬人的交互性與時效性上帶來更多體驗、更多價值。 

除了以上,目前阿里雲視頻雲的人體姿態估計算法的諸多應用已經集成到阿里雲Queen SDK產品中,而在人體姿態識別的基礎上,Queen本身還有多項人體特效功能,如精準美體瘦身等,也歡迎大家體驗demo(體驗鏈接)。

人體姿態估計的重要應用價值,不僅豐富於生活場景,更吸引着越來越多工業界以及學術研究人員的目光。未來,隨着人體姿態估計相關技術的持續升級,其應用優勢會更加顯性,應用領域也將更加廣泛。

同時,人體數字化與智能化是更大的課題,對於虛擬世界、大健康產業、工業產業都是更具突破性的技術延展,阿里雲視頻雲也將繼續探索先進的視覺智能技術,促進人體數字化與智能化在各行各業的真實落地。


「視頻雲技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音視頻領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲視頻雲產品技術交流群,和業內大咖一起探討音視頻技術,獲取更多行業最新信息。