隔空手勢交互,在現實世界上演「得心應手」

圖層 2.png

【得心應手:心裏怎麼想,手就能怎麼做】

手,作為人體最靈活的器官,參與我們生活的方方面面;手,是除了眼睛之外能直接感受三維世界和物體的器官;手,作為無聲的交互工具,已經在計算機領域佔了無比重要的地位。 

在人機交互界面,手的交互是至關重要的,於是我們開始有了越來越多的「觸控交互」,但隨着技術的發展,為了身體解放,越來越多的設備引入了「手勢交互」技術。

「手勢交互」在於,人們在各種電子設備的使用時,可以不再局限於通過接觸屏幕、鼠標、鍵盤等進行操作,而是完全擺脫操作介質。

阿里雲視頻雲的「隔空手勢」,便是一項「未來式」交互方式技術。

 final.png

上班不用鼠標,上演「隔空」操作

一則程序員的「隔空手勢」視頻,可以體感一場辦公場景下的隔空交互操作,這是阿里雲視頻雲基於手勢識別技術研發的「智能手勢交互引擎」。

可以看到,短視頻中的程序員,無論是瀏覽頁面、登錄系統、還是精細的完成視頻剪輯,都不再是通過鼠標、鍵盤按部就班的操作,而是以各種靜態和動態的手勢,順滑、實時、精準的實現隔空控制與操作,而這種精細的操控程度,在隔空手勢交互技術上,是突破現有瓶頸的。

ezgif.com-gif-maker (11).gif

對比「觸控交互」需要用戶和設備進行接觸操控,「語音交互」需要進行聽、說以及高精度識別的過程,而「手勢交互」具備人類使用習慣的天然優勢,成為「觸控交互」及「語音交互」的不便利場景下的另一優解。

說到隔空手勢交互,其基礎便是「手勢識別」技術。

從手勢識別說起

在計算機科學中,手勢識別是通過數學算法來識別人類手勢的一個議題,即用戶可以通過手勢來控制或與設備交互,讓計算機理解人類的行為。

手勢識別的關鍵技術包含,手勢分割、手勢分析,以及靜態和動態的手勢識別。無論是靜態還是動態的手勢,其識別順序首先需要對所獲圖像的手的檢測和手勢分割;再通過手勢分析,獲得手勢的形狀特徵或者是運動軌跡;最後根據手勢分析中的重要特徵,完成靜態或動態的手勢識別。

手勢識別的研究和發展影響着人機交互的自然性和靈活性。當前,業內大多數研究者將注意力集中在手勢的最終識別方面,通常會將手勢背景簡化,在單一背景下利用算法對手勢進行分割及分析。

但在現實應用中,人的手通常處於複雜的環境下,需要考慮如:光線過亮或過暗,手勢距採集設備距離不同等複雜因素,從而做到精準的手勢識別。

阿里雲視頻雲的「智能手勢交互引擎」, 如何使「隔空手勢」更具智能性和交互力?

高性能的智能手勢交互引擎

由於複雜的手指手掌結構和在運動時的高度靈活性,手勢關鍵點跟蹤十分具有挑戰性。阿里雲視頻雲團隊研發的智能手勢交互引擎,通過對21個手部關鍵點的精準識別和跟蹤,支持25種基礎靜態手勢的識別。

圖片 1.png

基於這25種基礎手勢,結合手掌姿態的信息和場景,可以延伸出百餘種手勢。例如伸大拇指的手勢,我們可以根據大拇指和大拇指的方向精準識別出:點贊(拇指向上)、差評(拇指向下)、向左(拇指向左)、向右(拇指向右)等等。

視頻中,Left_Prob表示左手的置信度, Gesture_ID表示識別到的手勢ID。

除了靜態手勢之外,類似上下左右滑動、左右翻頁、縮小放大、拜拜等多種動態手勢也能被精準識別和跟蹤,從而實現上述視頻中「隔空」實現視頻剪輯的效果。 

值得一提的是,阿里雲視頻雲的「智能手勢交互引擎」的算法不僅能保證「高精度」和「高穩定性」, 更是做到了「超輕量」 。

「高精度」是指能夠準確的識別各種各樣的手部姿態及定位手部關鍵點的位置,即使在暗光、背光等挑戰性場景也有很好的表現;

「高穩定性」,是通過算法的深度打磨,能夠對手部關鍵點檢測輸出穩定的關鍵點位置, 做到手勢交互操作的超低延遲。

「超輕量」體現在普通設備單線程運行中, 平均每幀耗時僅有6.5毫秒,處理性能可以達到150fps以上,模型大小僅為2.6MB,兼容所有主流平台,非常適合在普通的移動端手機的部署和應用。

一切因手勢交互而卓然不同

新交互正在成為趨勢,而解放身體的更自然的交互也是交互演進的方向,可以想像,能夠為生活、工作、學習帶來全新的形態與體驗,而阿里雲視頻雲的隔空手勢交互作為「交互黑科技」,已經可以逐步運用到各類場景中。

在互動課堂場景,為了視力健康和豐富體驗,學生可以全程與屏幕保持距離,通過隔空手勢,學生可以完成課程選擇、問題回答、翻頁、舉手等多樣化的交互操作。

在疫情常態化和課堂線上化的今天,智能手勢交互引擎助力行業用戶重新定義了在線課堂的教學內容互動模式,使師生屏幕前的教學不再是單向的知識灌輸,而是以在線課堂的互動性與感知度,高度豐滿教育智趣。

在電商與娛樂直播場景,主播一邊直播一邊操控手機屏幕會造成的極大不便,然而,利用手勢交互,主播可以通過手勢特效與直播觀眾實時互動,還可以用手勢來控制直播流程和畫面;在用戶端,可以結合用戶的手勢,如:點贊、比心等等,實時呈現相應的各種貼紙和特效,極大提升交互體驗。

在數字展廳場景,數字化的視覺展示一直在不斷創新,利用隔空手勢,參觀者可以不用操控屏幕,通過隔空手勢對展品的旋轉移動,可以360度全景了解展品,尤其在疫情時期也能減少密切接觸帶來的安全隱患。 

在智能駕駛領域,將手勢識別應用到駕駛輔助系統中,司機可以使用手勢來控制車內的各種功能、參數,避免視線轉移帶來的駕駛安全隱患。

而在日常生活中,隔空手勢識別更可以與智能硬件做深度結合,例如智能家電、智能機械人等,以隔空手勢來才操控家電,便利性更加凸顯,讓人機交互更有體驗感。當然,把隔空手勢識別運用到生活的線下活動中,發揮想像力,還可以有更多有趣的互動體驗。 

針對「智能手勢交互引擎」,阿里雲視頻雲已經在2D手勢識別進行了較為成熟的技術與應用沉澱,未來,也將繼續探索先進的手勢交互技術,尤其是針對3D手勢交互,通過檢測手在三維空間中的位置信息,我們可以更加準確的識別手部的動作, 從而實現更加複雜的交互, 例如驅動一個3D的虛擬人, 或者實現手持虛擬物品等AR特效。通過3D手部姿態的識別,以帶來更豐富、更沉浸、更智能在線交互體驗。

莊子《天道》曾說: 「不徐不疾,得之於手而應於心,口不能言,有數存焉於其間。」

即,「不慢不快,應於心而得之於手,雖不能言說,卻有技巧奧妙存在於其間。」 

手勢交互技術一定是這樣的奧妙存在,不論任何場域,讓你得心應手。


「視頻雲技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音視頻領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲視頻雲產品技術交流群,和業內大咖一起探討音視頻技術,獲取更多行業最新信息。