UC伯克利黑科技:用語音數據預測說話人手勢
- 2019 年 12 月 27 日
- 筆記
看到一篇CVPR 2019 論文《Learning Individual Styles of Conversational Gesture》,通過語音數據識別說話人手勢,覺得蠻有意思。
下面這張圖道出了作者們做的事情:

最下面一排是語音訊號,中間是通過語音訊號生成的手勢數據,最上面是通過得到的手勢數據合成的人物影片。
看起來還真是那麼回事~
以下是作者資訊:

作者來自UC伯克利、Zebra Medical Vision、MIT(簡直就是黑科技集中營)。
手勢識別是人機交互中的重要技術,以往的方案中可以使用深度相機數據識別,也可以使用RGB影像影片識別,對於前者Intel貌似一直做的很不錯,對於後者現在最知名的開源庫就是OpenPose了(OpenCV手部關鍵點檢測(手勢識別)程式碼示例)。
手勢畢竟應該是個視覺問題,不通過視覺訊號能識別手勢嗎?
在現實的人類溝通中,手勢和說話人語音往往是強相關的,手勢訊號是人類正常溝通的一部分。這在演講中表現最為明顯。

通過人類說話的影片數據建立語音與手勢的關係,然後直接通過語音生成手勢,這看起來是個很大膽的想法。
為了避免人工標註,論文作者們直接使用OpenPose對人物說話的影片進行姿態估計,得到手和臂的手勢數據。

雖然這種弱監督資訊有一些標註錯誤,但在這個問題上已經夠用了。
然後作者們的做法也非常簡單粗暴,直接使用語音數據UNet解碼結構生成手勢姿態中關鍵點的位置。
如下圖:

輸入數據是一段語音頻譜數據(2D log-mel spectrogram),通過全卷積網路和1D UNet結構,生成手勢數據,通過L1 回歸Loss監督學習。
另外作者發現只用L1回歸損失是不夠的,容易回歸到手勢的均值狀態,作者又加了一個判別器D,用於判別生成的手勢像不像真的。
跟其他方法比起來,本文演算法在數值結果上是很優秀的:

視覺比較也很自然(請點擊查看大圖):

大家可以通過影片感受下:
影片中將手勢合成人物動作的技術來自:
C. Chan, S. Ginosar, T. Zhou, and A. A. Efros. Everybody Dance Now. ArXiv e-prints, Aug. 2018.
當然這一技術很有用,比如可以直接用其控制虛擬主持人的手勢,讓直播更自然。
作者稱程式碼將開源,而且創建的數據也提供下載。
論文地址:
https://arxiv.org/abs/1906.04160v1
項目地址:
http://people.eecs.berkeley.edu/~shiry/speech2gesture/
程式碼地址:
https://github.com/amirbar/speech2gesture
技術在造假成真的路上走的越來越遠了。