讀唇術OUT了!在喉嚨安裝傳感器,通過皮膚震動錄入聲音!東大索尼共同研發

大數據文摘出品

來源:ITmedia

編譯:李欣月

不出聲,僅僅通過喉嚨和下顎的皮膚震動就能知道你想說什麼。

這可不是特工電影里某個天馬行空的高科技,最近,東京大學和索尼計算機科學研究所(CSL)共同研發出AI系統「Derma」就能實現上述功能,通過將傳感器貼合在喉嚨周圍的皮膚上,就能實現從口形(無聲說話)到語音的轉化。

電影里奄奄一息的富翁想要修改遺囑卻無法發聲最終被自私的兒子私吞財產的事再也不會發生了,當然首先,你要成為富二代。

不過,這項技術可不是用來干這個的。

據相關研究人員透露,研究靈感最初來源於視聽障礙者的觸診唇讀法,他們會用手指觸摸說話者的嘴唇和下巴周圍,以此讀取說話內容。也就是說,他們通過觸摸障礙者嘴唇周圍的皮膚就可以知道他們的說話內容。

研究中,研究者們利用機器學習把整個過程自動化,完成了深層學習的無聲語音交互(Silent Speech Interaction,SSI)。

傳感器安裝圖

不過目前相關設備還在進一步地完善中,與可穿戴電子設備和身體嵌入式計算設備結合也還處於設想階段。

但是想想總不是什麼壞事。

具體說一下「Derma」。

只要在下顎皮膚的兩個位置安裝MEMS(Micro ElectroMechanical Systems)加速度計和角速度傳感器,就能通過隨着說話發生的下顎運動和舌肌運動引起的從下顎到喉嚨的皮膚顫動,進行無聲的「語音識別」了。

實驗中,研究者從傳感器上獲取到了12維皮膚運動信息,通過深度學習能夠分析識別35種發聲命令短語,而且他們發現,系統的識別準確率達到了94%以上

Derma的概要圖:利用附着在咽喉周圍皮膚上的加速度/角速度傳感器,通過無聲說話獲取下顎皮膚運動信息,利用深層學習進行分析和識別

於是,利用生成音素記號系列的連接時間分類(Connectionist Temporal Classification, CTC)的神經網絡進行訓練,訓練之後的模型就能把無聲說話的皮膚顫動轉換為語音,轉換後的語音合成除了可以輸入到附近的具有語音識別功能的數字設備(語音助手)之外,還可以用於幫助因聲帶損傷等原因而難以發聲的用戶進行交流

實驗使用的加速度/角速度傳感器

與現有的無聲語音交互研究相比,這個設備在安裝時並不顯眼,而且體積小、重量輕、耗電量低,不易受到照明條件等周圍環境因素的影響。在生活中,該設備也不會影響到使用者的正常生活,吃飯和日常的交流可以照常進行,簡直不能再實用。

相信這個設備在未來會造福大批殘障人士

相關報道:

https://www.itmedia.co.jp/news/articles/2003/18/news046.html