腦機接口領域全新里程碑:意念說話,機器解讀

  • 2019 年 11 月 29 日
  • 筆記

By 超神經

場景描述:利用神經網絡將人說話時,相應大腦區域的神經信號進行解碼,然後使用循環神經網絡將信號合成為語音,可幫助語言障礙患者解決語言溝通問題。

關鍵詞:循環神經網絡 解碼器 腦機接口 語音合成

「讀心術」可能真的要實現了。

說話對大多數人來說是一件再尋常不過的事。但是,這個世界上還有很多人,遭受這些疾病的折磨:中風、創傷性腦損傷、神經系統變性疾病如帕金森病、多發性硬化症和肌萎縮側索硬化症(ALS 或 Lou Gehrig 病)等,他們往往因此喪失說話能力,且不可逆轉。

科學家們一直在恢復人體功能、神經修復方面做着努力,腦機接口(brain-computer interface,BCI)便是一個重點領域。

腦機接口指的是,在人或動物大腦與外部設備之間創建的直接連接,實現腦與設備的信息交換。

腦機接口中的「腦」指的是有機生命形式的

腦或神經系統,並非僅僅指大腦

但是似乎一直以來,腦機接口都是一個遙遠的概念。而今天,頂尖學術期刊《Nature》上發表的論文《Speech synthesis from neural decoding of spoken sentences》(《口語語句神經解碼的語音合成》),讓我們看到腦機接口領域的研究向前邁進了一大步。

語言障礙患者的困境

事實上,腦機接口的研究已經持續超過 40 年。但至今最成功、臨床應用最普及的只有人工耳蝸等感覺修復技術。

至今,一些患有嚴重語言障礙的人,仍然只能使用輔助設備逐字逐句地表達他們的想法。

這些輔助設備能夠跟蹤非常細微的眼睛或面部肌肉運動,根據患者動作示意去拼寫詞句。

物理學家霍金,他的輪椅上就曾安裝這樣的設備。

霍金依靠語音合成器來「說話」,他曾使用過多套輔助交流系統

當時,霍金靠紅外線檢測到的肌肉運動來發出命令,確認電腦光標掃描過的字母,寫下他想要的文字。之後,再利用文字轉語音設備把話「說」出來。正是藉助這些黑科技,我們才能夠看到他的著作《時間簡史》。

然而,用這樣的設備產生文本或合成語音不僅費力,還易出錯,而且合成速度非常慢,通常允許每分鐘最多 10 個單詞。霍金當時速度已經很快,但是也只能拼出 15-20 個單詞。而自然語音每分鐘能達到 100 到 150 個單詞。

此外,這種方法還嚴重受限於操作者自身的肌體運動能力。

為解決這些難題,腦機接口領域一直在研究如何直接將腦皮層相應電信號解讀成語音。

神經網絡解讀大腦信號合成語音

如今,這個難題迎來了突破性進展。

加州大學舊金山分校的神經外科教授 Edward Chang 與同事在此次發表的論文《口語語句神經解碼的語音合成》中,提出其創建的腦機接口能將人講話時產生的神經信號解碼,併合成為語音。系統每分鐘能夠生成 150 單詞,接近人類正常講話語速。

論文第一作者 Gopala Anumanchipalli 拿着一組

用於記錄當前研究中的大腦活動的示例性顱內電極

該團隊研究人員招募正在接受治療的五名癲癇病人,讓他們大聲說出幾百個句子,與此同時,將他們的高密度腦電圖(ECoG)信號記錄下來,並跟蹤大腦的語音產生中心——腹側感覺運動皮層區域的神經活動。

利用循環神經網絡(RNN),研究人員分兩步破譯了採集到的神經信號。

第一步,他們將神經信號轉換為表徵發音器官動作的信號,包括下巴、喉、嘴唇和舌頭動作相關的腦信號。

第二步,根據解碼出來的發音器官動作,把信號轉換為說出的詞句。

腦機接口實現語音合成的步驟圖示

在解碼流程上,研究者首先將患者說話時,三個腦區域表層的連續電圖信號解碼,這些電圖信號由侵入式電極記錄。

解碼後得到 33 種發音器官運動特徵指標,隨後將這些運動特徵指標解碼為 32 項語音參數(包括音高(pitch)、清濁(voicing)等),最終根據這些參數合成語音聲波。

為分析合成語音對真實語音的重現準確度,研究人員將原始語音與合成語音的聲波特徵作了比較,發現神經網絡解碼的語音,相當完整地重現了患者所述原始語句中的單個音素,以及音素間的自然連接和停頓。

原始語音聲波(上)與合成語音聲波(下)對比

之後,研究人員以眾包方式,讓網友來辨認解碼器合成的語音。最後結果是,傾聽者複述合成語音內容的成功率接近70%。

此外,研究人員還測試了解碼器對於不出聲說話的語音合成能力。測試者先說出一個句子,然後默念同一個句子(有動作,但不出聲)。結果顯示,解碼器對默念動作合成的語音頻譜與同一句子的有聲頻譜是相似的。

口語句子神經解碼的語音合成演示

里程碑:挑戰與期待並存

「這項研究首次表明,我們可以根據個人的大腦活動生成完整的口語句子,」Edward Chang 說,「這令人振奮。這是已經觸手可及的技術,我們應該能夠為語言功能丟失患者,構建具有臨床可行性的設備。」

Edward Chang 博士的研究重點是

言語、運動和人類情感的大腦機制

論文第一作者 Gopala Anumanchipalli 補充說:「我很自豪能夠將神經科學,語言學和機器學習的專業知識,作為幫助神經殘疾患者這一重要里程碑的一部分。」

當然,要真正地百分百實現語音合成的腦機接口語音交互,依然存在很多挑戰,比如患者是否能接受侵入式手術安裝電極、實驗中的腦電波是否與真實患者的腦電波相同等等。

但是,從這項研究中,我們看到了語音合成腦機接口不再是一個概念。

期待未來某一天,語言障礙患者能夠早日重獲「說話」的能力,早日傾吐他們的心聲。

超神經百科

前饋神經網絡 Feedforward Neural Networks

前饋神經網絡是人工智能領域中,最早發明的簡單人工神經網絡類型。在它內部,參數從輸入層向輸出層單向傳播。有異於遞歸神經網絡,它的內部不會構成有向環。

前饋(feedforward)也可以稱為前向,從信號流向來理解就是輸入信號進入網絡後,信號流動是單向的,即信號從前一層流向後一層,一直到輸出層,其中任意兩層之間的連接並沒有反饋(feedback),亦即信號沒有從後一層又返回到前一層。如果從輸入輸出關係來理解,則為當輸入信號進入後,輸入層之後的每一個層都將前一個層的輸出作為輸入。

當前饋神經網絡中層與層之間的信號有反向流動,或者自輸入時,我們則稱這種網絡為循環神經網絡。

在深度前饋網絡中,鏈式結構也就是層與層之間的連接方式,層數就代表網絡深度。