腦機接口領域全新里程碑：意念說話，機器解讀

2019 年 11 月 29 日
筆記

By 超神經

場景描述：利用神經網絡將人說話時，相應大腦區域的神經信號進行解碼，然後使用循環神經網絡將信號合成為語音，可幫助語言障礙患者解決語言溝通問題。

關鍵詞：循環神經網絡解碼器腦機接口語音合成

「讀心術」可能真的要實現了。

說話對大多數人來說是一件再尋常不過的事。但是，這個世界上還有很多人，遭受這些疾病的折磨：中風、創傷性腦損傷、神經系統變性疾病如帕金森病、多發性硬化症和肌萎縮側索硬化症（ALS 或 Lou Gehrig 病）等，他們往往因此喪失說話能力，且不可逆轉。

科學家們一直在恢復人體功能、神經修復方面做着努力，腦機接口（brain-computer interface，BCI）便是一個重點領域。

腦機接口指的是，在人或動物大腦與外部設備之間創建的直接連接，實現腦與設備的信息交換。

腦機接口中的「腦」指的是有機生命形式的

腦或神經系統，並非僅僅指大腦

但是似乎一直以來，腦機接口都是一個遙遠的概念。而今天，頂尖學術期刊《Nature》上發表的論文《Speech synthesis from neural decoding of spoken sentences》（《口語語句神經解碼的語音合成》），讓我們看到腦機接口領域的研究向前邁進了一大步。

語言障礙患者的困境

事實上，腦機接口的研究已經持續超過 40 年。但至今最成功、臨床應用最普及的只有人工耳蝸等感覺修復技術。

至今，一些患有嚴重語言障礙的人，仍然只能使用輔助設備逐字逐句地表達他們的想法。

這些輔助設備能夠跟蹤非常細微的眼睛或面部肌肉運動，根據患者動作示意去拼寫詞句。

物理學家霍金，他的輪椅上就曾安裝這樣的設備。

霍金依靠語音合成器來「說話」，他曾使用過多套輔助交流系統

當時，霍金靠紅外線檢測到的肌肉運動來發出命令，確認電腦光標掃描過的字母，寫下他想要的文字。之後，再利用文字轉語音設備把話「說」出來。正是藉助這些黑科技，我們才能夠看到他的著作《時間簡史》。

然而，用這樣的設備產生文本或合成語音不僅費力，還易出錯，而且合成速度非常慢，通常允許每分鐘最多 10 個單詞。霍金當時速度已經很快，但是也只能拼出 15-20 個單詞。而自然語音每分鐘能達到 100 到 150 個單詞。

此外，這種方法還嚴重受限於操作者自身的肌體運動能力。

為解決這些難題，腦機接口領域一直在研究如何直接將腦皮層相應電信號解讀成語音。

神經網絡解讀大腦信號合成語音

如今，這個難題迎來了突破性進展。

加州大學舊金山分校的神經外科教授 Edward Chang 與同事在此次發表的論文《口語語句神經解碼的語音合成》中，提出其創建的腦機接口能將人講話時產生的神經信號解碼，併合成為語音。系統每分鐘能夠生成 150 單詞，接近人類正常講話語速。

論文第一作者 Gopala Anumanchipalli 拿着一組

用於記錄當前研究中的大腦活動的示例性顱內電極

該團隊研究人員招募正在接受治療的五名癲癇病人，讓他們大聲說出幾百個句子，與此同時，將他們的高密度腦電圖（ECoG）信號記錄下來，並跟蹤大腦的語音產生中心——腹側感覺運動皮層區域的神經活動。

利用循環神經網絡（RNN），研究人員分兩步破譯了採集到的神經信號。

第一步，他們將神經信號轉換為表徵發音器官動作的信號，包括下巴、喉、嘴唇和舌頭動作相關的腦信號。

第二步，根據解碼出來的發音器官動作，把信號轉換為說出的詞句。

腦機接口實現語音合成的步驟圖示

在解碼流程上，研究者首先將患者說話時，三個腦區域表層的連續電圖信號解碼，這些電圖信號由侵入式電極記錄。

解碼後得到 33 種發音器官運動特徵指標，隨後將這些運動特徵指標解碼為 32 項語音參數（包括音高（pitch）、清濁（voicing）等），最終根據這些參數合成語音聲波。

為分析合成語音對真實語音的重現準確度，研究人員將原始語音與合成語音的聲波特徵作了比較，發現神經網絡解碼的語音，相當完整地重現了患者所述原始語句中的單個音素，以及音素間的自然連接和停頓。

原始語音聲波（上）與合成語音聲波（下）對比

之後，研究人員以眾包方式，讓網友來辨認解碼器合成的語音。最後結果是，傾聽者複述合成語音內容的成功率接近70%。

此外，研究人員還測試了解碼器對於不出聲說話的語音合成能力。測試者先說出一個句子，然後默念同一個句子（有動作，但不出聲）。結果顯示，解碼器對默念動作合成的語音頻譜與同一句子的有聲頻譜是相似的。

口語句子神經解碼的語音合成演示

里程碑：挑戰與期待並存

「這項研究首次表明，我們可以根據個人的大腦活動生成完整的口語句子，」Edward Chang 說，「這令人振奮。這是已經觸手可及的技術，我們應該能夠為語言功能丟失患者，構建具有臨床可行性的設備。」

Edward Chang 博士的研究重點是

言語、運動和人類情感的大腦機制

論文第一作者 Gopala Anumanchipalli 補充說：「我很自豪能夠將神經科學，語言學和機器學習的專業知識，作為幫助神經殘疾患者這一重要里程碑的一部分。」

當然，要真正地百分百實現語音合成的腦機接口語音交互，依然存在很多挑戰，比如患者是否能接受侵入式手術安裝電極、實驗中的腦電波是否與真實患者的腦電波相同等等。

但是，從這項研究中，我們看到了語音合成腦機接口不再是一個概念。

期待未來某一天，語言障礙患者能夠早日重獲「說話」的能力，早日傾吐他們的心聲。

超神經百科

前饋神經網絡 Feedforward Neural Networks

前饋神經網絡是人工智能領域中，最早發明的簡單人工神經網絡類型。在它內部，參數從輸入層向輸出層單向傳播。有異於遞歸神經網絡，它的內部不會構成有向環。

前饋（feedforward）也可以稱為前向，從信號流向來理解就是輸入信號進入網絡後，信號流動是單向的，即信號從前一層流向後一層，一直到輸出層，其中任意兩層之間的連接並沒有反饋（feedback），亦即信號沒有從後一層又返回到前一層。如果從輸入輸出關係來理解，則為當輸入信號進入後，輸入層之後的每一個層都將前一個層的輸出作為輸入。

當前饋神經網絡中層與層之間的信號有反向流動，或者自輸入時，我們則稱這種網絡為循環神經網絡。

在深度前饋網絡中，鏈式結構也就是層與層之間的連接方式，層數就代表網絡深度。

腦機接口領域全新里程碑：意念說話，機器解讀

VirMach 便宜 VPS

QNews

腦機接口領域全新里程碑：意念說話，機器解讀

分享此文：

Related Posts

Django與Ajax

C語言I博客作業05

關於人工智能的版權疑惑：收益歸誰？責任歸誰？

現象級的「復聯 4」，被預測票房三十億美金創影史紀錄

VirMach 便宜 VPS

QNews

熱門搜尋