北大教授吳璽宏:從發聲到語言,具身物理模型讓NLP回到小數據時代

  • 2021 年 9 月 22 日
  • AI

作者 | 吳彤

編輯 | 青暮

讓機器理解人類的語言是我們長期以來的夢想,經過幾十年的發展,語言與智慧技術發展到了什麼程度?如何評價語言理解的智慧水平?離強人工智慧還有多遠距離?未來的技術發展趨勢如何?這些問題迫切值得研究與探討。
中國電腦學會和中國中文資訊學會聯合創辦了”語言與智慧高峰論壇”,每年舉行一次,首屆論壇於2016年在北京舉行,已成功舉辦五屆。
在今年8月28日的線上高峰論壇上,北京大學吳璽宏向大家分享了大規模訓練語言模型的個人見解,隨後具體闡釋了基於發聲物理模型的語音發聲姿態的自監督學習。

吳璽宏教授的線上分享
吳璽宏教授現為北京大學教授、博士生導師,北京大學資訊科學技術學院副院長、智慧科學系主任、言語聽覺研究中心主任。同時也擔任南京腦科學與類腦智慧創新中心的主任,研究猴腦介入式言語、猴子在交互過程中腦活動、非介入式的人腦介觀的動態圖譜以及和人類行為語言的關係。長期以來,吳老師致力於機器聽覺計算理論、語音資訊處理、自然語言理解以及智慧機器人等領域的基礎及應用基礎研究,先後主持和參與國家級、省部級項目40餘項,包括國家973課題、863項目、國家科技重大專項、國家科技支撐計劃、國家自然科學基金重大項目及重點項目、國家社會科學基金重大項目等。獲國家授權發明專利11項,發表學術論文200餘篇。
吳老師是做聽覺模型出身,從2005 年起才較晚地進入到NLP 領域。近年來吳老師團隊開始深入研究聽覺的發聲和聽覺的耦合關係,如何將其整合實現辭彙的發音姿態表達,並研究發音姿態和客體模型的動作控制之間的關係。
本次報告首先對語音識別任務的工作假設進行反思,在此基礎上基於聽覺的“肌動理論(Motor Theory)”,提出了一種結合發聲物理模型的非監督自主學習方法,即具身學習(Embodied Learning)方法。
  • 該方法通過正向物理模型和逆向聽覺模型的迭代學習,實現了從任意非標註語音到聲門激勵訊號和發聲姿態參數的推斷,實現了對語音具有可解釋性的描述;
  • 通過在線自適應實現了對新語音的發聲姿態推斷,解決了模型學習的泛化問題。
  • 基於發聲姿態可進一步實現任意語種的音系構建,為小語種和方言的語音識別、個性化語音合成任務提供了一個新的解決思路。
以下是演講全文,AI科技評論進行了不改變原意的整理,文章已經過吳老師修改及確認。

1

大規模訓練生成「夢話」
如何把聲音和控制結合起來?大規模預訓練模型的效果為什麼那麼好,背後原因何在?
我們認為,這類模型做的是預測工作,預測是一個主體生存最重要的任務。但它們的預測實現,比如基於已有辭彙預測下一個辭彙,都是基於辭彙的嵌入向量進行的。從語法層面講,這些嵌入向量是抽象的、多維的,不具有語言中的準確上下文關係。從語用層面將,言語是一種行為,是在特定語境下與他人之間有意識地特定行為。但GPT-3缺失主體、時空、意圖、手段、邏輯等。
因此,為了從表面上模擬這種預測,它需要巨量的數據才能夠實現。即便能夠實現,GPT-3生成文本也是一種夢話,一種建立在大規模訓練語言模型中的無意識「遣詞造句」。

2

跳出符號世界

語言學家索緒爾認為:每一個符號都由能指和所指組成,即符號=能指+所指。能指是語言符號的聽覺特性,而對意義的探詢是所指。
舉個例子:對面的女孩子對我笑(能指),她喜歡我(所指)。即在這種情境下,笑=喜歡(隱喻),但是換種情境,或許 笑=嘲諷(隱喻)。
所以在符號分析之中,自然語言處理要關注的就是這種能指和所指之間的斷裂關係和不穩定的關係。表面來看,我們人的每一項行為沒有與之呼應的意義,但深層次來看,我們掌握的其實始終只是能指的部分,真正的所指早就躲到潛意識的複雜結構里去了。
但世界知識是如何表示的呢?語言訓練僅用符號來描述的世界是充分的嗎?我們要想辦法跳出符號世界。
跳出符號世界就出現影像和文本的聯合訓練問題。在真實世界中,因為有影像的客體空間分布,符號有一定具象化之後,使得空間的分布、結構都會對文本約束,語言訓練所要求的數據就不再是龐大的的數據,而是小數據,這樣的話也緩解了對文本數據的要求。
如果某天做出來文本和影像聯合的某一種GPT ,儘管它是受語境約束的,但它仍然是夢話,因為它沒有自己的控制,沒有自己的意圖。
傳統的說法是在人工智慧上空有兩朵烏云:常識、符號落地。但在這兩朵烏雲之外,還有一朵更重要的烏雲–主體以及主體的情感和意圖。那如果跳出符號世界到真實世界中,符號產生的條件是什麼?

3

符號的產生和條件

我們認為,符號的產生需要三個條件:首先要有社會文化環境,其次是主體和環境的交互,所以要有身體,第三個條件是發聲能力。三者聯合則構成一個包含語境和心智的具身結構。這要比小數據的語言訓練模型巧妙得多。
身體包括生理需要、身體動作和身體情緒等,在它與社會文化環境的雙重作用下,生成了感知-運動預測問題,並由符號在我們的感知-運動之間來回對應。在這個具身結構的符號建立之後,吳教授認為這個符號及體系隱含著心智和語境。人工智慧上空的第三朵烏雲終於被撥開,但最大的障礙在於符號在感知-運動和社會文化環境之間如何搬運。
因此吳教授從第三個條件,也就是發聲能力,尋找「搬運」的介面。吳教授認為,人之所以區別於其他的動物,關鍵是人的發聲能力。人類學研究已經表明,人具有獨特的咽腔結構,能夠產生無數種發音變化,因此語音就能對符號編碼,它支撐的編碼空間是足夠的,也就產生了第一符號系統–語音。而我們說的文字元號,則是第二符號系統。
文字元號處理和做語音訊號處理的差別在哪?
一個差別是語音訊號如果變成文字元號,過程中會丟失很多資訊。除了辭彙分割以外,還有代表情緒的很多韻律資訊。比如在線上聊天時,我們總會以表情包彌補丟失的情緒。從最初的顏文字到jpg到GIF,人們藉助表情包傳遞對話情緒,填補「不在場」 的縫隙。
第二個是認知神經科學的研究表明,我們在語音交流過程中,我說的話和你聽懂的話,聽者並沒有逐詞處理,而是「挑」著來。比如早上媽媽衝進房間大吼十分鐘,你只聽到一句「要發霉了」,便會自動明白今天陽光很好,媽媽嫌棄起床晚。而在符號處理中,每一個符號都必須處理,如果不處理的話,它會影響對整個句子的理解。
在語音識別領域,近年來它已經發展得十分優秀。相對於自然語言處理來說,語音識別的識別率和抗噪音性能很高。但在語義識別領域,還存在大量繁瑣的數據標註和計算資源工作。
但種種跡象表明,語音識別系統出現了天棚現象,它並沒有達到100% 完美,儘管還能往裡加數據,語音識別的性能卻不增加了。第二個短板是無法識別非標準化的數據,也就是語音的變異,比如方言、小語種,如果大家沿用數據標註的方法,無異於降維為「AI民工」。
語音識別研究隱含的工作假設
首先,語音識別研究默認為它要識別的語言必須具有文字元號,即第二符號系統必須具備;其次,需要語音學家提供注音標註的音系系統;最後還需要語音學家提供詞典。
多年來,語音識別之所以所向披靡,其實就是借用了語音學家和語言學家大量的資源,以及語言的第二符號系統。但實際上我們面對的是什麼?
語音隨著講話方式的變化而變化,多變是語音的本質;很多語種和方言沒有文字系統,也沒有構建音系系統。
這樣的話,我們面臨的挑戰問題是如何實現新方言、新語種的音系的自動構建,以及如何實現對語音的精細的自動的標註。

4

新方法:具有認知啟發的表示學習和範疇學習

在研究過程中,我們找到一個新方法,基於具有認知啟發的表示學習和範疇學習,實現語音或語種的自動標註和音系構建。首先這涉及到語音的產生和聽覺過程。
語音的產生是氣流經過喉、咽、腔,經過舌和口腔的調製,再通過口唇動作調節產出語音。語音再傳輸到耳朵,對聲音訊號進行頻譜分析和加工。
但語音具有多變性,例如同一個人的zero發音在平穩、憤怒、溫柔、叫喊的情緒下,語音的語譜變化非常激烈;不同人的發音,比如孩子、男人、女人也有很大的變化。
傳統的語音識別應對方法是人工打標籤,不管語譜如何變化,總能映射到一個標籤,形成一個範疇。但也因此出現一個推廣性問題。語音語譜是多變的,不同人、不同的情緒下都有變化,打標籤的方法不可能覆蓋所有變化。從AI的演化來看。這是一種非智慧的方法。
另外還有一個可解釋問題。從語音頻譜的角度看,人工標記過於粗略,不能描述語音音節的精細變化。那還有什麼精準描述語音變化又節省人力的方法嗎?
我們提出從發音姿態的表示對語音進行編碼的方法。回歸到語音的產生,氣流推動聲帶振動,經由口腔調製使得語音有不同的共振特性,如果這個時候對語音以及口腔形狀進行編碼,即口腔的發音姿態等,是不是能夠捕捉一對映射。
那我們能不能從發聲姿態的角度進行範疇化呢?
其實國際音標表就是一個基於發聲部位和發聲方法的發音表述。
在國際音標表中,它涵蓋雙唇、唇齒、齒間、舌尖前等12個發聲部位,塞音、塞擦音、鼻音等10中發音方法。在發音描述上,國際音標表早在1887年就被制定,按照發音姿態刻畫全世界各種語言。
不僅如此,言語知覺理論(Motor Theoty)講到,我們感知言語,實際上是感知講話者的目標發聲動作。比如在一些雜訊情況下,你沒聽清楚對方說的話,但可以通過自己嘴上模仿「聽懂」對方說的話。
另外嬰兒也是先掌握髮聲的動作模式才學會辭彙。剛生下來的小嬰兒就會哭喊,其中有一個功能就是練習口腔發音。通過自己的發聲動作調整音量大小、口腔形狀,併產生聲音變化,這個過程實際上是嬰兒在訓練自己發聲與聽的功能。有這個基礎之後,才去學後續的辭彙。

姿態表示和範疇學習的方法框架
肌動理論和國際音標表證明,我們可以通過發音姿態位置感知對方的言語,甚至是任何發音都可以通過我的口腔姿態作逼近模擬。那麼,動態的語音訊號也可以自適應地用口腔姿態來描述。另外它具有可解釋性,能夠刻畫聲音在每一時刻的精細變化,推演從語音到口腔、再從口腔到語音的因果過程。
語音訊號用發音姿態描述出來之後,我們可以進一步地通過相似性、區分性、詞位,對不同的發音姿態建立音位範疇,最終形成音位的符號串,就可以不使用語言學家提供的音位系統。
那麼,如何實現自監督學習?是否可以引入物理髮聲模型?

5

基於發聲物理模型的語音發聲姿態自監督學習

語音反演:從語音到發聲姿態
從語音訊號倒推發音姿態,實際上這個想法有幾十年了,姿態獲得是最有難度的問題。傳統的方法是在實驗員的舌上貼不同的磁電感測器,通過感測器獲得他在說話過程中的姿態:舌動-口腔聯動-生成對應的語音訊號-記錄對應的語音訊號隨著時間的變化軌跡,因此獲得一對映射數據。
是否拿到數據後就可以通過語音反演出發音姿態?
這是一個自然的想法。但實際上,這種方法獲取的數據代價太大,一是人力低效,二是數據不具備遷移性,如果換另一個人講話,發音姿態也會隨之有微小的改變。
那麼回歸到說和聽的過程,語言和生理的閉環式如何表現的?在1983年的 曹劍芬 和 任宏謨的《言語鏈:說和聽的科學》書中,早已詳細描述聽覺系統和發聲系統的閉合鏈:說話人大腦中產生想說話的訊號,由肌肉控制生成句子。聲音訊號一方面通過感覺神經傳遞到自己的回饋鏈環節,另一方面通過言語聲波傳遞給聽話人,從而構成一個從語言學平面-生理學平面-聲學平面-生理學平面-語言學平面的閉環鏈。

具身認知:將語音的聽覺表示轉換成發聲的肌肉控制,發聲器官的姿態成為語音的具有物理意義的表示。

具身學習:協同物理的發聲過程與聽覺的逆過程,實現物理系統約束下的自監督的學習。
在實驗中,我們通過模仿這個發聲閉環,對發音過程建立了一個物理模型。通過氣流、壓力、聲帶的彈性係數等控制聲音輸入訊號、通過舌位、唇位等控制物理模型的聲音輸出訊號。即能否把物理模型和感知過程結合起來,實現閉環的自監督學習。

聲門-聲道發聲濾波器TRM模型
在實驗中,我們建立了一個TRM模型,這是一個聲門激勵訊號,通過聲帶進入咽腔、軟顎、鼻腔、口腔這種耦合的調製產出語音訊號。
這是一個典型的物理模型,氣流進入-調製壓力-發出不同的語音訊號,其中通過固定參數和動態參數調製不同的聲音訊號,比如固定參數來刻畫聲道長度,鼻腔長度,軟顎和聲帶的彈性係數等,動態參數刻畫舌頭位置的變化、氣流強度等。
拿到語音訊號後通過一個相同的反模型輸出,對比正模型和發模型的參數差異,並按照梯度下降繼續迭代學習,得到準確的係數。
不同於傳統的強化學習
這個物理模型和傳統的強化學習不一樣,傳統的強化學習需要確定評價函數,每次迭代都需要評價,但在語音訊號的評價中,兩個語音訊號距離小並不意味著相似、距離大不意味著不相似,這是強化學習的缺陷。
而我們的自監督物理模型無需評價函數,利用發聲姿態的差異作為梯度;網路輸入是物理模型生成的語音,輸入和監督資訊受物理約束,是一種監督學習。另外網路輸入語音訊號的生成訊號永遠受物理約束。神經網路的反模型,實際上對 TRM 物理的正模型的一個逆過程。
原始的語音訊號經過模型迭代,就可以得到發音姿態每時每刻的變化。這個物理模型的不僅能發出聲音,還能準確提取聲帶肌頻訊號。
在獲得發音姿態後,我們希望它是從一個生物學訊號的姿態到物理的口腔形狀姿態的變換,並依據發音姿態自動建立一個音位範疇,那麼就可以進一步發現發音姿態的特徵點,建立發音姿態和語音訊號的映射範疇。
建立一個固定目標標記,隨後建立一個動態的動力學目標模型,估計發音姿態中哪些是行動發音過程,比對最終的發音目標是什麼。估計出來之後,通過一個決策樹的聚類方法,對應漢語音系。如果漢語音系和這個語音訓練得出的音系基本上對應,說明我們提取的姿態和音位是可行的。下一步可以在這基礎之上做辭彙,從自然語言中自動發現的辭彙。

6

結語

基於具身認知和肌動理論,吳老師提出了一種具身的自監督學習框架。它通過發聲的物理模型和深度神經網路模型之間構建了一個閉環的協動學習模型,實現了具有強推廣性和精細描述能力的語音發聲姿態的估計。同時,範疇學習構建了漢語的音位範疇體系,符合人類「先口語,後書面語」的言語獲得機理。
未來,基於物理模型或實際物理過程的具身學習方法,還能建構任意方言、語種的發音姿態和音系體系,並且輔助語音學家以及語言教學工作,推動方言、小語種的語音識別和語音合成的研究。不僅如此,還能推廣到視覺運動、聽覺運動等機器感知工作。而且,通過發音聲帶的彈簧緊張度捕捉一個人說話時的情緒變化,語音測謊也將不是難題。


雷鋒網雷鋒網雷鋒網