Neuron:發音運動軌跡在大腦語音感覺運動皮層上的編碼

研究亮點

  • 感知運動皮層加工發音運動軌跡(articulatory kinematic trajectories, AKTs)
  • AKTs揭示了舌頭、嘴唇、下巴和喉部的協調運動
  • AKTs表現為聲道發音器官的刻板軌跡
  • AKT表徵由於發音器官運動導致的上下文相關運動的編碼

流利的語言表達需要精確的聲道運動。Chartier等人研究聲道運動在感覺運動皮層上的編碼。該研究發現,單電極神經活動可以編碼不同的運動軌跡,這些運動軌跡是產生自然語言的複雜運動軌跡基礎。本文發表在Neuro雜誌。

文獻導讀

人們在說話時,會動態協調下巴、舌頭、嘴唇和喉部運動。為了研究發音的神經機制,研究者在參與者使用包含全部英語語音進行自然語言表達時,直接記錄感覺運動皮層的神經訊號。研究者們使用深層神經網路從產生的語音聲學訊號中推斷出說話者的發音運動。單個電極編碼不同的發音運動軌跡(AKTs),每一個都顯示了特定聲道形狀的發音器官協調運動。AKTs能捕捉到多種不同的聲帶運動類型並且可以根據聲帶收縮的部位來區分。此外,AKTs還表現出與諧波動態變化相關運動前後的軌跡。雖然AKTs在不同句子中的功能具有一致特性,在同一音位產生過程中,上下文相關的動作前後的編碼反映了協同發音的皮層表徵。感覺運動皮層的發音運動編碼產生了連續語音發音的複雜的運動軌跡基礎。

研究背景

為了能夠產生流利地表達,研究者們用近100塊肌肉來完成一項運動控制任務,以快速塑造和重塑發聲系統,產生連續的語音片段進而形成單詞和短語。發音器官(嘴唇,頜骨,舌頭和喉部)的運動是精確協調的,以產生特定的聲道模式。先前的研究通過語言特徵(例如,音位–成熟的聲音研究單位)對這些動作進行編碼,發現了腹側感覺運動皮層(ventral sensorimotor cortex,vSMC)中的神經編碼與假定的潛在發音運動有關。然而,完全理解vSMC神經群如何表徵語音產生過程中的實際發音運動仍然存在兩方面的挑戰。

1)如何超越大多數研究中採用的實驗上方便的方法?即,從在孤立的語音段中的研究vSMC,朝著研究自然、連續語音產生中的更豐富、更複雜的運動動力學方向發展。

2)如何超越範疇語言特徵(如音位或音節),去描述運動的精確表徵?即,研究真實的發音運動軌跡。

克服這些挑戰對於理解流利表達至關重要。雖然語音通常被描述為在任何給定時間具有局部不變性的離散成分的組合(即音位或發音系統姿態,但是語音片段產生的發音運動仍可能受到先前和即將出現的語音片段(稱為協同發音)的影響。例如,在「cool」中,在/k/後會出現/u/所需的圓形唇形,而在「keep」中,/k/則在預期出現/i/時被顎化。所以,研究的核心問題仍然是,大腦皮層控制是否調用這些原始運動模式組合來執行更複雜的任務?

為了解決這些問題,研究者們使用高密度顱內腦電圖(ECoG)記錄被試大聲說出完整句子時的腦電訊號。關注連續表達的句子有助於研究獨立音節發音時無法獲得的發音器官運動的動態協同功能。此外,由於自然語音中可能存在各種各樣的發音運動,因此研究者使用的句子覆蓋了美式英語中幾乎所有的語音和發音環境。此方法能夠根據聲帶運動來表徵語音產生過程中的感覺運動皮層活動。

研究自然語言機制的一個主要障礙是,只能用高時空解析度的跟蹤舌運動的專用工具來監測內聲帶運動的持續時間,而這些工具大多與顱內記錄不兼容,也不適合捕捉自然語言言語模式。為了克服這個障礙,研究者們開發了一種一種統計方法,可以從產生的聲學訊號推導聲道運動。然後,使用推斷出的發音運動軌跡來確定發音運動的神經編碼,以一種與模型無關且不可知的方式來確定語音生成中使用的預定義發音和聲學模式(例如音位和姿態)。並通過學習發音運動和電極神經活動如何組合,估計單個電極的發音運動軌跡(AKTs),並通過語音vSMC描繪發音運動的異質性。

研究方法

參與者

研究共招募5名女性參與者,在大腦側面高密度硬膜下慢性植入電極陣列(2個左半球網格,3個右半球網格)作為癲癇臨床治療的一部分。在手術前簽署書面知情同意。

實驗任務

要求參與者朗讀來自MOCHA-TIMIT資料庫的460個句子。實驗共包括9個block(其中8個包含50個句子,1個包含60個句子),在患者住院的幾天內執行實驗任務。每個block中,在螢幕上呈現句子,一次一個,讓參與者朗讀。句子的順序是隨機的。MOCHA-TIMIT是一個句子級別的資料庫,是TIMIT語料庫的一個子集,旨在覆蓋美式英語中的所有語音文本。參與者將每句話讀1-10遍。麥克風錄音與ECoG記錄是同步的。

數據採集和訊號處理

使用Tucker Davis Technologies多通道放大器連接數字訊號,記錄皮層腦電。語音經過數字放大,並通過麥克風與皮層訊號同時進行記錄。ECoG電極排列成16*16,間距為4mm,放置由臨床因素決定。記錄時的取樣率為以3052hz。對每個通道進行目測和定量檢查,以確定是否存在偽跡或過度雜訊(60Hz的工頻干擾)。用Hilbert變換提取局部場電位(70~150hz)的high-gamma頻段的振幅,並將其降取樣到200hz。最後,將30 s窗口內的訊號使用平均值和標準差進行z分數轉化,以便對不同的數據進行標準化。研究使用high-gamma頻段的振幅,因為它與多單元放電率(multi-unit firing rates)的相關性好,並且具有解決精細發音器官運動的高時間解析度。

語音和音位記錄

對於收集到的語音錄音,在單詞的層面進行人工校正,以反映參與者實際發出的聲音。根據句子級別的錄音和聲學資訊,為每個參與者建立了基於hidden Markov模型的聲學模型,以實現亞語音(sub-phonetic)對齊。根據語音、音節和詞的上下文產生語音上下文特徵。

與說話者無關的聲學-發音轉換(acoustic-to-articularoty inversion, AAI)

為了對只有聲學數據可用的參與者進行發音逆推,我研究者發明了與說話者無關的聲學-發音轉換(acoustic-to-articularoty inversion, AAI)法,模擬參與者的並行的EMA(electromagnetic midsagittal articulography)和語音數據。

小編註:EMA是一種可以清晰的看見參與者在發音時每個部位(唇、舌頭、喉嚨、下巴)的運動變化。

使用8名EMA參與者的聲譜特徵與想要推斷聲道運動軌跡的5名目標參與者進行匹配,對EMA參與者的聲譜特徵進行聲音變換,以令每個EMA的聲譜數據都與目標參與者的相匹配,來實現將所有聲學數據應用到目標參與者的轉換。該方法假設兩個參與者的聲學數據對應相同句子。

由於沒有關於目標參與者的運動軌跡資訊,研究者對8名EMA記錄者的發音空間的平均值進行標準化。為了對運動數據能在參與者間使用利用,對於每個EMA數據上進行特定的發音z分數變換。確保目標參與者的發音運動軌跡在所有可用的EMA數據中是一個無偏的平均值。運動軌跡由13維特徵向量描述(12維表示6個聲道點的X、Y坐標,基頻F0表示喉功能)。

使用24維mel-cepstral係數作為聲譜特徵。運動軌跡和聲學的取樣頻率均為200hz(每個特徵向量代表一段5ms的語音)。此外,每一幀語音對應的音位和語音資訊被編碼為一維有效編碼(one-hot vector),並填充到聲學特徵上。這些特徵包括音位同一性、音節位置、詞性、當前及相鄰音位和音節狀態的位置特徵。結果發現,前後背景數據為聲學提供了補充資訊,提高了逆推精度。

針對目標參與者創建並行語音數據集和EMA數據的模擬數據集,這兩個數據集都是針對目標參與者訂製的。為了訓練逆推模型,使用基於深度遞歸神經網路的發音逆推技術來學習從聲譜和語音背景到說話者通用發音空間的映射。本研究選擇具有兩個前饋層(200個隱藏節點)和兩個雙向LSTM(long short-term memory)層(100個LSTM cells)的4層深度遞歸網路的最優網路結構。然後將訓練好的逆推模型應用於目標參與者的所有語音,以笛卡爾X坐標和Y坐標的形式推斷出發音器官運動。該網路是使用Keras實現的,它是一個在Tensorflow後端運行的深度學習庫。

電極選擇

選擇中央前回和中央後回的電極,因為它們在言語產生過程中具有明顯的high-gamma活動。我們用一個給定電極的類間與類內的變化率(F統計量)來測量音位的可分性。選擇F最大值大於或者等於8的電極。5名參與者中,總共有108個電極在語音產生過程中具有強大的活動性。

編碼模型

為了揭示電極所代表的運動軌跡,我們使用線性編碼模型來描述在每個電極上記錄的high-gamma活動,作為一個隨時間變化的發音器官運動軌跡加權和。在我們的模型中,使用了發音器X和Y坐標來代替聲譜成分。該模型估計每個電極i的時間序列Xi(t)作為發音器官運動器A的卷積,包括運動軌跡參數K和濾波器H,我們將其稱為電極的發音器官運動軌跡(AKT)編碼。

將聲學和音位編碼模型與電極活動相匹配。用共振峰(F1、F2和F3)代替發音器的X和Y坐標來描述聲學資訊和句子中產生的音位。每一個特徵的1或0分別表示一個特定的音位是否產生。

編碼模型用ridge回歸擬合,用交叉驗證訓練數據,70%的數據用於訓練,10%的數據用於估計ridge參數,20%作為最終測試集。最後測試由完全獨立於訓練句子的錄音中的句子組成。測試模型預測響應與最終測試集中測量的實際高high-gamma之間的相關性。

層級聚類

使用Ward的方法進行聚集層次聚類。對每個電極的編碼運動軌跡的運動描述單獨進行電極聚類。為了為每個運動軌跡開發簡明的運動軌跡描述,提取了個發音器官的最大位移點。用主成分分析法對每一個發音器提取解釋方差最大的發音器方向。然後,將濾波器權重映射到每個發音器官的第一主成分上,並選擇最大值的點。根據每個電極的音位編碼權重對音位進行聚類。對於給定的電極,在給定的電極的最大音位可辨別性點處,提取長度為100ms的時間窗中每個音位的最大編碼權重。

皮層表面提取和電極可視化

為了觀察參與者大腦皮層表面的電極,在SPM12進行配准並結合T1及CT顯示電極位置。用Freesurfer重建軟腦膜表面。為了在MNI空間觀察參與者的電極,在Freesurfer中使用基於球面sulcal的對齊方式進行了非線性表面配准,並與mni152模板中的cvs avg35對齊。

如果您對腦電訊號處理感興趣,歡迎點擊下文瀏覽思影科技腦電數據處理課程及服務(目前思影採取預報名制度,以下所有課程均可報名,受疫情影響部分課程時間或有調整,報名後我們會第一時間聯繫):

第八屆腦電數據處理入門班(南京3.9-14)

第二十屆腦電數據處理中級班(重慶3.7-12)

腦電訊號數據處理提高班

BIOSEMI腦電系統介紹

思影數據處理業務四:EEG/ERP數據處理

解碼模型

為了解碼發音運動,研究者們訓練了一個長短期記憶(LSTM,long short-term memory)遞歸神經網路來學習從high-gamma活動到發音運動的映射。LSTM特別適合學習具有時間相關資訊的映射。LSTM使用500 ms時間窗的high-gamma活動,從所有vSMC電極中,以解碼樣本為中心,預測每個發音器官位置樣本。解碼器結構是一個4層的深度遞歸網路,具有兩個前饋層(每個100個隱藏節點)和兩個雙向LSTM層(100個cell)。使用Adam優化和丟棄(dropout )(40%的節點),訓練網路以減少解碼和實際輸出的均方誤差。該網路是使用Keras實現的,它是一個在Tensorflow後端運行的深度學習庫。

量化和統計分析

嵌套編碼模型比較

使用嵌套回歸模型來比較單個發音器官軌跡的神經編碼與AKT模型。對於每一個電極,我們使用每個EMA感測器的X和Y方向擬合單個發音器官軌跡模型,並選擇對保留數據具有最小殘差平方和(RSS)的單個發音器官模型。根據完全(2)和嵌套(1)模型的RSS值,我們通過計算每個電極的F統計量來比較解釋方差的顯著性。

p和n分別是RSS計算中使用的模型參數和樣本數。當F統計量大於由兩個模型中參數個數和置信區間定義的臨界值時,說明在考慮參數個數的差異後,全模型(AKT)在統計學上顯著解釋了比嵌套模型(單個發音器)更多的方差。

相關結構比較

為了測試語音響應電極在low-gamma活動期和high-gamma活動期之間,發音器的相關結構(EMA點)是否不同,基於給定電極的high-gamma活動z分數是否高於閾值(1.5),將推斷出的發音器運動分成兩個數據集。然後從每個數據集中隨機抽取1000個發音器官運動點,構建兩個發音器官間的交叉相關結構。為了量化相關結構之間的差異,計算兩個結構之間的歐氏距離(Euclidean distances)。然後,從低於閾值的數據集中額外抽取1000個點,以量化亞閾值(sub-threshold )數據中相關結構之間的差異。我們對每個電極重複這一過程1000次,使用Wilcoxon秩和檢驗(經過Bonferroni檢驗)比較歐氏距離的兩種分布,以確定發音器官的相關結構是否與電極的高或低頻gamma活動有關。

輪廓分析

為了評估聚類的可分性,計算每個電極的輪廓指數,基於給定特徵比較每個電極與它自身聚類的匹配程度。通過計算同一聚類內所有電極的平均不相似度與最近聚類內電極的平均不相似度之差,計算出電極的輪廓指數。然後,通過取兩個度量中的最大值來規範化該值。輪廓指數接近1表明電極與其自身的聚類高度匹配。0表示聚類可能重疊,而-1表示電極可能分配給錯誤的聚類。

音位選擇性指數(PSI)

為了確定每個電極的音位選擇性,我們使用Mesgarani等人(2014)描述的統計框架,來測試在兩個不同音位的產生過程中,電極的high-gamma活動是否存在顯著差異。對於一組音位對和一個給定的電極,根據與每個音位對齊的數據創建了兩個high-gamma活動分布。使用非參數統計假設檢驗(Wilcox秩和檢驗)來評估這些分布是否有不同的中位數(p<0.001)。PSI為0表示沒有其他音位具有不同的(可區分)的high-gamma活動,PSI為40則表明其他所有音位都具有不同的(可區分的)high-gamma活動。

混合效應模型

為了研究high-gamma與聯合發音運動軌跡之間的關係,使用具有多個交叉隨機效應的混合效應模型。對於給定的電極,在目標音位產生期間,以該電極的F峰值為中心的50 ms窗口期間取high-gamma活動的中位數來計算「活動峰值」。然後,取每個唯一音位對(目標音音vs上下文音位,其中目標音位前面是上下文音位)的平均活動峰值。對於每個電極,只考慮PSI>25的音位對。在圖6C、6D、6H和6I中,將/z/擴展為包含/z/和/s/,並將/p/擴展為包含/p/和/b/,因為從EMA的角度來看,發音幾乎相同,它增加了可以分析的聯合發音實例的數量,從而減少了來自其他上下文效果的偏差和來自雜訊的可變性。並計算由AKT模型預測的high-gamma活動,以提供對特定音位對產生過程中的運動軌跡的洞察。為了確定模型的優度,使用方差分析將模型與保留交叉隨機效應但去除固定效應的嵌套模型進行比較。混合效應模型使用R中的lme4包進行擬合。

圖6.發音器官運動軌跡的神經表徵

(A)下門牙不同程度的預期發音器官發音的示例。顯示了針對/æz/和/æp/的下切牙(y方向)的平均跡線,該平均跡線與/æ/的聲學發作對齊。

(B)電極120密切相關地參與到母音AKT(下頜張開和喉嚨控制)/æ/的產生,並且對/æ/具有高的語音選擇性。

(C)在/æz/和/æp/的產生期間,電極120的平均high-gamma活動。

(D)由(B)中AKT預測的high-gamma活動平均預測。

(E)混合效應模型顯示了high-gamma活動與運動變異性的關係,這是由於所有電極和音位的後續音位的預期聯合發音效應(β=0.30,SE=0.04,ϰ2(1)=38.96,p=4e-10)。

(F)下門牙不同程度保留聯合發音示例。顯示了針對/æz/和/ iz /的下切牙(y方向)的平均跡線,該平均跡線與/ z /的聲學起點對齊。

(G)電極122至關重要地參與了冠狀AKT的/ z /的產生,並且對/ z /具有高的語音選擇性。

(H)在/æz/和/ iz /的產生期間電極122的平均high-gamma活動。/æz/的中值高頻γ值明顯高於/ iz /(p <0.05,Wilcoxon符號秩檢驗)。

(I)在(G)中由AKT預測的high-gamma活動的平均預測。

(J)混合效應模型顯示,由於所有電極和音位的先前音位的殘留協同發音效應,high-gamma係數與運動軌跡變異性之間的關係(β = 0.32,SE = 0.04,ϰ2(1)= 42.58,p = 6e-11)。/æz/(綠色)和/ iz /(藍色)從(H)和(I)的關係顯示為點。

結果

發音運動軌跡推斷結果

圖1.推斷的發音器官運動軌跡

A.EMA記錄期間記錄發音器官訊號的感測器大概位置。中正矢狀面運動以笛卡爾x和y坐標來表示。

(B)從聲學和語音特徵(彩色)推斷出發音器中正矢狀運動。每個參考感測器的軌跡以黑色顯示。

(C)記錄的發音器官運動(EMA)顯示了投射在低維(LDA)空間上的輔音和母音。

使用留一法(leave-one-out)交叉驗證,測試參與者的推斷軌跡與真實基準線EMA的平均相關性,r為0.68±0.11。圖1B顯示了在一列看不見說話者的測試表達期間,每個發音器官的推測EMA軌跡和真實基準線EMA軌跡。所有推斷出的發音器官運動軌跡與真實的用來參考的發音器官運動軌跡之間都具有高度相關性。圖S1A顯示了12個發音器官的詳細性能。

圖S1 聲學-發音逆推

為了測試AAI方法在推斷聲學訊號相關的發音器官運動能力,對真實和推斷的EMA,研究者們訓練了相同的深度遞歸網路進行發音器官合成,比如從發音器官運動軌跡預測聲譜(編碼為24維mel-cepstral係數和能量)。結果表明,使用目標參與者真實EMA或通過AAI方法推斷出來的EMA預測的隱藏語音聲譜沒有顯著差異(p = 0.4;圖S1B和S1C)。這表明,推斷的和實際的EMA之間的差異可能在很大程度上由於運動偏移不具有明顯的聲學影響。也可能包括其他因素感測器位置,噪音收集和其他說話者/記錄可能與聲學訊號不相關的特定偽跡差異。

為了進一步驗證AAI方法,研究者檢查了推斷的運動軌跡保留語音結構的程度。分析了由真實和推斷的音位運動軌跡產生的音標聚類。對於一個參與者的真實和推斷的EMA,構建了一個音位運動軌跡起點200毫秒左右的分析窗口。然後,使用線性判別分析(linear discrimant analysis, LDA)從真實EMA數據中模擬音位之間的運動軌跡差異。並將音位的真實和推斷EMA數據都放置在此二維LDA空間中,以觀察真實和推斷EMA之間的語音結構相對差異。結果發現,在推斷的和實際的運動軌跡數據之間,音位重心之間的音位聚類和相對距離在很大程度上得到了保留(圖1C)(輔音相關性r = 0.97,母音相關性r = 0.97;p <0.001)。總之,這些結果表明,使用運動軌跡與聲學和語言學指標,從易於記錄的聲學訊號中獲得對聲道運動的高解析度描述是可能的。

vSMC單電極上的運動軌跡編碼

AKT模型可以很好地解釋語音過程中vSMC區域電極檢測到的神經活動(5個參與者中有108個電極;平均r = 0.25±0.08,最高為0.5,p <0.001)。研究者們在各個發音器官上觀察到一致的模式,每個發音器官都顯示出一條軌跡,該軌跡在返回起點之前以有向的方式從起點出發。最大運動點描述了涉及多個發音器官協同工作的特定功能性聲道形狀。例如,圖2A中電極的AKT(圖2E)顯示了下切牙和舌尖在牙槽嵴處收縮時的明顯協調運動。此外,舌片和舌背向前移動,以便於舌尖的移動。上唇和下唇保持張開,喉部不發聲。聲道結構與齒槽收縮的典型特徵相對應(例如,產生/t/,/d/,/s/,/z/,等等)。在圖2D中,在產生/st/、/dɪs/、和/nz/期間,可以明顯看到電極對這一特殊語音類別的調諧,測量和預測的high-gamma活動都增加,所有這些都需要聲道的齒槽收縮。

圖2.發音器官運動軌跡的神經編碼

(A)單個參與者的大腦磁共振成像(MRI)重建,其中在腹側感覺運動皮層(vSMC)中標記了一個示例電極。

(B)在「刺激性討論」一詞的產生過程中推斷出的發音動作。動作方向按顏色區分(正x和y方向,紫色;負x和y方向,綠色)。

(C)通過擬合發音器官運動來解釋示例電極的high-gamma的時空濾波器。時間0表示與預測的神經活動樣本對齊。

(D)將時空濾波器與發音器官動態運動進行卷積可以解釋high-gamma活動。

(E)映射到聲道中正矢狀視點的示例電極編碼濾波器權重表現出與語音相關的運動軌跡運動軌跡(AKT)。軌跡的時間過程由細到粗的線表示。喉音(通過發聲進行音高調製)沿y軸為一維,x軸為時程。

使用了交叉驗證嵌套回歸模型,將單個發音器官運動軌跡的神經編碼與AKT模型進行了比較。將一個發音器官對應一個EMA感測器。用80%的數據對模型進行訓練,並對其餘20%的數據進行測試。對於每個電極,使用與其對應的估計EMA感測器的x和y兩個方向來擬合單個發音器官軌跡模型,並選擇一個在與AKT模型比較中表現最好的發音器官模型。在對訓練數據進行測試發現,AKT模型描述的多發音器官模式比單發音器官軌跡模型解釋的差異更大(F(280,1820)>1.31,108個電極中96個的p<0.001,平均F =6.68,p<0.001,Wilcoxon符號秩檢驗;)。這意味著,單電極的活動與涉及多個發音器官的聲帶運動模式的關聯比與單個發音器官的關聯更大。

發音相關結構的差異取決於high-gamma活動是高還是低(閾值為1.5sds)(108個電極p<0.001,Bonferroni校正),這表明,除了聲帶生物力學特性引起的協調外,各發音器官之間的協調性也反映在神經活動的變化上。vSMC上的發音運動組織結構存在與協調運動的肢體控制類似的皮質編碼,在一個電極的神經活動編碼多個發音器官特定協調運動軌跡。

圖3.發音運動軌跡聚類和語音結果

(A)5個參與者的所有108個電極的編碼發音器官運動軌跡(AKT)的層次聚類。每一列代表一個電極。AKTS的動態運動被描述為沿著每個發音器官的主運動軸的最大位移點的七維向量。

(B)每個電極的音位編碼模型。運動群集電極也編碼四個編碼的音位群集,這些音位由發音部位(齒槽、雙唇、舌根後部和聲道)區分。

(C)群集中所有電極的平均AKT。除聲音控制外,四種截然不同的聲道結構還包括冠狀,唇側和背側收縮。

使用層次聚類法根據電極的發音運動描述來組織電極(圖3A)。為了從語音學角度解釋這些聚類,研究者為每個電極建立了一個音位編碼模型。與AKT模型相似,電極活動被看作一個音位的加權和,其中每個音位的值要麼是1,要麼是0,這取決於它是否在給定的時間被發出。對於每個電極,提取每個音位的最大編碼權重。每個電極的編碼音位顯示順序與發音運動群電極相同(圖3B)。

一個清晰的組織結構揭示了AKT之間的共同發音模式。第一級根據下頜運動的方向(下門牙上下)來組織AKTs。亞層為具有明顯的協調發音模式的四個主要AKTs聚類。將每個聚類的AKT平均起來,得到每個聚類的代表性AKT(圖3C)。其中三組描述了聲道的收縮:冠狀、唇狀和舌背,廣泛覆蓋英語中所有輔音。另一組描述了一個母音(母音)AKT,涉及喉部活動和下頜張開運動。

研究者還發現電極對一組特定的音位表現出高度特異性,而不是分散式表徵單個音位。每個AKT聚類內的電極也主要編碼具有相同規範定義發音位置的音位。例如,冠狀AKT聚類內的電極對/t/、/d/、/n/、/ʃ/、/s/和/z/更敏感,所有這些音位都具有相似的發音位置。然而,聚類的內部存在一定差異。例如,在冠狀AKT群(圖3A和3B,綠色)中,表現出相對較弱的舌尖運動(淺紫色)的電極,其語音結果較少局限於牙槽緊縮部位的音位(音位–綠色簇中的淺黑色)。

同時,對音位編碼權重進行了層次聚類,以識別音位結構,以便與AKTs進行比較並幫助解釋AKTs的聚類。這些結果證實研究者對vSMC語音結構的描述:由發音位置定義的語音特徵佔主導地位。

為了解每個AKT聚類在運動和語音上的相互區別,使用輪廓指數作為聚類強度的度量,量化了每個AKT聚類的類內相似度和聚類間相似度之間的關係。AKT類內在運動軌跡和語音描述上的聚類強度明顯高於隨機分布,說明聚類內具有相似的運動軌跡和語音結果(p<0.01,Wilcoxon符號秩檢驗)。

進一步研究每個參與者vSMC上AKTs的解剖聚類。冠狀位和唇位AKTs的解剖聚類有顯著性差異(p<0.01,Wilcoxon符號秩檢驗),背側和母音AKTs的解剖聚類無顯著性差異。為了進一步研究AKT聚類的解剖位置,將所有參與者的電極位置投射到一個標準腦上(圖4)。發現AKTs存在根據運動功能和發音位置在空間上進行定位的粗大的體感組織。由於AKTs編碼發音器官協調運動,本研究並沒有發現單一發音器官的定位。例如,通過對發音運動的詳細描述,我們發現下切牙的運動並不是局限於一個區域;相反,開閉運動是分開表現的,分別見於母音相關和冠狀AKT。

圖4.聲帶運動的空間組織

來自五名參與者(2個左半球和3個右半球數據)的電極,不同顏色表徵投射到通過MRI重建大腦的vSMC位置的不同運動軌跡。電極透明度隨運動軌跡編碼模型中的皮爾森相關係數而變化。

軌道阻尼振蕩動力學

為了進一步研究每個AKT的軌跡動力學,我們分析了每個發音器官的相點陣圖(速度和位移關係)。在圖5A中,對於四個示例電極的AKT,分別顯示了每個發音器官沿其位移主軸的軌跡的編碼位置和速度,每個電極代表一個主AKT聚類。每個發音器官的運動軌跡由每個AKT的編碼權重決定。所有的軌跡都向外移動,然後回到與起點相同的位置,速度相應地增加和減少,形成一個循環。即使是只做相對較小的動作的發音器官也是這樣。圖5B顯示了來自所有108個AKT的每個發音器官的軌跡,這些軌跡再次說明了前後運動軌跡模式。給定發音器官的運動軌跡並沒有顯示出相同的位移程度,這表明了特定聚類內AKTs的特異性水平。位移較大的軌跡也傾向於高速運動。

雖然每個AKT都指定了隨時間變化的發音器官運動,但決定各個發音器官運動方式的動態控制可能不隨時間變化。在發音運動研究中,用阻尼振蕩動力學描述聲道姿態的時間不變特性。就像鐘擺一樣,運動的描述元素(即速度和位置)相互關聯,而不依賴於時間。本研究發現,AKTs所描述的每個發音器官的峰值速度和位移之間存在線性關係(圖5C;r分別為0.85、0.77、0.83、0.69、0.79和0.83;p<0.001),表明AKTs也表現出阻尼振蕩動力學。此外,與每個發音器官相關的斜率顯示了該發音器官的相對速度。下切牙和上唇移動最慢(斜率分別為0.65和0.65),舌頭速度隨舌體舌尖位置而變化,舌尖移動最快(斜率分別為0.66、0.78和0.99)。這些動態特徵表明AKT形成一個定型化軌跡,以形成單個聲道配置,即次音節語音成分,充當生成單個音節所需的多個聲道配置的基礎。雖然我們無法區分單個發音器官的動力學特性是集中規劃的還是由聲道的生物力學特性決定的,但速度-位置關係強烈地表明,AKT模型對每個發音器官的運動進行編碼,該編碼對應於連續語音產生的內在動力學。

圖5.運動軌跡的阻尼振蕩動力學

(A)來自每個運動軌跡聚類的事例電極的編碼AKT沿主運動軸的發音運動軌跡。正值表示向上運動和向前運動的組合。

(B)5位參與者的所有108條運動軌跡的發音器官運動軌跡。

(C)峰值速度與發音器官位移之間的線性關係(r分別為0.85、0.77、0.83、0.69、0.79和0.83;p <0.001)。

聯合發音器官運動軌跡

在預期聯合發音過程中,在當前音位的產生過程中,可以觀察到即將到來的音位的運動效應。例如,思考在/z/(如「has」)和/p/(如「tap」)的發音過程中下頜張開度(下切牙向下)的差異(圖6A)。/æ/發音需要下巴張開,但張開的程度由即將到來的音位來調節。由於/z/的產生需要下頜閉合,因此在發出/æz/時下頜張開的較少,以補償/z/的要求。而/p/不需要下頜閉合,因此/æp/發音時下頜張開較多。在每一種情況下,下頜在/æ/期間打開,但根據即將到來的運動的兼容性而不同程度地打開。

為了研究預期性聯合發音是否有神經上的表徵,研究者們關注在聯合發音程度不同的兩種情況下,產生/æz/和/æp/時神經活動的變化。圖6B中,電極120上AKT描述了下頜開口和喉聲帶結構。/æ/聲音起點的時間點上,/æp/誘發電極120的high-gamma的活動高於/æz/(圖6C)。為了量化這種差異,研究者以所有音位的分辨峰值點為中心,比較了50 ms期間的中位high-gamma活動,發現顯著差異(p<0.05,Wilcoxon符號秩檢驗)。並且,在/æp/期間,AKT預測的high-gamma值同樣較高於/æz/(p<0.001,Wilcoxon符號秩檢驗)(圖6D)。在這個電極上,high-gamma活動反映了發音運動的變化,源於預期的聯合發音效應。

為了確定每個音位的所有預期情境中,聯合發音效應是否在所有vSMC電極都存在。使用混合效果模型來研究給定電極的high-gamma在具有不同後續音位的音位發音過程中如何變化。該模型使用交叉隨機效應來控制電極與電極和音位與音位的差異,並使用從AKT預測的high-gamma的固定效應來描述每個電極的運動變異敏感性。在圖6E中,每行顯示了在至少25個實例中的所有後續語音環境中,給定音位和電極的high-gamma值與發音器官運動軌跡變異性之間的關係。結果發現,與特定發音運動相關的神經活動受後續發音環境的運動軌跡約束的調節(β=0.30,SE=0.04,p<0,05)。

這些特定聲道結構的電極活動反映了由於預期性和攜帶性聯合發音而引起的運動變異性。

與其他編碼模型的比較

為了評估AKT在vSMC中的編碼情況,我們比較了(1)AKT模型相對於其他皮層區域的編碼性能和(2)其他語音表型的vSMC編碼模型

圖7.神經編碼模型評估

(A)在不同解剖區域中跨電極的AKT編碼性能的比較。

(B)電極的AKT和共振峰編碼模型的比較。使用F1,F2和F3,以與AKT模型相同的方式擬合共振峰編碼模型。每個點代表一個電極的兩個模型的性能。

(C)AKT和音位編碼模型的比較。音位模型以與AKT模型相同的方式進行擬合,不同之處在於音位被描述為一維有效編碼(one-hot vector)。

為了確定AKT對vSMC的特異性,我們比較了受試者每個皮質區域記錄的AKT模型表現(Pearson's r )(圖7A)。除了額葉中回(MFG)和眶部(n=4)的電極外,AKT模型顯著解釋了所有記錄到的皮層區域高於偶然水平的差異(p<0.001,Wilcoxon秩和檢驗)。然而,對於本研究中所考慮的電極(EIS),即vSMC中的語音激活的電極,AKT模型對神經活動的解釋明顯優於其他皮質區域(p<1e-15,Wilcoxon秩和檢驗)。我們檢查的其他皮質區域之前都被證明參與語音處理的不同方面–聲學訊號和語音加工(顳上回[STG]和顳中回[MTG])。因此,預計這些區域的皮質活動與產生的運動軌跡有一定的相關性。AKT模型在EIS中的較高性能表明,研究運動軌跡的神經相關關係可能主要集中在vSMC。

雖然在vSMC中AKTs編碼最好,但可能有其他的語音表示方式可以更好地解釋vSMC的活動。我們根據AKT模型評估了聲學(這裡使用前三個共振峰:F1、F2和F3)和音位的vSMC編碼。每一個模型都以與AKT模型相同的方式進行了擬合,並對訓練數據進行比較。我們發現,儘管AKT模型存在有局限性,發音運動的編碼明顯優於聲學和音位編碼模型(圖7B和7C;p<1e-20,Wilcoxon秩和檢驗)。

解碼發音運動

使用長-短期記憶遞歸神經網路(LSTM)對句子產生過程中的發音運動進行解碼。圖8A表面,來自解碼器的預測發音運動與來自聲學的預測發音運動緊密匹配。對所有發音器的運動都進行了很好的預測,涵蓋了100個以上的句子,大大超過了隨機結果(平均r=0.43,p<0.001)。圖8B表明,可以使用自動語音識別技術對ECoG錄音中的音位進行解碼,進而對完整句子進行解碼。本研究表明,可以直接從神經訊號解碼發音運動。

圖8. vSMC活動中解碼的發音器動作

(A)保留數據集中的一個例子。在產生句子的過程中,發音器官運動的原始(黑色)和預測(彩色)x和y坐標。每個發音器官軌跡的皮爾遜相關係數(r)。

(B)從訓練集中得出的每個句子的100個句子的平均表現(相關性)。

總結

本研究描述了在連續語音產生的中的更豐富、更複雜的動力學的運動皮層編碼。這些發現描繪了一幅關於發音的大腦皮層基礎和其他可能的連續運動任務的新圖景。協調的發音器官軌跡在局部進行編碼併流暢地組合在一起,同時考慮到周圍的運動環境,以產生我們需要傳達的廣泛的聲道運動。

原文:Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex