Science:對時-頻調製的不同敏感性支援了大腦對旋律和語音的不對稱處理
- 2020 年 3 月 6 日
- 筆記
語音和音樂是人類對聲音最複雜、最獨特的認知方式。這兩個領域在多大程度上依賴於可分離的神經機制?這種專業化的神經基礎是什麼?對於這兩個問題,雖然已經有了部分認識,但是對具體細節仍舊知之甚少。一些研究已經提出,左半球的語音神經專門化和右半球的基於音高的音樂方面的專門化來自於對左右聽覺皮層(ACs)對聲學線索處理的差異。然而,domain-specific的研究表明,語音和音樂是由專門的神經網路處理的,但這種神經網路的偏側化不能用低水平的聽覺線索來解釋。那麼其專門網路的聲學基礎是什麼呢?
來自加拿大蒙特利爾實驗室的研究者對這一問題進行了研究,成果發表在Science雜誌上。本文通過有選擇地過濾時間或頻譜調製的歌唱語音刺激(語音刺激中的口語和旋律內容是交叉平衡的,是由無樂器旋律和句子語音合成的)。結果發現,語音感知只隨著時間資訊的調製而下降,而旋律感知只隨著頻譜資訊的調製而下降。功能性磁共振成像數據顯示,語音和旋律的神經解碼分別依賴於左右聽覺區域的活動模式。這種不對稱性是由每個區域對頻譜-時間調製速率的特定靈敏度所支援的。最後,資訊減少對感知的影響與它們對神經分類的影響是平行的。本文研究結果表明,語言和音樂混合訊號的聲學特性與適應這一目的神經專門化之間存在匹配。
注釋:在文中為了方便表述,句子一律為語音處理即語言的聽覺處理,旋律一律為音樂處理。用材料特性來代表他們所代表的實質對象。
研究背景
儘管以往的經驗性證據支援雙側聽覺皮層對不同聲學線索的處理,但是從當前研究的內容看,聲學線索的複雜性被嚴重低估了:諸如spectrotemporal resolution、time integration window和振蕩(oscillation)等資訊雖然已經被用來解釋半球特異性,但是卻很難在一個可行的神經框架內直接測試這些概念,特別是使用自然的語音或音樂刺激(這裡的「自然」指的是我們在尋常的生活中聽到的語音或者音樂。實驗刺激為了更好的分離神經響應和刺激之間的對應關係,需要對語音或者音樂進行聲學特徵上的分解,例如從頻率上聲學資訊進行調製)。頻譜-時間接受域(spectrotemporal receptive fields)的概念為聽覺線索的神經分解提供了一個在計算上嚴謹且在神經生理學上合理的方法。該模型基於動物的單細胞記錄和人類的神經成像,提出了聽覺神經元作為頻譜-時間調製(STM)的速率過濾器的作用。STM可能為解釋ACs的偏側性提供了一種機制基礎,但聲學STM特徵、大腦半球的不對稱性和處理複雜訊號(如語音和音樂)時的行為表現之間的直接關係尚未得到研究。
為此,本文的作者創造了一個刺激組,其中10個原始的句子與10個原始的旋律相交叉,產生了100首自然主義的無伴奏合成歌曲。這種跨刺激的語音和旋律域的正交化使得語音特異性(或旋律特異性)與非特異性的聲學特徵分離,從而便於控制任何潛在的聲學偏差。作者創建了兩個獨立的刺激組,一個是法語組,另一個是英語組,以保證再現性和測試在語音間的通用性。然後,使用STM框架對聲音訊號進行了處理,並在時域和頻域對各刺激進行了參數化處理。
研究方法
首先在一個行為實驗中調查了STM rate對句子或旋律識別分數的重要性。以法語為母語的人(n = 27)和以英語為母語的人(n = 22)被出示成對的刺激物,並被要求辨別講話內容或旋律內容。因此,兩項任務設置的刺激是相同的,只有被試受到的任務說明的差異(即使用相同的聲音材料,但判斷不同的任務)。
如圖1所示,為了能夠達到對材料在時域和頻譜上的degradation,作者對由10句話和10句歌詞混合成的100首自然歌曲分別在時域上做了5次高通濾波(分別是3.5H、2.5Hz、2Hz、1.5Hz和1Hz),在頻譜密度進行了5次截止值分別為3、2、1.8、1.5和0.6cyc/kHz的濾波。通過這樣的方法,一共產生了1000個刺激材料。

圖1 刺激材料的製作流程
作者為了驗證上述的實驗材料的操作對被試的行為表現是有顯著影響的,因此先進行了行為學實驗。從圖2A中可以看出,被試需要對相同的實驗測量進行判斷,這些材料分為兩類,要麼是被進行了時域上的處理,要麼是被進行了頻譜上的處理。被試在聽完材料後,需要判斷聽到的兩個句子的語音內容或者旋律內容是否匹配,並進行按鍵反應。
對行為學實驗中被試對在時域上不同濾波值的聲學材料的分辨得分和不同的濾波截止值進行線性回歸發現高通濾波的截止值和被試標準後的句子分辨得分顯著正相關(圖2b中左上淡藍色),對行為學實驗中被試對在頻譜上不同截止濾波的聲學材料的判斷得分和不同的截止值進行線性回歸分析發現,對旋律的分辨得分和頻譜濾波截止值顯著正相關。在進行了2*2的ANOVA分析後發現,正如線性回歸結果所示,對頻譜濾波的操作顯著影響對旋律的分辨得分,但不影響對句子的分辨得分。而對時域的操作則顯著影響對句子的分辨得分,對旋律的影響不顯著。圖2b和圖2c分別是法語被試和英語被試對各自語音相同條件的實驗操作的反應,可以看出跨語音背景得到的結果是一致的。這說明,在時間-頻譜上的不同調製方法對語音和旋律的影響可能是特定的。並且不受到語音差異的影響。

圖2 英語和法語被試的行為學實驗結果
接著,作者要驗證這種在行為學中表現明顯的STM rate 調製帶來的影響是如何在大腦中表徵的。作者進行記錄了15名法國人參與過行為實驗的法國人的血氧水平依賴(BOLD)活動,實驗為Block設計,每個Block 包含5個句子歌曲(Block里要麼是受到頻譜調製,要麼是受到時域調製,兩種類型不會出現在同一個block,共110個Block,分為兩個run進行,每個run55個Block),這些歌曲要麼在時域上受到調製要麼在頻譜上受到調製。實驗過程如圖3A所示,為了能夠讓被試在實驗過程中集中注意力,在Block中有兩個1-back任務,作者需要對特定trail進行判斷,這個歌曲受到的調製影響在之前的句子中是否出現過(對時域調製來說是3.5Hz,對頻譜調製來說是3.5cyc/kHz)。
MRI採集參數和處理
T1採集參數:192 層,矢狀位採集;TR = 2300 ms; TE = 2.98 ms; flip angle = 9°; matrix size = 256× 256; field of view = 256 × 256 mm2; voxel size = 1 × 1 × 1 mm3。
EPI採集參數:48層,軸位採集,multiband 採集,factor為6,TR 570ms,2.5mm層厚,matrix size, 84 x84, FOV 210 x 210mm2; voxel size, 2.5 x 2.5 x 2.5 mm3。
預處理使用SPM12,時間層校正,頭動校正,然後使用兩步配准法配入MNI標準空間。最後進行5mm空間平滑。然後作者進行了全腦的單變數分析,一階建模建立了時域調製和頻譜調製兩個contrast,在voxel-wise進行FWE校正。然後是多體素模式識別分析。
作者使用了多種方法來進行分類的機器學習。作者首先是建立了對每個句子和每種旋律的一階GLM,提取取每個句子和旋律的Beta圖。然後將其用於機器學習的分類分析,作者使用了the Decoding Toolbox和LibSVM兩個工具包進行了基於線性核的分類模型的分析(之所以使用較為簡單的線性核,是因為作者認為過於複雜的非線性核或者卷積神經網路可能會導致特徵值和非線性驅動的交互影響導致過擬合的出現)。
對於每個被試,作者都使用的是個體空間的Beta map進行的分類模型的訓練和驗證。這是因為配准和空間平滑會帶來更多的雜訊,可能導致全腦訊號的anti-correlation。作者的模型訓練是多分類模型,使用每個個體空間所有條件下的Beta map,利用searchlight的方法,以4mm小球在全腦進行分類訓練,分類對象是10個旋律或者是10個句子。每次訓練都會給這個小球中心的voxel賦值這次預測的準確性,通過searchlight的方法就可以將全腦所有的voxel都進行預測準確性的賦值,使用留一交叉驗證進行模型驗證。然後每個被試就可以得到針對旋律或者句子進行分類的準確性的map,然後再對這些map進行配准,配准到標準空間中。最後進行group wise的統計檢驗。通過單樣本t檢驗對兩類map進行組水平閾值化(補充圖1)。

補充圖1 能夠顯著分類10個句子/旋律的團塊結果

圖3 核磁單變數分析結構和多體素模式的分類模型
研究結果
單變數分析發現,處理句子資訊或者旋律資訊的這些區域位於初級ACs(左右聽覺皮層)的外側,與資訊處理的腹側聽覺流相對應,包括Pbelt區和外側前顳上回(圖3B),但兩個維度的大腦半球反應均無顯著差異(全腦雙樣本配對t檢驗;所有p > 0.05)。這說明,單變數分析沒有足夠的敏感性探測到聽覺區域對這兩種不同加工對象的反應。
多體素模式識別的分類分析發現,句子的神經編碼在很大程度上依賴於左A4的神經活動模式,而旋律的神經編碼在很大程度上依賴於右側A4區域的神經活動。從圖3D中可以看出,左側A4和右側A4區域對句子和旋律的分類的準確性均顯著高於機會概率10%,但是對於句子分類而言,左側A4區域的分類正確率顯著高於右側,而對於旋律的分類,右側A4顯著高左側A4區域。
同時,為了進一步分析這種分類性是不是在所有被試中都是顯著存在的,作者基於顳葉mask進行了information prevalence analysis。對於句子的解碼,在左A4中觀察到高達70%的概率值(p = 0.02,校正後,這說明在70%以上的被試中可以由左側A4區域對句子分類的預測達到組水平的預測精度),而在右A4中觀察到高達69%的概率值對旋律的解碼(p=0.03,校正後,這說明在69%以上的被試中可以有右側A4區域對旋律分類的預測達到組水平的預測精度,圖3E)。
最後,作者使用計算偏側化的方法計算了最後,右半球A4和左半球A4對句子或旋律的分類準確率是否更好。作者計算了準確性評分的偏側指數[(R- L)/(R + L)](具體操作就是把每一個被試的分類正確率map進行flip,然後對flip後和沒flip的圖進行相減或者相加,這樣得到右側減去左側的圖和左側加上右側的圖,然後再對這兩張圖相除)。
結果發現在A4區域對句子和旋律的分類正確率在相反的方向上存在顯著的不對稱性(圖3F,p < 0.05,全腦水平校正)。可以看出,句子分類正確率的偏側化指數明顯是左側,而旋律分類正確率的偏側化指數明顯是右側。這說明,不同分析方法不影響結果的一致性。
然後作者測試了左右腦的語音和旋律內容的神經專門化與這兩個區域的行為處理之間的關係。通過計算從神經數據分類中提取的混淆矩陣(對於每個被試的全腦,利用上述分析中由searchlight獲得的對每個刺激的預測準確率和其本來的標籤所構建起來的混淆矩陣,混淆矩陣又稱為可能性表格或是錯誤矩陣。它是一種特定的矩陣用來呈現演算法性能的可視化效果,通常是有監督學慣用來表徵模型效能的方法。其每一列代表預測值,每一行代表的是實際的類別。這個名字來源於它可以非常容易的表明多個類別是否有混淆(也就是一個class是否被預測成另一個class)和從離線記錄的行為數據使用相同的分類器對所有trail的行為學數據進行分類所得到的混淆矩陣來進行分析,從而估計由神經數據和行為學數據所得到的對10個句子(要麼是10個句子,要麼是10個旋律,和任務態分析里是對應的)的分類準確性的不同混淆矩陣之間的線性和非線性統計相關性。
作者使用了NMI來衡量這兩組混淆矩陣之間的關係,(NMI衡量的是對一幅影像的了解在多大程度上減少了對另一幅影像的不確定性,這種方法常用於分析聚類結果和真實的社團劃分之間的差異,值在0-1之間,這種方法用在這裡可以評估行為學構建的一組混淆矩陣數據與神經影像數據所構建的混淆矩陣之間的關係,值越大就說明這兩種矩陣間的距離越近)。作者通過searchlight結合上述方法,就可以在全腦每個體素上進行NMI值的賦值,這樣的情況下,體素的NMI的值越大,就越代表了由這些體素所構建的預測模型而得到的混淆矩陣和行為學構建的混淆矩陣越相似。作者同樣是利用前面所提到的偏側化方法來處理得到的NMI值的全腦圖,對全腦圖進行flip,相減和相加,然後相除。這樣得到一張偏側化的圖,進行單樣本T檢驗,然後團塊水平的校正。
結果發現,如圖4B所示,由句子刺激建立的NMI影像表現出明顯的左側化,區域為左側A4聽覺區。而由旋律刺激建立的NMI影像表現出明顯的右側化,區域為右側A4區域。這說明,左側A4聽覺區所表現出的對句子分類正確率的神經響應和行為數據中表現出的分辨能力是顯著相關的。而右側A4聽覺區則對行為學中對旋律分辨分數負責。
最後,作者研究了語音和旋律內容的半球化是否與左、右ACs對STMs的聲學敏感性差異直接相關。為了研究這個問題,作者首先使用所有trail作為神經影像數據對於句子和旋律的分類準確率進行預測建立模型,通過和上文在分析中所述的相同方法提取出全腦的分類準確率map,然後使用特定頻譜變化或者時域的特定頻率變化的trail(也就是進行了反應的那些trail,那些trail都是特定的)作為分類對象,使用神經影像數據進行模型預測,得到全腦的分類準確率map。然後對每個被試得到的map進行兩樣本配對t。
統計結果發現,雙側ACs存在顯著的分類正確率差異(左側和右側A4區;p < 0.05,cluster wise校正;圖4C)。對於句子分類,與頻譜調製相比,僅在時域的頻率調製上發現左A4區域出現顯著的準確性損失(p < 0.001, Tukey校正;所有其他的,p > 0.16,即對特定頻率刺激的預測的正確率高於所有trail用於分類的準確率,這裡的準確性損傷是所有trail的預測模型相對於特定trail的預測模型而言的),而相反的模式只觀察到旋律在右A4區域表現出來,即相對於時域的頻率改變,頻譜調製帶來的正確率損失顯著 (p = 0.003, Tukey糾正;其他的,p > 0.5)。在圖4c中,在左側可以看到在淡藍色的句子分類模型中,左側A4區域在時域的頻率變化中相比於頻譜調製出現了顯著的正確率下降,而旋律則無顯著差異。在右側的柱狀圖中可以看出,右側A4區域對旋律的分類預測在頻譜調製下相比於時域的頻率調製出現了顯著的正確率下降,而句子則未表現出明顯差異。這說明,語音和旋律內容的半球化與左、右ACs對STMs的聲學敏感性差異直接相關。特定的時域頻率的調製和特定的頻譜調製在左右ACs尤其是A4區域的神經編碼是存在顯著差異的。
除此以外,作者還在所有trail的基礎上研究了時域頻率和頻譜的degradation和左右偏側化的關係。使用了和我們上文中描述的一樣的NMI方法,構建出了行為數據對不同類型(句子和旋律)degradation的混淆矩陣和神經影像數據的混淆矩陣,然後計算了NMI,並使用相同的偏側化計算方法,計算了degradation對行為數據和神經影像數據之間的相關關係的影響。發現,對於句子,NMI在頻譜degradation時是偏側的(t(14) = 2.32, p = 0.03),而在時域degradation時,NMI的偏側性消失了(t(14) = 0.44, p = 0.66)。相比而言,對於旋律,NMI在時域degradation時表現為右側化(t(14) = 3.46, p = 0.004),而對於頻譜degradation表現為右側化(t(14) = 0.24, p = 0.80,圖4D)。這說明,聽覺半球對於spectrotemporal的加工是有不同的編碼機制的,並且這種機制特定於時間線索和頻譜線索。

圖4 NMI分析結果
總結:
本研究表明,音樂加工和語音加工這兩個領域利用了頻譜-時間連續體的兩個不同方面,在具有偏側化的兩個平行的神經系統中,左右半球的聽覺加工對聲學線索中頻譜-時間資訊出現了不同的編碼方式,在聽覺互補的過程中出現了特異的編碼方法,最大限度地提高了各自聲學特徵的編碼效率。
原文:Distinct sensitivity to spectrotemporal modulation supports brain asymmetry for speech and melody