不同的語言,相同的資訊:17種語言研究揭示如何以相似的速度交流
- 2019 年 10 月 4 日
- 筆記

大數據文摘出品
編譯:李世林、劉俊寰
如果準備去另一個國家旅行,最令人頭大的肯定是語言不通的問題,有時甚至還會抱怨語言的分類過於細化。
但是,里昂大學研究人員的一項新研究表明,語言之間的差異可能比想像的要小。
「語言在音節所包含的資訊以及說話的速度方面差異很大。但有趣的是,這兩種語言是相互平衡的,因此資訊密集的語言說得慢,而資訊較少的語言說得快。這意味著不同語言之間有一個非常相似的穩定的資訊率。」該研究的共同作者,來自里昂大學的語言動力學實驗室研究員Dediu說道。
通用常數的探尋
在試圖為語言找到一個「通用」常數的過程中,Dediu的團隊面臨著相當大的挑戰。世界上有超過7000種不同的語言,它們之間的聯繫非常少。這甚至擴展到資訊如何用文字編碼的基本度量。
例如,不同語言中每個單詞的音節數量差別很大,這意味著香農資訊率也不同。然而,Dediu和他的團隊很有遠見,不僅考慮了單詞,也考慮了單詞的使用頻率。
Dediu和他的同事使用了來自歐洲和亞洲17種不同語言的170名成年人的錄音。每位演講者的任務是閱讀一組15個大段的文本,大約由24萬個音節組成。
一秒鐘有幾個音節?
研究人員選擇音節作為他們唯一的資訊單位,這是基於在另外兩種選擇上採用的:
- 音素:幫助我們區分單個單詞的聲音單位,被排除在外,因為德迪歐的團隊意識到,它們在講話中很容易被省略
- 辭彙:被認為是過於語言特異性,不便於比較
有了數據集和度量標準之後,科學家們檢驗了他們的結果,由此揭示了世界語言之間的一些有趣的差異:
- 英語中有近7000個音節,而日語只有幾百個
- 語速從4.3個音節到每秒9.1個音節不等
- 母音和諧(一種引人入勝的語言創新,要求後綴與所連接的單詞保持「和諧」)出現在四種語言中
簡而言之,這些語言聽起來完全不同。
儘管如此,Dediu的團隊注意到,考慮到書面文本的語速和資訊密度,所有記錄的語言資訊率基本一致;資訊豐富的文本閱讀速度較慢,而資訊較少的語言閱讀速度更快。

語言就像薑餅人和馴鹿:這兩個B/W版本使用不同的解析度和灰度級別,但編碼的資訊相同,就像語言交換不同的策略,但同樣有效。資料來源:丹·德迪歐,里昂第二大學。
研究人員確定了一個數字——39.15位/秒,作為17種語言的平均資訊率,這就又引出一些有趣的發現,例如,女性演講者的演講和資訊率較低。
研究小組發現,書面文本的差異對資訊率幾乎沒有影響,這表明研究結果可以推廣到本文基於文本的研究之外。語音速率和音節數的變化明顯大於資訊速率,資訊速率是有效的跨語言連接手段。
這對我們的大腦意味著什麼?
研究人員認為,這一發現意味著資訊率必須穩定在一個較緊的平均值附近,因為過高的資訊率會阻礙大腦處理數據和清晰表達語言的能力;另一方面,低資訊率要求大腦在提取意思之前記住太多的單詞。
這突出了語言的雙重角色, Dediu總結道:「就如同硬幣的兩面性,談及語言也有兩面性,一個是文化上,一個是生物性的,當說一門語言的資訊變得更加密集,說話者也會開始放慢語速。」
相關報道:
https://www.technologynetworks.com/neuroscience/news/different-tongue-same-information-17-language-study-reveals-how-we-all-communicate-at-a-similar-323584