Interspeech 20周年,ASR和SD相關論文提前看

  • 2019 年 10 月 4 日
  • 筆記

機器之心原創

作者:Nurhachu Null

編輯:H4O

INTERSPEECH 是語音科學和技術領域最大、最全面的國際學術會議。INTERSPEECH 2019 將在奧地利第二大城市格拉茨(Graz)舉辦。在 INTERSPEECH 會議期間,來自全球學術界和產業界的研究人員齊聚一堂,討論語音領域的新技術,包括語音合成、語音識別、語音增強這些細分領域。在會議上展示的研究成果代表着語音相關領域的最新研究水平和未來的發展趨勢。恰逢 INTERSPEECH 20 周年,主辦方透露在會議日程上將會出現一些別出心裁的設計,即將參會的同行們可以期待一下。

本文從本次會議論文列表中挑選了一些有代表性的作品進行介紹,主要包含以下方向或主題:雞尾酒問題、語音腦電編碼、低資源語音識別和多模態/大規模語音分割問題。這 5 篇論文分別是:

  • 1. Speaker-Targeted Audio-Visual Models for Speech Recognition in Cocktail-Party Environments (用於雞尾酒宴會問題中的以說話人為目標的聽視覺模型)
  • 2. SPEAK YOUR MIND! Towards Imagined Speech Recognition With Hierarchical Deep Learning (說你所想!使用分級深度學習進行想像語音識別)
  • 3. Multilingual Speech Recognition with Corpus Relatedness Sampling (使用語料相關的採樣進行多語種語音識別)
  • 4. Who said that?: Audio-visual speaker diarisation of real-world meetings (那是誰說的?:現實會議中的音頻-視覺說話人分割)
  • 5. Large-Scale Speaker Diarization of Radio Broadcast Archives (無線電廣播存檔中的大規模說話人分割)

論文 1:用於雞尾酒宴會問題中的以說話人為目標的聽視覺模型

  • 論文:https://arxiv.org/pdf/1906.05962.pdf
  • 關鍵詞:語音識別/雞尾酒問題/多模態

1. 作者介紹和論文概括

本文第一作者 Guan-Lin Chao 本科就讀於國立台灣大學,目前在 CMU 電子與計算機工程系攻讀博士學位。面對語音識別領域的「雞尾酒」問題,本文作者提出了使用聽覺-視覺模態融合的思路去構建以說話人為目標的聲學模型。在模擬包含兩個說話人的「雞尾酒」環境中實現了顯著的性能提升,聽覺-視覺模型將錯詞率從本文的基線 26.3% 降低到了 4.4%,在引入說話人身份信息之後,進一步降低到了 3.6%。

2. 方法

解決「雞尾酒」問題的傳統方法是盲信號分離,不過這個是僅在聲音模態進行的處理。而在這個問題中使用多模態的方法,重點還是需要做好模態對齊和融合。語音信號和人臉有着天然的聯繫,嘴部範圍的圖像信息之前就被阿里巴巴用於抗噪聲的語音識別中。在這篇論文中被用來解決兩個說話人的「雞尾酒」問題。本文在 GRID 數據集中選了 31 位說話人的語音/人臉數據作為研究對象,在每一個目標說話人的模擬數據中,另一個說話人是在其餘說話人的數據中隨機挑選的。因此,也可以認為,這篇論文實際上是把非目標說話人的語音作為「噪聲」對待了。

2.1 特徵提取和特徵融合

圖 1. 三種 speaker-targeted 模型的變體

本文的語音特徵並沒有使用語音識別中常用的 MFCC,而是使用了 filterbank 特徵,它在提取過程中與 MFCC 只差了一個離散餘弦變換。而本文所使用的的視覺特徵,是對原始數據中的圖像做了基於 IntraFace 軟件的人臉區域檢測,然後把嘴部的原始像素用於視覺模態的特徵,說實話,這樣的處理可能有點粗暴。然後再添加說話人身份信息,這就是論文標題的 speaker-targeted 的所在。語音特徵和視覺特徵在輸入到 DNN 之前就做了拼接,而說話人身份特徵則在一組對比實驗(圖 2 中的 A、B、C)中做了不同層次的融合:A 是三者的直接拼接;B 是將說話人身份標籤的 one-hot 編碼做成一個 embedding,然後再和多模態特徵拼接;C 是將說話人身份特徵和較深層的多模態特徵進行拼接。

2.2 聲學模型結構分析

如論文中所述,這裡把最終構建的模型仍然成為聲學模型,因為它是要被用來預測音素標籤的。如圖 2 所示,speaker-targeted 模型(但包括單模態和多模態)由 5 個隱藏層組成,每個隱藏層包含 2048 個節點,每層的激活函數都是 ReLU。輸出層是 softmax 層,它用來預測 2371 個音素標籤,預測標籤和真實標籤之間的交叉熵是要被優化的損失函數。顯然,這也屬於比較基礎的神經網絡結構。

3. 實驗和結果

本論文使用 GRID 數據集中的正常環境的語音識別數據模擬了兩人「雞尾酒」環境。訓練集包含 15395 個句子,驗證集包含 548 個句子,測試機包含 540 個句子。每個句子都包含 6 個單詞,它們遵循下面的語法規則:

$command $color $preposition $letter $digit $adverb

本文的實驗結果如圖 3 中的表格所示:

圖 2. 論文的實驗結果

3.1 本文的 baseline

這篇論文在模擬的兩人「雞尾酒」問題中使用說話人獨立的單模態模型作為 baseline,得到了 26.3% 的詞錯率(WER)。模型結構如圖 4 所示(不包含虛線部分的視覺特徵):

圖 3. 本文的 baseline 模型結構

3.2 實驗結果

本文提出的模型變體都實現了遠遠優於 baseline 的性能,最佳性能是在 audio-only 的變體 B 和多模態的變體 A 上得到的,其 WER 直逼說話人相關的模型(單模態和多模態分別是 3.9% 和 3.4%)。

4. 總結

這篇論文提出了以說話人為目標的多模態聲學模型來解決「雞尾酒」問題,所得結果比單模態說話人獨立的模型有着顯著的性能提升。但是,個人認為本文也有一些不足的地方。比如:本文所用的特徵提取方法比較基礎,聲學特徵使用的是 40 維 filterbank 特徵,這個無可厚非。但是視覺特徵則是嘴部圖像的原始像素,說話人身份特徵則是簡單的 one-hot 編碼。如果後兩者被做到更高的抽象級別的話,或許會有更好的效果,例如,用 CNN 提取嘴部範圍的圖像特徵(這一點作者在今後工作中也提了一下),而說話人身份特徵的話,應該使用所用的數據訓練一個聲紋模型,用某個層次的 bottleneck 特徵會比較好一些。

論文 2:說你所想!使用分級深度學習進行想像語音識別

  • 論文:https://arxiv.org/pdf/1904.05746.pdf
  • 關鍵詞:想像語音識別、語音相關的腦機接口、語音的腦電編碼

1. 單位簡介以及論文工作概括

本文是作者在英屬哥倫比亞大學人類通信技術實驗室所做的工作。論文主要基於一個假設:那就是,人類在想說某句話的時候,對應的腦電信號和說話內容之間會有一定的映射關係。本文的主要目標就是從這種活躍的腦電信號中檢測對應的語音標記(token)。論文思想和 2019 年 4 月發表於 Nature 雜誌上的那篇「Speech synthesis from neural decoding of spoken sentences」[1] 是有些類似的。只是這篇文章的工作相對簡單一些。論文作者使用所提出的分級深度學習結構在 KARA 數據集上進行了實驗,最佳模型得到了 83.42% 的音韻二分類準確率,以及 53.36% 的語音標記識別準確率。

2. 本文提出的分級框架介紹和原理解讀

圖 2. 論文提出的分級架構

如圖 2 所示,本文所提出的分級神經網絡由三部分組成:a)CNN 與 TCNN 的結合,作為第一級別,用來識別 6 種音韻分類是否存在二分類結果,第一級得到的異構特徵將會饋送到第二級別;b)第二級別是無監督的深度自編碼器(DAE)。它的目標在於進一步降低上一級輸出的空間-時間編碼的維度,並且去除背景噪聲效果。c)在第三級結構中,DAE 生成的隱含箱向量表徵被送入基於 XG Boost 的分類器,並且以有監督的方式進行訓練,用來預測腦電信號對應的語音標記的分類結果。

下面詳細介紹這個架構。

2.1 輸入數據

原始 EEG 信號是典型的的多通道高維數據,但是本文並沒有直接使用原始數據。論文提及的實驗證明,通過捕捉電極的聯合可變性來降低維度是一個很好的策略。而且這種降維的目標還在於對電極之間的關係和依賴在整個時間區間進行建模。最終,通過計算通道互協方差(CCV)來作為模型的輸入。CCV 是一個正的半定矩陣,它負責編碼電極之間的連接性。定義兩個電極 c1 和 c2 之間的 CCV 為:

2.2 第一級結構(CNN&TCNN)

這一級使用兩種卷積神經網絡來 CCV 矩陣的空間特徵和時間特徵。它的作用就是預測 6 種音韻的二分類(出現或者未出現),這 6 種音韻分別是:bilabial(唇音)、nasal(鼻音)、vowel(元音)、/uw/、/iy/、和 voiced(濁音)。如圖 2 所示,兩種卷積神經網絡分別是 CNN 和 TCNN。CNN 結構由 2 層 2D CNN 和 2 個全連接隱層組成。所用 TCNN 的結構是 6 個 TCNN 的堆疊,每個 TCNN 都具有空洞因子為 2 的帶洞濾波器。最終兩種 CNN 結構的抽象特徵被拼接在一起形成了聯合時間和空間屬性的單個向量。

這一級別的目標就是在 6 個二分類任務上進行學習,為更高級別的模型結構(DAE)提供輸入,以完成語音標記的預測(11 類)。

2.3 深度自編碼器(DAE)

文中所用的 DAE 由 3 個編碼層和 3 個解碼層組成,它使用的是由第一級結構(CNN 和 TCNN)學習到的時空聯合特徵。均方差(MSE)是其訓練時所用的損失函數。

2.4 基於 XG BOOST 的分類器

這一級別的模型用來得到本文的最終目標——基於 EEG 數據來預測 11 種語音標記(包括 7 個音素和 4 個單詞):/iy/ 、/piy/、 /tiy/、 /diy/、 /uw/、 /m/ 、/n/、 pit 、pat、 knew、 gnaw。

3. 訓練過程和實驗結果

所用的數據集是 KARA ONE 數據集。論文中所述的第一、第二級別的模型都要進行單獨的訓練,相關的超參數如圖 3 所示。其他相關的訓練細節在論文第三部分都一一列舉出來了。圖 4 是 6 種音韻二分類的性能結果。圖 5 是 11 種語音標記的分類性能。

圖 3. 相關參數選擇

圖 4. 音韻二分類性能

圖 5. 11 種語音標記的分類性能

4. 總結

這篇論文提出了一種分級結構來進行想像語音識別。以 EEG 的互協方差矩陣為輸入,第一級結構的 CNN 和 TCNN 分別提取 EEG 數據的空間和時間特徵,在 6 種音韻二分類任務上進行訓練,這兩種模型得到的特徵進行拼接之後使用 DAE 進行降維,最後使用基於 XG Boost 的分類器預測 11 種獨立的語音標記。論文作者使用了比較多的 trick,實驗結果比較先進。儘管這種粗粒度、小規模的實驗可能在驗證論文的假說上面是不夠充分的,但是這種分級的方法看上去還是蠻有意思的。

參考資料

1. Speech synthesis from neural decoding of spoken sentences. Gopala K. Anumanchipalli, Josh Chartier&Edward F. Chang. https://doi.org/10.1038/s41586-019-1119-1

論文 3:使用語料相關的採樣進行多語言語音識別

  • 論文:https://arxiv.org/pdf/1908.01060.pdf
  • 關鍵詞:低資源語音識別

1. 單位介紹和論文主要概括

這篇論文的第一作者 Xinjian Li 目前在卡耐基梅隆大學語言技術研究所(LTI)攻讀博士學位。這篇文章的主要面向的是低資源語音識別問題。使用多語言共享聲學模型已有的研究方法就是先在一些語料上面進行預訓練,然後再針對目標語言精調。但是這篇論文的作者認為以往的這種 pre-train+fine-tune 的思路忽視了訓練集上各種語料獨有的特點和語料之間的相似性。論文中所提出的方法主要是可以利用語料相關性的採樣策略。將輸入的語音特徵和語料 embedding 聯合起來作為整個模型的輸入,輸入具有 4 層雙向 LSTM 的聲學模型結構進行訓練。在訓練的不同階段,使用不同的 temperature 來控制在不同語料上採樣的概率分佈。實驗結果證明,這種採樣策略訓練得到的聲學模型,在音素錯誤率(PER)上與其他的對比實驗相比,有明顯的性能提升,而且還得到了與語料相似性以及域相關性有關的有趣結果。需要注意的是,本文做到了聲學模型這一步,沒有後續的解碼過程。

2. 論文方法介紹

圖 2. 用於優化語料向量的聲學模型

這裡的目標就是要為每種語料 C_i 計算出能夠對其語料信息能夠進行編碼的語料向量 e_i。這些語料向量是可以使用標準的多模態模型進行聯合訓練的。首先,為所有的語料初始化 embedding 矩陣 E,這個矩陣的每一行 e_i 對應的是語料 C_i。接下來,在訓練的過程中,e_i 可以作為輸入特徵的一個偏置,如下所示:

其中 x 是樣本特徵輸入,e_i 是對應的語料 embedding,W 是聲學模型的參數,這裡所用的聲學模型是多語言 CTC 模型,它由 6 層雙向 LSTM 組成。

論文的主要創新點在於語料相關的採樣。每個語料的相似度是用餘弦距離來衡量的:

語料相關的採樣主要反映在對不同語料之間的相似度的處理上。特定語料的採樣概率分佈計算方法如下:

這裡的 T 就是在訓練階段用來標準化採樣分佈的變量 temperature。作者認為不同的 T 值可以構造不同的採樣條件。例如,T 越小,採樣過程在不同的語料上差別就越小。例如,當 T=0 的時候,就相當於均勻採樣,已經與語料相似度無關了:

T 越大,則受語料相似度的影響比較大:

當 T—>∞的時候,這就變成了在某個目標語料上的 fine-tune 過程了。所以,論文作者也寫道:「both the pretrained model and the fine-tuned model are special cases of our approach」。在實際訓練過程中,T 在隨着訓練時間不斷變化,從很小的值到很大的值,相當於逐漸的從 pre-train 變成了 fine-tune:

其中 k 值是訓練的迭代次數。a 是一個用來控制 T 值增長率的超參數,論文中用的是 1.5。

3. 實驗和結果

3.1 實驗

為了證明所提出方法的有效性,論文在 16 個語料上做了對比實驗。選擇的語料如圖 3 所示。語料的語句數量分佈有些不均衡,這個對實驗結果會有一定的影響,後面會提到。值得注意的是,每個語料都有一個特定的域,論文中的方法在學習到語料信息的同時,也抽象得到了不同域的信息,這個也有對應的實驗結果。

圖 3. 實驗中用到的語料集

3.2 結果

音素錯誤率結果如圖 4 所示:

圖 4. pretrained 模型、fine-tune 模型和預料相關採樣(CRS)訓練得到的模型的音素錯誤率比較

顯然,fine-tune 模型比 pre-trained 模型性能好一大截,CRS 模型要比 fine-tune 模型還好一些。通過分析跟某個語料最相似的兩種語料(不包含該語料本身)可以發現,與該語料 embedding 最相似的大多都是同一語種或者相似的域。如圖 5 所示:

圖 5. 訓練語料之間的相似度

此外,論文作者另外使用更大的語料集合(包含 36 種分佈在 3 個域的語料)對語料 embedding 的與相關性做了分析,結果如圖 6 所示:

圖 6. 語料 embedding 的領域分佈(每個語料 embedding 都被使用 t-SNE 將維度降到了 2)

從圖 6 可以看出可以看出,語料 embedding 也表現出了比較明顯的域聚類結果。

4. 總結

本文提出的方法在多語言共享參數的聲學模型上具有比較好的效果,語料相關採樣(CRS)起了關鍵作用,這其實也屬於一種遷移學習的方法。這種讓採樣分佈逐漸過渡的方案相比於比較極端的 pre-train 和 fine-tune,雖然具有一定的靈活性。但是這個受數據的影響還是很明顯的。

參考資料

[1] S. Dalmia, R. Sanabria, F. Metze, and A. W. Black,「Sequencebased multi-lingual low resource speech recognition,」in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4909–4913.

[2] Y. Miao, M. Gowayyed, and F. Metze,「EESEN: End-to-endspeech recognition using deep RNN models and WFST-baseddecoding,」in Automatic Speech Recognition and Understanding(ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 167–174

論文 4:那是誰說的?:現實會議中的音頻-視覺說話人分割

  • 論文:https://arxiv.org/pdf/1906.10042.pdf
  • 關鍵詞:多模態/說話人分割/系統

簡評:實際環境中特定場景中的說話人分割,不僅僅需要聲學相關的技術,更需要一些系統層面的工作。多模態是一個大的趨勢。

1. 單位簡介和論文概述

本文作者署名單位是韓國的搜索引擎公司 Naver[1],但是其他檢索結果還顯示 J.S. Chung 本人就讀(職)於牛津機械人研究所。J.S. Chung 是一位技術牛人,他的個人主頁以及 googlescholar 上展示了多篇高水平研究論文的發表 [2]。這篇論文的主要工作是一個基於聽覺-視覺多模態的說話人分割系統。論文使用語音活動監測(類似於靜音檢測)、說話人身份建模(聲紋&人臉)、多模態關聯等技術得到了具有較好魯棒性的說話人分割系統。系統在全景視頻、單聲道以及多聲道的音頻作為輸入的現實會議數據中得到了很好的定量和定性的結果,也在公開數據 AMI 中進行了實驗,測試結果超越了所有的對比方法。論文作者還提到,當數據是多聲道音頻的時候,波束成形方法和視頻結合起來可以進一步提升性能。

2. 系統描述

圖 2. 系統組成框圖

本論文提出的多模態說話人分割方法主要包含兩個階段:a)第一階段是說話人模型註冊;b)第二個階段是說話人分割。下面主要從這兩個階段展開。

2.1 說話人模型註冊

按照論文描述,系統為每個說話人都開發了說話人模型(speaker model),這也就意味着說話人的數量對系統而言是已知的,如此一來,整個問題也就成了一個經典的分類問題,雖然在泛化能力上會有一定的限制,但是在一個已知的域裏面也會比較好的奏效。

如圖 2 所示,在註冊說話人模型之前,首先需要經過一個 AV correlation 的過程,這一步就是去計算音頻和視覺的相關性,並由此調整得到一個閾值,用這個閾值去衡量一段音頻會不會作為該說話人的註冊數據。使用神經網絡將一段語音的 MFCC 特徵轉換成 512 維,同時也使用神經網絡圖像向量轉換到 512 維度。然後計算兩者的餘弦距離。根據這兩個神經網絡的訓練過程,可以將餘弦距離的倒數作為音頻/圖像對的相似度。這可以作為某段語音是否被作為註冊音頻的衡量指標。

當然,語音數據是做了很完備的預處理工作的。首先基於科大訊飛基於 LSTM 的模型做了語音增強,然後基於 WebRTC 技術做了非語音切除。在註冊說話人模型的時候,論文作者又在不同的數據集上採用了不同的特徵方案,筆者猜測可能是為了得到最佳的性能而做的這種嘗試吧。所以,和傳統的無監督聚類的說話人身份識別不同的是本論文自始至終都是有監督的分類,犧牲一些泛化能力來提高系統在特定域的性能,在這種系統工作中還是很有必要的。

2.2 多模態說話人分割

在推理過程中,要在每一個時間步長為每一個說話人計算一個置信得分。計算方式如下:

其中,C_sm 是說話人聲學模型計算得到的置信度評分,C_avc 是音頻視頻相關度(AV correlation),cos(φ-θ) 是仰角和方位角相位差的餘弦值。最終每個時間步長上的說話人分割就是通過上式所述的多模態融合來計算的。

本文提出的多模態說話人分割方法會面臨比較複雜的實際環境。比如,有時候會看不到人臉,導致無法計算 AVC,有時候硬件不滿足聲源定位的條件,就無法進行波束成形的計算。所以,文中提出的融合方法在第二項和第三項分別添加了限制因子α和β。可以通過對它們置零來應對沒有人臉或者無法進行聲源定位的情況。

3. 實驗

3.1 數據

本文所提出的方法在兩個獨立的數據集上進行了測試,一個是可公開獲取的 AMI 會議數據集,另一個是論文作者組織採集的一個多模態會議數據集。圖 3 展示的就是兩個數據集中各自的一張靜態圖片。

圖 3. 數據靜態圖片

3.2 評價指標和實驗結果

主要的評價指標就是 SPKE(speaker error),代表預測的說話人 ID 是錯誤的。主要的實驗結果如圖 4 中的表格所示:

圖 4. 實驗結果

4. 總結

這篇論文提出了多模態說話人分割的方法,這和真實的會議場景有着天然的融洽性。論文作者詳細地闡述了該方法。此外,作為一個系統,它有比較多的功能組件,每個組件都有很多的細節內容。即便作者已經介紹了很多相關的信息,但是要完全復現這一工作還是需要做很多工作的。不過這種多模態的思路值得被廣泛地借鑒。

參考資料

1. https://www.naver.com

2. http://www.joonson.com

論文 5:無線電廣播存檔中的大規模說話人分割

  • 論文:https://arxiv.org/pdf/1906.07955.pdf
  • 關鍵詞:說話人分割

1. 單位簡介和論文概括

這篇論文是關於大規模說話人分割(SD)任務的。說話人分割就是解決「who speak when」的問題。本文一作是 Emre Yılmaz[1],他目前在新加坡國立大學電子與計算機工程系做研究,導師是李海洲教授。Emre 是一個很有才華的人,除了母語土耳其語之外,他還會英語、荷蘭語、德語、阿非利堪斯語(南非荷蘭語)以及日語。Emre 從讀博士,到畢業,到博士後,再到現在一直從事語音相關的研究工作。

這篇論文的主要工作就是在大規模(3000+hours)的音頻廣播數據集上做了說話人分割的研究。當然,這個大規模的數據集也是本文的基礎工作之一,它是基於之前的 FAME! 項目而來的。這些語音數據記錄了 1950-2016 之間的一些音頻廣播,內容大多為演講或者訪談類,而且是荷蘭語和弗里西亞語的混合。

這篇論文在方法上的創新主要體現在為在大規模數據上所提出的分階段的說話人分割和識別方法。a). 第一階段是通過基於貝葉斯信息準則(BIC)的語音分段,再加上通過基於混合高斯模型(GMM)的說話人聚類得到錄音帶級別的說話人分割。b). 第二階段則是說話人連接和識別,具體就是將第一階段得到的分割結果進行綜合,其目標就是為出現在多個錄音帶中的說話人分配相同的標籤。這一階段是通過提取 i-vectors 和 x-vectors,並對計算得到的相似度矩陣進行聚類來完成的。論文實驗部分基於分割錯誤率(DER)和說話人/聚類混雜度(speaker/cluster impurity)做了大量對比實驗,證明了所提方法在大規模說話人分割任務中的有效性。

2. 關於 FAME! SD 語料

FAME! SD 語料是在之前的 FAME! 項目上邊整理而來的。總共包含 6494 個數字錄音帶,總時長超過了 3000 小時。圖 2 是 FAME! SD 語料中錄音帶時長分佈。

圖 2. FAME! SD 語料中的時長分佈

其平均時長是 28 分 57 秒。說話人連接的最終測試是在其中的 82 個部分標註的錄音帶上進行的。這 82 個錄音帶總時長 53 小時,被標註的片段總長 7 小時 20 分鐘。在被標註的數據中,共有 215 位說話人,其中 154 位姓名已知,61 位姓名未知。實際的文字記錄顯示,被標註的說話人中,有 22 位不止出現在一份錄音帶中,有 5 位出現在 5 個或者多於 5 個的錄音帶中。可見,FAME! SD 語料不僅規模大,而且說話人分佈也挺雜亂的。在後續的實驗中,論文作者把做過標註的數據分成了等量的兩部分用於開發和測試。

3. 大規模說話人分割和識別方法

論文中採用的方法如圖 3 所示。

圖 3. 大規模說話人分割和識別系統組成

該方法包括兩個不同的階段,第一個階段是錄音帶級別的分割,第二個階段是說話人連接和識別。

3.1 第一階段:錄音帶級別的分割

在這個階段,採用開源工具 LIUM 對整個數據集做一次錄音帶級別的分割。得到具有一定質量的「偽說話人」標籤。論文作者在做過人工標註的 82 個錄音帶上進行了測試,在錄音帶級別得到了 19.6% 的平均錯誤分割率(DER)。在這批具有標註的數據上得到了 338 個「偽說話人」標籤,而實際上共有 215 位說話人。

這階段的分割過程主要使用了 LIUM 中的以下部分:基於貝葉斯信息準則的分割、基於混合高斯模型的說話人聚類 [3]。

3.2 第二階段:說話人連接和識別

如圖 3 所示,第二階段(speaker linking)主要由 5 個模塊組成:說話人 embedding 的提取、PLDA 打分、相似性矩陣的計算、聚合分層聚類以及最終的說話人標籤生成。圖 3 右側的兩個分支的區別就在於 embedding 的區別,上面的分支採用的是 i-vector,下面的分支採用的是 x-vector。實驗部分也對這兩個分支做了不同指標下的對比。

  • i-vector 的提取:經過 8 次 EM 迭代訓練得到 GMM-UBM,然後採用 Kaldi 的方法(sre16/v1)進行訓練。最終使用的時候會得到 600 維的 i-vector。i-vector 在送往 PLDA 打分之前,做了 mean substraction 和 length normalization。
  • x-vector 的提取:x-vector 的計算也是採用 Kaldi 中的標準方法。所用的 TDNN 詳細結構參數在論文中亦有詳細描述。

4. 實驗

說話人連接(speaker linking)實驗結果如圖 4 所示:

圖 4. 說話人連接實驗結果

從圖(a)和圖(b)展示的結果可以發現,使用了說話人連接的方法,無論是只在標註過的數據上還是在整個數據集上進行連接,也不管是採用 i-vector 還是 x-vector 方案,其性能(DER)都要優於沒有進行說話人連接的情況。而且兩種連接方案都有對應的最佳聚類閾值。

圖(c)和圖(d)展示了不同方案下不同閾值對應的說話人混雜度和聚類混雜度。

總之,從 DER 和混雜度可以看出,使用 x-vector 可以得到比 i-vector 更好的性能,這一點也是與之前文獻中說話人相關的研究結果相一致的。

參考資料

[1] https://sites.google.com/site/schemreier/

[2]https://www.nwo.nl/en/research-and-results/research-projects/i/44/12644.html

[3] Sylvain Meignier, Teva Merlin. LIUM SPKDIARIZATION: AN OPEN SOURCE TOOLKIT FOR DIARIZATION. CMU SPUD Workshop, 2010, Dallas, United States. Proceedings CMU SPUD Workshop, <hal-01433518>

本文為機器之心原創,轉載請聯繫本公眾號獲得授權。