基於端到端深度神經網路的說話人與語言識別綜述, 163頁ppt,[InterSpeech2019]崑山杜克大學李明博士

  • 2019 年 10 月 7 日
  • 筆記

【導讀】InterSpeech 是語音處理領域的頂級會議,於9月15日– 9月20日在奧地利格拉茨召開,崑山杜克大學李明博士在會上作了題為「End-to-end deep neural network-based speaker and language recognition」的報告,本文整理了報告的主要內容,並分享了報告163頁PPT,非常值得學習。

https://interspeech2019.org/program/surveys/

報告人簡介

李明,男,崑山杜克大學電子與電腦工程副教授,美國杜克大學電子與電腦工程系客座教授。2005年獲南京大學通訊工程專業學士學位,2008年獲中科院聲學所訊號與資訊處理專業碩士學位,2013年畢業於美國南加州大學電子工程系,獲工學博士學位。2013-2017年任教於中山大學卡內基梅隆大學聯合工程學院及電子與資訊工程學院,副教授,博士生導師。研究方向包括音頻語音資訊處理,多模態行為訊號分析等多個方向。已發表學術論文80 余篇,其中SCI期刊論文19篇。曾擔任多個知名學術會議的科學委員會成員(ICASSP, INTERSPEECH, ODYSSEY and ISCSLP)以及多個知名學術期刊的審稿人(IEEE TPAMI,TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等),擔任Interspeech2016及2018說話人識別領域主席。榮獲了2009年Body Computing Slam Contest 第一名,IEEE DCOSS 2009 會議最佳論文獎。指導學生獲得ISCSLP2016最佳學生論文獎,於2011年和2012年連續兩次獲得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。

報告:

語音訊號不僅包含辭彙資訊,還傳遞說話人、語言、性別、年齡、情感等多種副語言的語音屬性資訊。其背後的核心技術問題是基於文本獨立或文本依賴的靈活時長語音訊號的話語水平監督學習。在第一部分中,我們將首先闡述說話者和語言識別的問題。在第2節中,我們介紹了傳統的流程中包含不同模組的框架,即特徵提取、表示、可變性補償和後端分類然後很自然地引入端到端思想,並與傳統框架進行了比較。我們將展示特徵提取和CNN層、表示和編碼層、後端建模和完全連接層之間的對應關係。具體來說,我們將在這裡詳細介紹端到端框架中的模組,如變長數據載入器、前端卷積網路結構設計、編碼(或池)層設計、損失函數設計、數據增廣設計、傳輸學習和多任務學習等。在第4節中,我們將介紹一些使用端到端框架來解決遠場和雜訊條件的魯棒方法。最後,我們將把引入的端到端框架與其他相關任務連接起來,例如說話人二值化、副語言語音屬性識別、反欺騙干擾對策等。

請關注專知公眾號(點擊上方藍色專知關注)

  • 後台回復「DNNSLR」 就可以獲取完整版《基於端到端深度神經網路的說話人與語言識別綜述》的下載鏈接~

目錄內容:

問題定義

端到端框架:

魯棒端到端識別方法

參考文獻:

更多請下載報告ppt查看