生成式對抗網路GAN在語音自然語言處理中的應用,台大李宏毅老師,附247頁ppt下載
- 2019 年 10 月 7 日
- 筆記
【導讀】InterSpeech 是語音處理領域的頂級會議,於9月15日– 9月20日在奧地利格拉茨召開,國立台灣大學李宏毅老師在會上作了題為「Generative Adversarial Network and its Application to Speech Processing and Natural Learuage Processing」的報告,本文整理了報告的主要內容,並分享了報告PPT。

內容簡介
生成對抗網路(GAN)是訓練模型的新思想,生成器和鑒別器相互對抗以提高生成品質。最近,GAN在影像生成方面取得了驚人的成果,並在此基礎上迸發發了大量新的思想,技術和應用。雖然只有少數成功的案例,但GAN在文本和語音領域具有很大的潛力,以克服傳統方法的局限性。
本教程分為三個部分。在第一部分中,我們將介紹生成對抗網路(GAN)並提供有關此技術的全面介紹。在第二部分中,我們將重點介紹GAN在語音訊號處理中的應用,包括語音增強,語音轉換,語音合成,以及域對抗訓練在說話人識別和唇讀等方面的應用。在第三部分中,我們將描述GAN生成句子的主要挑戰,並回顧一系列應對挑戰的方法。同時,我們將提出使用GAN實現文本樣式轉換,機器翻譯和抽象摘要的演算法,而無需配對數據。
講者簡介

李宏毅教授分別於2010年和2012年在國立台灣大學獲得了碩士與博士學位。2012年9月至2013年8月,他是中國科學院資訊技術創新研究中心的博士後。2013年9月至2014年7月,他是麻省理工學院電腦科學與人工智慧實驗室(CSAIL)語言系統組的訪問科學家。現任國立台灣大學電氣工程系助理教授,並任職於該大學電腦科學與資訊工程系。他的研究重點是機器學習(尤其是深度學習),口語理解和語音識別。

曹昱副研究員分別於1999年和2001年獲得台灣大學電子工程學士學位和碩士學位。他於2008年獲得喬治亞理工學院電氣與電腦工程博士學位. 2009至2011年,曹博士是日本國家資訊與通訊技術研究所(NICT)的研究員,從事自動語音研究和產品開發,識別多語言語音到語音翻譯。目前,他是台灣台北中央研究院資訊技術創新研究中心(CITI)的副研究員。他於2017年獲得了中央研究院職業發展獎。曹博士的研究興趣包括語音和說話人識別,聲學和語言建模,音頻編碼和生物訊號處理。
目錄
GAN的基本思想及一些基礎的理論知識
– GAN的三種類別
– GAN的基本理論
– 一些有用的技巧
– 如何評估GAN
– 與強化學習的關係
GAN在語音方面的應用
– 語音訊號生成
– 語音訊號識別
– 結論
GAN在自然語言處理方面的應用
– GAN序列生成
– 無監督條件序列生成
請關注專知公眾號(點擊上方藍色專知關注)
- 後台回復「GANSP」 就可以獲取完整版《生成式對抗網路GAN在語音自然語言處理中的應用》的下載鏈接~
原文鏈接:
https://interspeech2019.org/program/tutorials/
附部分PDF預覽:
GAN的三個類別

GAN的基本思想


GAN從2014年發展至今,有了很大進步


條件GAN

條件GAN中,可由圖片生成圖片,聲音生成圖片,圖片生成標籤等應用



無監督條件GAN生成有兩種方法:
- Cycle-GAN
- 共享一個隱空間
