DeepMind和Google用人工智慧重現了前NFL後衛蒂姆•肖的聲音

  • 2019 年 12 月 22 日
  • 筆記

編輯 | TGS 發布 | ATYUN訂閱號

今年8月,Google人工智慧研究人員與ALS治療發展研究所合作,分享了一個針對有說話障礙的人的語音到文本轉錄服務Euphonia項目的細節。他們表明,使用母語和非母語英語使用者的音頻數據集和帕羅特龍(一種針對有障礙人群的人工智慧工具)的技術,可以大大提高語音合成和生成的品質。

最近,在一個案例研究中,Google研究人員和Alphabet的DeepMind團隊僱傭了Euphonia,試圖重現蒂姆·肖(Tim Shaw)的原始聲音,他曾是NFL足球隊的後衛,在2013年退休前曾效力於卡羅萊納黑豹隊、傑克遜維爾美洲虎隊、芝加哥熊隊和田納西泰坦隊。大約六年前,肖被診斷出患有肌萎縮性側索硬化症,這需要他使用輪椅,在沒有幫助的情況下,他無法說話、無法吞咽,甚至,無法呼吸。

在六個月的時間裡,聯合研究小組採用了一個可生成的人工智慧模型WaveNet,來完成從肖被診斷為肌萎縮性脊髓側索硬化症之前的聲音樣本中合成語音的任務——WaveNet能夠模仿重音和語調。

與之前的語音生成模型相比,它生成的語音片段更有說服力。Google表示,基於平均意見評分,它已經將人類語音的品質差距縮小了70%——而且它的效率更高。它在Google的張量處理單元(TPUs)上運行時,一個1秒的語音樣本只需要50毫秒就能創建出來。

WaveNet早已經被用於為Google的會話平台、Google助理生成訂製語音,最近,它還被用於在Google雲平台上為Google的雲文本到語音服務生成數十個新的語音和語音變體——僅8月份就有38種。

微調被證明是從最少的訓練數據中獲得高品質合成的關鍵。為了重現肖的聲音,Google和DeepMind團隊採用了去年發表的一篇研究論文中提出的一種方法(「樣本有效的自適應文本到語音」),該方法包括在幾天內對多達數千個揚聲器的大型WaveNet模型進行預訓練,直到它能夠產生自然發聲的基本語音。在這一點上,該模型從目標說話人那裡得到一小部分數據,使得其生成的語音具有該說話人的特徵。