Kaldi拜拜!PyTorch語音工具包SpeechBrain要來了,支援多種語音任務,實現最強水準

  • 2019 年 10 月 4 日
  • 筆記

郭一璞 假裝發自 蒙特利爾 量子位 報道

你厭倦語音工具包Kaldi了么?有沒有覺得它不好用?

加拿大也有一群人這麼認為。

現在,圖靈獎得主、AI三巨頭之一Yoshua Bengio領銜的研究機構Mila宣布,要聯合NVIDIA 、杜比、三星、PyTorch官方、IBM AI研究院等公司和機構,做一個新的開源一體化語音工具包:SpeechBrain

這個工具包將會非常全能,能用來做語音識別(end-to-end & HMM-DNN)、說話人識別、語音分離,多麥克風訊號處理(beamforming)、自我監督和無監督學習、語音增強等任務。

SpeechBrain會建立在PyTorch上,並且和PyTorch官方合作,所有功能都在PyTorch中實現,當然,用的是Python,不是C++。

並且,SpeechBrain將會設計成一個獨立的框架,會有Kaldi這類常用的工具包的介面。

其他工具包不完美

準備做這樣一個工具包的初衷,是因為別家的語音工具包都不好用。

蒙特利爾大學博士後Mirco Ravanelli在SpeechBrain的官方影片里,把競對統統吐槽了一遍:

Kaldi,雖然非常高效,表現也好,但是忒難用,不靈活,總得改C++程式碼;

PyKaldi,雖然用上了機器學習界寵兒Python,但本質上跟Kaldi還是一回事嘛;

PyTorch-Kaldi,雖然靈活了一些,聲學模型也易於修改,但是,跟前面一樣,它也還是Kaldi呀;

ESPNET,雖然是基於Python和PyTorch的,但是只支援端到端語音識別,太不全面了;

因此,Mirco Ravanelli說,將會把SpeechBrain設計成一個易用、用戶友好、端到端的工具包,支援多任務系統,幫助大家提升研究和開發的效率,會是單一的工具包,而不是一堆各種各樣的工具,並且實現state-of-the-art的語音技術水平。

另外,他們還會建設SpeechBrain的用戶社區,讓大家一起來分享模型技術和經驗。

業界熱烈歡迎

有人覺得,Kaldi那麼難用,總算有人要出新的取代它了:

甚至Kaldi的鐵杆粉絲也覺得需要更靈活的工具來代替它:

還有人稱讚,這就是語音界的ImageNet時刻:

總之,如果SpeechBrain真的如預期一樣誕生,那麼Kaldi可能真的要吃灰了。

傳送門

最後,SpeechBrain項目也在招實習生,如果有蒙特利爾的讀者可以圍觀一下。

另外,如果你要去參加下周的interspeech,可以聽到更多消息。

項目官網: https://speechbrain.github.io/