Kaldi拜拜!PyTorch語音工具包SpeechBrain要來了,支援多種語音任務,實現最強水準
- 2019 年 10 月 4 日
- 筆記
郭一璞 假裝發自 蒙特利爾 量子位 報道
你厭倦語音工具包Kaldi了么?有沒有覺得它不好用?
加拿大也有一群人這麼認為。
現在,圖靈獎得主、AI三巨頭之一Yoshua Bengio領銜的研究機構Mila宣布,要聯合NVIDIA 、杜比、三星、PyTorch官方、IBM AI研究院等公司和機構,做一個新的開源一體化語音工具包:SpeechBrain。
這個工具包將會非常全能,能用來做語音識別(end-to-end & HMM-DNN)、說話人識別、語音分離,多麥克風訊號處理(beamforming)、自我監督和無監督學習、語音增強等任務。
SpeechBrain會建立在PyTorch上,並且和PyTorch官方合作,所有功能都在PyTorch中實現,當然,用的是Python,不是C++。
並且,SpeechBrain將會設計成一個獨立的框架,會有Kaldi這類常用的工具包的介面。
其他工具包不完美
準備做這樣一個工具包的初衷,是因為別家的語音工具包都不好用。
蒙特利爾大學博士後Mirco Ravanelli在SpeechBrain的官方影片里,把競對統統吐槽了一遍:
Kaldi,雖然非常高效,表現也好,但是忒難用,不靈活,總得改C++程式碼;
PyKaldi,雖然用上了機器學習界寵兒Python,但本質上跟Kaldi還是一回事嘛;
PyTorch-Kaldi,雖然靈活了一些,聲學模型也易於修改,但是,跟前面一樣,它也還是Kaldi呀;
ESPNET,雖然是基於Python和PyTorch的,但是只支援端到端語音識別,太不全面了;
因此,Mirco Ravanelli說,將會把SpeechBrain設計成一個易用、用戶友好、端到端的工具包,支援多任務系統,幫助大家提升研究和開發的效率,會是單一的工具包,而不是一堆各種各樣的工具,並且實現state-of-the-art的語音技術水平。
另外,他們還會建設SpeechBrain的用戶社區,讓大家一起來分享模型技術和經驗。
業界熱烈歡迎
有人覺得,Kaldi那麼難用,總算有人要出新的取代它了:
甚至Kaldi的鐵杆粉絲也覺得需要更靈活的工具來代替它:
還有人稱讚,這就是語音界的ImageNet時刻:
總之,如果SpeechBrain真的如預期一樣誕生,那麼Kaldi可能真的要吃灰了。
傳送門
最後,SpeechBrain項目也在招實習生,如果有蒙特利爾的讀者可以圍觀一下。
另外,如果你要去參加下周的interspeech,可以聽到更多消息。
項目官網: https://speechbrain.github.io/
— 完 —