Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准

  • 2019 年 10 月 4 日
  • 笔记

郭一璞 假装发自 蒙特利尔 量子位 报道

你厌倦语音工具包Kaldi了么?有没有觉得它不好用?

加拿大也有一群人这么认为。

现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构Mila宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构,做一个新的开源一体化语音工具包:SpeechBrain

这个工具包将会非常全能,能用来做语音识别(end-to-end & HMM-DNN)、说话人识别、语音分离,多麦克风信号处理(beamforming)、自我监督和无监督学习、语音增强等任务。

SpeechBrain会建立在PyTorch上,并且和PyTorch官方合作,所有功能都在PyTorch中实现,当然,用的是Python,不是C++。

并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。

其他工具包不完美

准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。

蒙特利尔大学博士后Mirco Ravanelli在SpeechBrain的官方视频里,把竞对统统吐槽了一遍:

Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;

PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;

PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是,跟前面一样,它也还是Kaldi呀;

ESPNET,虽然是基于Python和PyTorch的,但是只支持端到端语音识别,太不全面了;

因此,Mirco Ravanelli说,将会把SpeechBrain设计成一个易用、用户友好、端到端的工具包,支持多任务系统,帮助大家提升研究和开发的效率,会是单一的工具包,而不是一堆各种各样的工具,并且实现state-of-the-art的语音技术水平。

另外,他们还会建设SpeechBrain的用户社区,让大家一起来分享模型技术和经验。

业界热烈欢迎

有人觉得,Kaldi那么难用,总算有人要出新的取代它了:

甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它:

还有人称赞,这就是语音界的ImageNet时刻:

总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。

传送门

最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。

另外,如果你要去参加下周的interspeech,可以听到更多消息。

项目官网: https://speechbrain.github.io/