Jarvis:一个值得关注的多模态端到端人机对话框架,针对所有行业适配

  • 2021 年 4 月 21 日
  • AI

说到应用级的人机对话框架,很多人可能首先想到的是RASA开源项目。不过,今天跟大家简要分享一个功能更为丰富、性能更为强劲的多模对话框架——Jarvis,非常值得对话系统从业者关注一下。

Jarvis是英伟达于2019年发布的人机对话服务,不同于大部分的开源项目,Jarvis主打的是深度对话模型的部署和推理效率,因此更具实用价值。有过对话系统开发经验的从业者知道,对话系统中离不开的语音识别(ASR)、对话理解等模块不仅难以开发,而且往往模型非常重,导致系统会产生明显的延时,导致实际应用中经常不得不用精度更弱但速度更快的方案取而代之。而基于Jarvis开发的对话系统,不仅支持了语音识别、对话理解等若干深度学习模型,而且实现了端到端的实时对话,可以将系统级的延迟降低到300ms以内,若是使用GPU部署,更是相比CPU部署可以再提高7倍的吞吐量。

此外,Jarvis框架内集成了若干重要的预训练对话模型和集成工具,以及若干经过英伟达深度优化的视觉、语音和NLU服务(services),使得开发者可以非常容易实现多用户、多上下文的复杂对话场景,进而开发虚拟对话助理、多用户说话人对话内容分离、智能外呼助手等实际应用。

这里贴了一张Jarvis内集成的技能图

可以看到Jarvis不仅支持了传统的语音识别、对话唤醒、对话理解、对话生成、语音生成等对话模块,而且还集成了手势识别、嘴唇活跃度检测、凝视检测、物体识别等视觉方面的技能,这些技能使得高效开发多模态对话应用真正成为了可能。

此外,虽然Jarvis做了大量精度、效率方面的优化,但是开发者实际使用起来却非常容易上手。如下图,只需要 4步 就能启动一个属于自己的对话服务了!

服务启动成功示例图:

服务启动完成后,我们就可以轻松的使用client端的API来向服务器请求对话服务了,仅需两行代码:

详细搭建流程传送门:
developer.nvidia.com/nv

感兴趣的小伙伴快去试试吧!