Jarvis:一個值得關注的多模態端到端人機對話框架,針對所有行業適配

  • 2021 年 4 月 21 日
  • AI

說到應用級的人機對話框架,很多人可能首先想到的是RASA開源項目。不過,今天跟大家簡要分享一個功能更為豐富、性能更為強勁的多模對話框架——Jarvis,非常值得對話系統從業者關注一下。

Jarvis是英偉達於2019年發佈的人機對話服務,不同於大部分的開源項目,Jarvis主打的是深度對話模型的部署和推理效率,因此更具實用價值。有過對話系統開發經驗的從業者知道,對話系統中離不開的語音識別(ASR)、對話理解等模塊不僅難以開發,而且往往模型非常重,導致系統會產生明顯的延時,導致實際應用中經常不得不用精度更弱但速度更快的方案取而代之。而基於Jarvis開發的對話系統,不僅支持了語音識別、對話理解等若干深度學習模型,而且實現了端到端的實時對話,可以將系統級的延遲降低到300ms以內,若是使用GPU部署,更是相比CPU部署可以再提高7倍的吞吐量。

此外,Jarvis框架內集成了若干重要的預訓練對話模型和集成工具,以及若干經過英偉達深度優化的視覺、語音和NLU服務(services),使得開發者可以非常容易實現多用戶、多上下文的複雜對話場景,進而開發虛擬對話助理、多用戶說話人對話內容分離、智能外呼助手等實際應用。

這裡貼了一張Jarvis內集成的技能圖

可以看到Jarvis不僅支持了傳統的語音識別、對話喚醒、對話理解、對話生成、語音生成等對話模塊,而且還集成了手勢識別、嘴唇活躍度檢測、凝視檢測、物體識別等視覺方面的技能,這些技能使得高效開發多模態對話應用真正成為了可能。

此外,雖然Jarvis做了大量精度、效率方面的優化,但是開發者實際使用起來卻非常容易上手。如下圖,只需要 4步 就能啟動一個屬於自己的對話服務了!

服務啟動成功示例圖:

服務啟動完成後,我們就可以輕鬆的使用client端的API來向服務器請求對話服務了,僅需兩行代碼:

詳細搭建流程傳送門:
developer.nvidia.com/nv

感興趣的小夥伴快去試試吧!