Jarvis：一個值得關注的多模態端到端人機對話框架，針對所有行業適配

2021 年 4 月 21 日
AI

說到應用級的人機對話框架，很多人可能首先想到的是RASA開源項目。不過，今天跟大家簡要分享一個功能更為豐富、性能更為強勁的多模對話框架——Jarvis，非常值得對話系統從業者關注一下。

Jarvis是英偉達於2019年發佈的人機對話服務，不同於大部分的開源項目，Jarvis主打的是深度對話模型的部署和推理效率，因此更具實用價值。有過對話系統開發經驗的從業者知道，對話系統中離不開的語音識別（ASR）、對話理解等模塊不僅難以開發，而且往往模型非常重，導致系統會產生明顯的延時，導致實際應用中經常不得不用精度更弱但速度更快的方案取而代之。而基於Jarvis開發的對話系統，不僅支持了語音識別、對話理解等若干深度學習模型，而且實現了端到端的實時對話，可以將系統級的延遲降低到300ms以內，若是使用GPU部署，更是相比CPU部署可以再提高7倍的吞吐量。

此外，Jarvis框架內集成了若干重要的預訓練對話模型和集成工具，以及若干經過英偉達深度優化的視覺、語音和NLU服務（services），使得開發者可以非常容易實現多用戶、多上下文的複雜對話場景，進而開發虛擬對話助理、多用戶說話人對話內容分離、智能外呼助手等實際應用。

這裡貼了一張Jarvis內集成的技能圖