AI语音技术的架构(学习心得)

AI 语音技术架构:

1.jpg
AI 的语音技术现在在各种终端上都已经普及开,比如个大厂商的智能音箱,都运用了该技术。

以智能音箱为例,AI 语音技术的架构为:

  1. 首先人类通过唤醒词,唤醒设备
  2. 发出语音指令:比如“今天天气如何?”
  3. 通过语音识别技术,将语音信息转化为文本信息
  4. 文本信息通过 NLP 技术理解其内在含义
  5. 通过深度学习模型/或者问答库找到合适的答案
  6. 通过 NLP 技术形成答案的文本
  7. 通过语音合成技术将文本信息转化为语音信息
  8. 通过智能音箱进行语音输出

2.jpg
要让机器理解语音的含义,我们需要两个模型:
一个是声学模型,一个是语言模型
前者是将语音转化为文本
后者是理解文本的含义