AI語音技術的架構(學習心得)

AI 語音技術架構:

1.jpg
AI 的語音技術現在在各種終端上都已經普及開,比如個大廠商的智能音箱,都運用了該技術。

以智能音箱為例,AI 語音技術的架構為:

  1. 首先人類通過喚醒詞,喚醒設備
  2. 發出語音指令:比如「今天天氣如何?」
  3. 通過語音識別技術,將語音信息轉化為文本信息
  4. 文本信息通過 NLP 技術理解其內在含義
  5. 通過深度學習模型/或者問答庫找到合適的答案
  6. 通過 NLP 技術形成答案的文本
  7. 通過語音合成技術將文本信息轉化為語音信息
  8. 通過智能音箱進行語音輸出

2.jpg
要讓機器理解語音的含義,我們需要兩個模型:
一個是聲學模型,一個是語言模型
前者是將語音轉化為文本
後者是理解文本的含義