AI Pioneer | 一知智慧李一夫:完美的智慧語音客服有多難?

  • 2019 年 10 月 7 日
  • 筆記

2019年9月7日,一知智慧受邀參加由AICUG人工智慧技術社區主辦的AI 先行者大會(AI Pioneer Conference),大會聚焦國際AI前沿技術、產業落地,匯聚中美AI行業領袖與技術大咖,共同探討人工智慧行業的發展與未來。

大會現場,一知智慧聯合創始人、技術負責人李一夫與來自阿里巴巴、Intel、Airbnb、雲從等中國外AI尖端企業的智慧技術專家,聚焦NLP、語音技術、AI解決方案、AI+新零售、CV、推薦演算法、無人駕駛、人工智慧平台等眾多前沿主題,共話AI技術與行業落地實踐,展現智慧技術的獨有魅力。

一知智慧聯合創始人、技術負責人李一夫

作為一家技術核心驅動的AI公司,李一夫分享了主題為「智慧語音交互在客服場景的技術演進之路」的精彩演講,詳細解讀了一知智慧在語音交互技術方面的探索研究以及在智慧客服領域的應用突破。

以下是經整理的分享內容:

Part1智慧語音交互

Part2客服場景的智慧語音交互

Part3智慧語音交互的三駕馬車

01智慧語音交互

我們先看⼀下智慧語⾳交互,從命令行到windows的點擊拖拽,從功能機的按鍵交互到智慧機的觸摸交互。人與機器的交互方式一直在變化。

近幾年來隨著技術逐漸成熟,智慧語音成了⼈機交互的熱門方式,也有了非常多的應用。從四年前iphone的智慧語音助手siri,到智慧音箱、智慧家居、智慧車載,人機語音交互在越來越多的場景落地,催生出嶄新的增量市場。據統計,2019年全球語音交互市場規模達到13億美元,預計2025年全球語音交互市場規模將69億美元。

很好理解,語音交互本質上是通過語音輸入來理解用戶需求,並對其進行回饋的一種交互模式。它先將用戶的對話語音通過ASR轉換成文字,再利用NLP的部分對文字進行理解,結合上下文生成或檢索出答案,再通過TTS合成語音回答用戶。

圖1-智慧語音交互設備的演變

圖2-智慧語音交互的技術實現原理概括圖

實際上,影響用戶語音交互體驗的因素有很多,比如AI喚醒的準確率與召回率[ 召回率 = 機器人能回答的問題數 / 問題總數]、TTS輸出語音的擬人度等,其中最重要的是輸入內容的語義理解和答案生成,AI的回復是不是用戶想要的。其次是AI的響應時長。如果AI回答過快,我會覺得很有壓迫感。反之,如果AI回答過慢,我會沒有耐心。

圖3-用戶請求回饋階段的響應時間舒適度區間

這張圖描繪的是智慧⾳箱場景,⽤戶請求回饋的響應時間與⽤戶舒適度的關係,數據是百度⼈⼯智慧交互設計院在2017年收集的。橫軸是響應時間,縱軸是5種⽤戶舒適度的類別。⼤家可以看到,⼩於1300ms的響應時間,超過6成的⽤戶覺得體驗很好,2150ms以內,9成以上的⽤戶都是能接受的,部分⽤戶會覺得有些許延遲感,再⻓⼀些時間,體驗就很差了,⽤戶⽆法接受,所以語⾳交互的響應時間⾄少應該控制在2150ms以內。

02客服場景下的智慧語音交互

接下來我們來看客服場景,近年來隨著人工智慧技術的發展,語音識別、語音交互及語音合成等技術的日漸成熟,越來越多的企業開始引入智慧客服,以填補由於人力成本劇增,用戶需求不斷增長等原因造成的人工客服缺口。

智慧客服能夠成為率先落地,而且技術比較成熟的AI應用。其中的一個關鍵因素是:客服場景具有相對明確的路徑特徵。

我們日常生活中都或多或少都接到過智慧客服的電話,對客服場景不會陌生。智慧客服的語⾳交互基於電話終端,簡⾔之就是機器⼈撥打或者接聽電話,和用戶展開對話。

圖4-基於電話端的語音交互技術實現原理

從技術原理來說,它⽐圖2多了PSTN和VOIP,怎麼理解?簡單的說,PSTN是Public Switched Telephone Network的縮寫,指的是公共交換電話網路,也就是我們日常生活中常用的電話網。而VOIP是Voice Over IP的縮寫,該技術將電話⽹的語⾳通過互聯網進行傳輸,是Call Center中常⻅的一種技術。⽆論是AI主動外呼,還是AI被動接聽,AI與⽤戶之間的語⾳傳輸都會經過PSTN與VOIP這兩層。如果結合上述提及的2150ms響應時長上限,那麼在客服場景下,人機語音交互能否有恰如其分的用戶體驗,就取決於在2150ms的時間內,上圖的交互流程是否可以完整實現。

2150ms,AI能分到多少?

那我們來分析一下這⼀套交互流程的響應時間,我們看看有多少時間是留給AI的。

PSTN-VOIP耗時800ms

⾸先,⽤戶拿⼿機給智慧客服打電話,語音通過無線電傳輸到達基地台,PSTN再轉發,這個環節需要大概200ms的時間,⼈與⼈之間打電話也會有這個延時,無法主觀去縮短。然後經過VOIP語⾳交換機,會再花掉200ms左右的時間。

語音識別耗時600ms

在客服場景,一般採用的是流式語⾳識別,即連續識別⽽⾮斷句識別,全程採集⽤戶的語⾳流,讓AI 邊聽邊想,利⽤中間結果進⾏預測性識別。

我們做過⼀個實驗,⼀台本地機器調用ASR服務,從我對著PC上的⻨克⻛開始說話,到ASR程式吐出第⼀個字,中間⼤概需要100ms時間。也就是說,ASR模型本身需要100ms的運算時間。

剛剛我們講了ASR是在連續識別的,那什麼時候我認為⽤戶說完了呢,ASR怎麼斷句。這⾥有⼀個參數叫最⼤靜默時間,即在這個時間內用戶一直沒說話,我就認為⽤戶說完話了,這個時間不宜太⻓或太短,太⻓了反應太慢,太短了反應太靈敏,我呼吸⼀下就認為我說完了,機器⼈要搶著回答,這⾥我們⼀般設為500ms。因此,100ms的模型運算時間加上500ms的用戶最大靜默時間,就得到了上圖中ASR環節的600ms。

語義理解耗時10-300ms

在AI對語音文本進行語義理解的NLP環節,它的時長取決於語義理解的方式。如果運用正則表達式,所需時間是很短的,僅僅需要10ms左右。如果運用深度學習模型,則需要100-300ms之間。

語音合成耗時0-300ms

這⾥涉及到客服場景的⼀個特點,客服場景是需要有標準話術的,客服⼈員需按照一套規範的話術和客戶對話,超過業務範疇的交流是不允許的,所以回復的內容是一個有限集。因此在語音合成模組,因此這⾥我們不會⽤generation,⽽是retrieval的形式,所以TTS⼤概率也是不需要的,只有需在話術中植入變數的時候才會用到,比如姓名、金額、地點等等。⼀般TTS在300ms之內可以完成,看答案的⻓短而定。

智慧客服的苛刻條件

在語音合成完成後,會再依次經過VOIP與PSTN,把語⾳傳輸回給⽤戶。所以我們可以看到,800ms用在通訊側,600ms用在ASR ,再加上NLP、TTS,完成流程閉環的最短時間是1500ms。那如果通訊側訊號再差⼀些,⽹絡時延再⻓⼀些,那可能就奔著3000ms去了。

剛剛我們說到,為了好的⽤戶體驗,語⾳交互需要控制在2000ms以內,那其實留給AI的計算時間真的很緊湊,AI廠商很難施展手腳去引入非常deep的NLP model,而且需要花不少經歷在模型壓縮、蒸餾與計算加速上;TTS如果要實時調⽤,也就⽤不了端到端的,因為它的速度⼀直被⼈詬病;ASR的最⼤靜⾳時間500ms還是會有很多沒講完的斷句,還得⽤其他的⼀些⽅法給它彌補,⼜不能影響響應速度。

因此從整體上說,客服場景的智慧語⾳交互,條件更加苛刻⼀些。

03智慧語⾳交互的三駕⻢⻋

1. 語音識別(ASR)

接下來我們來看下智慧語⾳交互三駕⻢⻋:ASR、NLP、TTS。

⾸先是ASR,ASR可分為聲學模型、語音模型、解碼器這三個部分。其中,聲學模型通俗地理解是將語音轉換為因素,語⾳模型需要轉化為單詞,主要是N-Gram和NNLM兩種。解碼器實際上是⼯程化的內容,將聲學模型和語⾔模型組合成WFST⽹絡去搜索最優路徑,得到答案。

圖5-語音識別技術的發展概況

這張圖是語⾳識別的發展史。人類對於ASR的研究,從上世紀的50年代初就已經開始了,此後相關技術不斷突破發展,經歷了從英文數字孤立詞,到人工神經網路,再到連續辭彙以及統計模型⽅法。目前,行業主流的是DNN-HMM的基礎模型結構,它有效地降低了AI的識別錯誤率。

說到ASR⼤家最先想到的就是準確率,目前⼤家都普遍認為ASR準確率到達了98%。在⼀些安靜的理想環境,說話⼈發⾳標準,語速均勻的情況下,是可以達到的。但是在客服場景,80%的準確率都很難達到。

最⼤的原因是取樣率的問題,電話通道制定的取樣率是8K,⽽業內ASR取樣率⼀般是16K,在早期我們只有16K的語音識別模型的時候,研發的同學去人為地對8K語音進行「人工重取樣擴充」,即在8K語音每兩個取樣點之間去人為添加一個取樣點,數值為左右兩個點的均值,這樣可以轉化為16K的音頻,再傳給ASR去識別,這種方式實際上是對語音的分布進行了一個假設,顯然這種方法的效果肯定會⽐直接取樣16K的音頻要差。

那麼近年來,8K的需求日益旺盛,大家也都標註了相應的8K場景的數據,訓練了8K的語音識別模型,但是8K的模型肯定是不如16K的準確率高的,很好理解,首先你8K的語音,數據取樣點少了,對原始的數據的分布描述更弱;其次8K語⾳識別的標註數據相對較難獲得,數據主要來源於企業客服中⼼,容易受到客戶的地域、口音、行業等差異的影響,數據的全面性、覆蓋率是一個挑戰。

另外就是在智慧客服場景,客戶不知道你是機器人,不會像智慧音箱這種場景,事先知道你是AI,會盡量標準化自己的發音,標準化說話的內容與指令,而客服的場景,⽤戶的表達相對⼝語化,溝通環境也較為複雜,⽐如用戶在開⻋、⽤藍⽛,開免提等等,都會造成一定的噪音干擾。

如何優化客服場景下的語音識別?

1設置熱詞

在語音識別服務中,如果在用戶業務領域有一些特有的詞,AI默認識別不出來時就可以考慮使用熱詞功能。它通過改變解碼時搜索最優路徑是熱詞的權重,以提升該詞被解碼出來的概率,幫助我們去解決⼀些場景中由於同音詞問題造成的識別干擾,但畢竟中⽂的同⾳詞太多了,這⾥我舉了⼀些例⼦。

圖6-熱詞舉例設置

在使⽤熱詞的時候,有⼀些需要注意的地⽅,⾸先不是什麼詞加⼊熱詞都能夠生效,前提是在ASR詞庫⾥得有這個詞。而且,熱詞也不能隨意添加,添加過多會影響到其他詞的識別,⼀般情況下熱詞都會有個數限制,我們內部限定是100個。

2語音模型自學習、聲學模型

語⾔模型⾃學習是指給AI提供足量的語料,對特定領域的⽂本數據進⾏語⾳模型的重新訓練,技術實現原理和熱詞相仿,都是在解碼的時候調整語⾔模型,他們的主要差別是,前者是基於單詞去訓練調整,而後者基於句子。

另外,針對用戶口音和方言的問題,⼀般需要重新訓練⼀個聲學模型了。

2.自然語言處理(NLP)

接下來我們看看NLP部分,NLP和ASR、TTS不同,它與業務以及使⽤場景⾼度相關。⾸先我們看看客服場景下的智慧語⾳交互,我把它分成兩類,⼀類是呼入,AI接待用戶的來電。⼀類是外呼,AI給用戶打電話。

圖7-客服場景下的語音交互

呼⼊場景的智慧客服為了解決某一類型任務而設計的對話機器人,這類任務一般帶有比較明確的場景和條件,比如問題諮詢,業務辦理等,也就是我們常說的任務型多輪對話和FAQ。

外呼分為兩類,⼀類是營銷類外呼,相對簡單,對話輪次較少,有很多公司會採取類似「萬⾦油」的回復對NLP的要求較低。很多隻做外呼類的公司,其實技術⻔檻⾮常的低,企業只要有VOIP技術,在ASR和TTS部分調用第三方服務,以及在NLP部分採用關鍵詞就能快速上線業務 。另⼀種是確認資訊類的,通過與用戶的多輪複雜對話收集相關資訊,對NLP的要求較⾼。

為⽅便運營,同時平衡效率和成本,我們在解決這兩類對NLP要求有明顯差異的需求時,采⽤了兩種不同的NLP的⽅案。

圖8-樹狀話術流程圖

首先,針對簡單的營銷場景外呼,我們采⽤了樹狀的流程模式。在每一個正常話術節點下,智慧客服的後台都可以設置肯否模型,通過正則表達式匹配客戶意圖,是「肯定」還是「否定」,再對應流轉到下一節點。如果對話內容沒有命中當前任何節點的分⽀,則會流轉到默認分⽀,這樣保證了對話過程的流暢完整。

整體來說這種⽅案簡單快捷,對於⼀些營銷類的、或者通知類的業務⾮常實⽤,因為這⾥機器⼈是主動⽅。

而針對呼⼊場景,或者複雜類的外呼業務,基於關鍵詞的NLP模式已無法有效支援。⼀⽅⾯關鍵詞、正則表達式容易打架,另⼀⽅⾯結構本身有缺陷,上下⽂全靠窮舉配置。以某大型國有銀行的查賬單場景為例,我們采⽤的是流程圖的配置,⾸先以用戶意圖為條件進⼊多輪對話,⽤NER抽取時間資訊,然後將卡號設置為必須填充的槽位,填槽失敗需要反問,意圖不明可以澄清,還可以在多輪對話內部實現意圖繼承,直到我們成功採集到用戶的有效資訊。

圖9-智慧客服場景的NLP流程圖

其實在複雜客服場景下,保證NLP的易⽤性和可控性還是核⼼原則,在NLP優化上也有三個⽅向,⼀是提升準確率,⼆是提⾼泛化度,降低數據標註成本,三是糾偏ASR錯誤。目前,我們在意圖識別和FAQ識別引⼊了Ensemble Method,多個模型並行跑,再⽤Voting機制來提⾼可信度,提⾼泛化能⼒。此外,基於知識圖譜的NLP應用也即將上線。

圖10-智慧客服場景的NLP發展方向

3.語音合成TTS

最後我們看下TTS,簡單來說,它的技術主要分為三塊,首先前端將⽂本進⾏特徵提取,然後模型部分將⽂本特徵轉化為⾳頻特徵,最後聲碼器利用⾳頻特徵⽣成⾳頻⽂件。

圖11-TTS工作原理

目前,業內主流的TTS⽅法主要有三種:

1拼接法

拼接法需要事先錄製龐⼤的語⾳庫,覆蓋的⾳素單元要求儘可能全⾯,費用成本十分高昂,我們沒有使⽤過這種⽅法。

2參數法

參數法將時延模型與聲學模型分開,先預測時延模型,再預測聲學模型,方法⽐較成熟,合成速度也較快,但是機械感⽐較重,⾳⾊有明顯偏差,⾮常依賴於對於任務⼀⽂字特徵⼯程的建⽴,尤其是韻律預測模組。

3端到端合成

端到端的合成,是直接將⽂本特徵序列轉化為⾳頻特徵,⽆需像參數法在過程中間⼿動提取特徵,流程簡潔、韻律感強,但是⼯程化仍有挑戰,語音合成也很容易出現偏差。

前⾯提到,客服場景的話術都是固定的,⼤多數可以⽤真人錄⾳代替TTS,但是為了滿足千人千面的個性化溝通,還是需要在話術裡面植入變數,⽐如客戶名稱、家庭住址、到期還款金額等資訊。

目前,TTS技術在變數合成上的應用,主要分以下三個階段:

第⼀階段,採用真⼈錄⾳+第三方TTS,百度的、阿⾥的、訊⻜的,拼接效果很差,語音合成的突⺎感很重。

第⼆階段,採用全TTS,基於逐漸成熟的端到端語音合成技術,包括變數部分,整套話術完全採用TTS。

第三階段,使⽤同⼀個發⾳⼈的錄⾳+變數拼接的⽅式,變數部分可以適當得拓展。

在客服場景下,未來TTS的發展主要有三個⽅向:

圖12-客服場景的TTS發展方向

第⼀,依託端到端的⼯程化解決,實現提速,在商業領域有更大的落地空間。

第⼆,TTS情感化,實現擬人化、情感化、場景化的語音交互,為用戶創造「感受愉悅」的交互體驗。

第三,語⾳克隆,或者叫訂製化語音服務,通過錄少量的音,能夠⽣成一個訂製的TTS,它需要公司先建立起多個音⾊的音庫。

總結⼀下,以ASR、NLP、TTS為核心的智慧語音交互,落實到客服場景中的服務品質與用戶體驗上,其實並不完美,需要人工結合具體的落地案例去不斷調優。

雖然目前的語音交互技術在智慧客服領域得到了比較成熟的應用,但現實是,市面上的AI客服的智慧化程度還遠不及人工客服,如果給人工客服打100分,那麼AI客服智慧化大概只能打到40分至60分。即便如此,智慧客服行業由於有著巨大的商業應用價值,幫助企業節省人力成本投入、提高客戶服務品質、實現企業智慧化營銷等等,因此催生出旺盛的市場需求。在可見的未來,業內廠商的相關技術還是應該聚焦於特定應⽤場景,一些重複性強、足夠閉環且任務不簡單的場景,使得一個40分至60分的AI客服能夠提供80分的服務水準。

實際上,圍繞著三⼤技術,除了外呼、呼⼊的交互模式,智慧客服還提供⼈機協作、智慧質檢、智慧培訓等全流程的泛語音服務,對作業效率和作業品質的提升明顯。我們通過技術底層為場景應⽤提供能⼒支撐,應⽤層為核⼼能⼒提供數據積累,形成雙向回饋,構建出成熟、完善的企業AI能力平台,為客服⾏業的降本增效提供智慧化引擎。

在智慧客服領域,一知智慧作為領跑行業的一員,應用技術快而新,通過與浙大、微軟等人工智慧前沿研究機構的深層次合作和交流,又使其走在前沿。把這種AI能力提供給整個行業,必將驅動傳統企業的智慧化變革。