數據集 | 語音合成音庫助力機器人客服「聲入人心 」
「尊敬的用戶您好,如需辦理業務請按1,辦理業務請按2…或者您可通過自助語音或關注某某公眾號等自助渠道辦理相關業務…」聯繫過客服的人,這句話一定不陌生。
早期智慧客服使用的語音合成技術屬於播音式風格,音質「機械感」濃重,音色損失大、刻板、語速不夠流暢自然,無法做到高度擬人化,用戶聽多了容易產生聽覺疲勞。但是隨著語音合成技術的快速發展,應用場景越來越多,市場對更模擬、更悅耳的聲音要求也越來越高。區別於傳統語音合成表現,個性化的合成語音自然生動,具有情感表現力,豐富了我們的溝通方式。
智慧客服市場突破百億規模
據iiMedia Research(艾媒諮詢)數據顯示,在人工智慧技術不斷發展與客服行業轉型升級等背景下,中國智慧客服興起並迎來快速增長。人工智慧預計2030年將達到1萬億元,平均年增長率為33.3%。其中,智慧客服作為企業人工智慧應用的重要分支,保守估計佔比20%。
智慧客服作為人工智慧商業化落地場景中最為成熟的應用之一,衍生出了智慧外呼機器人,代替人工進行大規模外呼催收,智慧外呼機器人通過語音合成、語義識別、人機對話等技術,如今已經可以達到真實客服的話術、音色、情感、語速。作為智慧外呼的典型場景:
**智慧催收:**貸款催收時,利用智慧外呼機器人可以日均撥打數萬通電話,大大減輕人工坐席壓力。
**精準營銷:**利用智慧外呼機器人批量撥打客戶群電話,根據客戶的通話資訊自動篩選出有意向的目標客戶。
為了讓用戶的體驗更為真實和豐富,機器合成聲音需要更加貼合真實客服的語氣、語調、停頓。
智慧客服趨勢:提升語音合成的自然度
基於自然對話風格錄製的合成庫,可以讓機器模擬人類語音中停頓、變速、猶豫等說話習慣,保留自然錄音數據中的細微語氣表達,使合成效果更加符合人們日常說話習慣。這就需要採集發音人在自然狀態下說話的聲音,整個錄音過程需連續不間斷,保留句子之間的語氣關聯,這樣採集的數據才是擬人化的。
小米在2021年推出了超級擬人技術,可以實現用特別像人的聲音,生成任意文本,在語調、聲調、斷句等方面,都和人日常說話習慣無異。小米稱,「超級擬人技術」作為有史以來最像人的 AI 聲音,完美復刻了人們在日常說話中音量、語速、韻律甚至細微語氣表達等習慣,真正做到超級像人。
一份來自數據堂的解決方案
智慧客服場景的話術不同於其他場景,為了滿足智慧客服場景語音合成技術需求,數據堂基於海量語音文本數據標註經驗與領先的人工智慧語音合成技術,為客戶提供多音色、多語言、高音質的語音合成數據解決方案。
客服場景專業發音人合成庫
26.1小時中文女聲客服合成庫
專業錄音棚環境,發音人聲音活潑親切,錄製了近3萬句客服場景句子,以金融領域文本內容為主,並對音節、音素、音調都進行了平衡覆蓋。
20.1中文男聲客服合成庫
聲音磁性渾厚的專業發音人,錄音內容以金融領域客服場景文本為主,對音節、音素、音調都進行了平衡覆蓋。
10.1小時中文女聲客服合成庫
由聲音活潑親切的專業發音人在專業錄音棚內,錄製以金融領域客服場景為主的文本內容,並對音節、音素、音調都進行了平衡覆蓋。
客服場景多發音人平均模型庫
150人中文客服平均音色合成庫
男女專業發音人各75名,每名發音人錄製700句左右中文句子,錄音內容以金融領域客服場景文本為主,對音節、音素、音調都進行了平衡覆蓋。
50人中英混讀客服平均音色合成庫
男女專業發音人各25名,每名發音人錄製700句左右中英混合句子,錄音內容涵蓋多個領域,以客服場景文本為主,對音節、音素、音調都進行了平衡覆蓋。
真實客服人員對話式合成庫
20小時中文女聲對話式客服合成庫
中國第一個可商用的對話風格的客服合成庫,為了使語音合成更加自然,我們選取聲音甜美的真實客服人員,採用自然對話的方式模擬客服場景進行錄製。
此外,數據堂豐富的樣音資源、突出的技術優勢和數據處理經驗,支援按語言、音色、年齡、性別個性化訂製的採集服務。同時還支援音頻切分、音素邊界切分(切分精度0.01秒)、音字標註、韻律標註、詞性標註、音準校對、聲韻標註、樂譜製作等數據訂製服務,全面滿足多樣化語音合成需求。
未來數據堂將持續為客戶提供更多高品質的語音合成數據,讓人工智慧合成聲音變得更有感情,互動中更有親和力,讓語音交互效果更「聲入人心」。