語音識別新一輪競爭打響,自然對話會是下一個制高點嗎?
當前,全球智慧語音企業在朗讀風格語音的字錯誤率基本保持同等水平,隨著垂直化應用場景的增加,越來越多的企業開始加大在自然對話語音識別技術方面的研發投入。
萬億規模的龐大市場
多年來,語音識別技術越來越受到重視。它正成為與電腦、智慧手機和智慧設備相關的個人生活的一個常見部分。
語音設備的快速增長,消費者對智慧設備的需求增加,以及車內資訊娛樂系統的集成,是推動語音識別市場增長的關鍵因素。另外,人工智慧在汽車、醫療保健和消費電子產品中的日益頻繁使用,增加了對語音設備的需求。同時,對智慧揚聲器、消費電子產品、智慧可穿戴設備、聯網汽車、智慧家居和醫療保健等設備中的語音應用程式的需求不斷增長,是推動語音識別市場的關鍵因素之一。
根據市場研究機構Meticulous Market Research發布的最新報告預測,到2025年,語音識別市場規模將達到267.9億美元,從2019年到2025年,將以17.2%的年複合增長率持續增長。
不降反升的字錯誤率
眾所周知,語音識別系統常用的評估標準是詞錯誤率(Word ErrorRate,WER),也稱字錯誤率。為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換(Substitution)、刪除(Deletion)或者插入(Insertion)某些詞,這些插入、替換或刪除的詞的總個數,除以標準的詞序列中詞的總個數的百分比,即為WER。其公式如下:
拋開這些專業的測算方法,通過頻繁使用身邊的智慧化語音產品,也可以清晰的感知出語音識別效果,但好像並不是所有的識別效果都是令人滿意的。我們不妨通過兩個案例來看一下。
案例一 新聞聯播語音識別評測
數據來源
通過YouTube、CCTV中央電視台官方頻道爬取2019年全年新聞聯影片內容。分12個月,每個月抽取2期,共計24期節目,並抽取音頻,共計時長約12小時。
場景特點
**環境:**主體為密閉錄音棚,安靜,無背景雜訊。穿插少量會場、戶外採訪拾音。
**設備:**專業高保真麥克風,等同於近場,聲音品質極好。
**說話人:**主體為專業播音員,穿插少量領導人講話,記者及被採訪對象。
**說話方式:**主體為朗讀式,中等語速,幾乎無口誤、重複、停頓等現象口音、方言:無,極標準普通話。
**內容領域:**國家時政新聞。
評測結果
案例二 德雲社相聲語音識別評測
數據來源
通過德雲社Youtube官方頻道專場播放列表隨機選取5期,累計約2.5小時。
場景特點
**環境:**多為演出現場舞台,環境空曠,存在混響,存在背景雜訊(觀眾笑聲、掌聲、起鬨等),無背景音樂。
**拾音設備:**相聲演員前方的立式麥克風或者領夾麥克風、近場。
**說話人:**郭德綱、于謙、岳雲鵬等德雲社相聲演員。
**說話方式:**相聲特有,雙人交替,語速中等偏快。
**方言:**大部分為普通話,偶有少量模仿的方言片段
**內容領域:**娛樂、相聲段子。
評測結果
為什麼會出現這麼大的差別
對比以上兩個案例,我們不難看出,新聞聯播的場景特點非常接近語音識別的理想場景,基本可以代表現有的中文語音識別系統性能上限,字錯誤率達1%-2%,即100個字中只發生一到兩個字的錯誤。
然而,更多的場景可能更接近案例二,說話人的發音習慣更貼近日常溝通行為,在發聲時會有大量的連音、吞音、發音變形、咬字不清等,包括一些無意識的「嗯、啊、呃」等,不會刻意去控制語音、發音習慣等,再加上外部環境與方言、語種等因素的影響,這種偏向於日常的自然對話風格的語音識別率不是很理想。
如果一個智慧語音產品要求說話人達到新聞聯播主播的聲音標準才能給出足夠多的識別結果,基本是不可能的。可見,自然對話風格的語音識別結果才是判斷一個語音識別平台是否優秀的最高標準。
一份來自數據堂的解決方案
**好的AI需要更好的訓練數據。**目前數據堂擁有20萬小時成品語音數據集,其中,**自然對話風格的語音數據近4萬小時,**包括中文普通話、方言、英語、日語、韓語、印地語、越南語、阿拉伯語、西班牙語、法語、德語、義大利語等。
考慮到多信道對識別率的影響,中文普通話自然對話語音數據涵蓋了手機、電話、網路等多種信道類型。
數據堂自然對話語音數據集還覆蓋了全國七大方言區,發音人來自不同地域及城市、年齡性別覆蓋均衡。語種方面包含日、韓、印地、越南、阿拉伯等亞洲語系,法、德語、義大利、西班牙等歐洲語系及各國人英語對話等。
在採集數據時,完全沒有預設語料,只給出話題列表,錄音人從中挑選多個自己感興趣並熟悉的話題展開對話,確保對話語音自然流暢。
所有音頻都經過了嚴格的人工轉寫及質檢,標註文本內容、有效句子的起止時間點、錄音人身份標識等,句準確率高達95%以上。
數據堂的對話式語音成品數據集已經服務於全球100多家企業的語音識別產品中,成功應用到智慧客服、智慧會議、影片字幕自動生成等眾多場景。
後疫情時代下的AI賦能
疫情改變了生活,也改變了我們的生活方式。人工智慧技術的應用場景更加豐富,也更加落地。
與往屆大會不同,2020年世界製造業大會更加凸顯了人工智慧技術賦能之廣泛。在主論壇開幕式環節,大眾集團董事會主席迪斯、惠而浦全球首席執行官馬克·比澤爾、阿里巴巴集團董事會主席張勇、華為技術有限公司常務董事余承東等出席會議並做相關演講,訊飛聽見實時雙語字幕位於主螢幕兩側,為國際會議的無障礙交流提供了技術支援。
訊飛聽見在華為昇騰A.I.新品全球發布會提供自然風格的中文實時轉寫、翻譯德語、俄語、法語、韓語等多語種字幕服務。
2022年2月10日,Cerence賽輪思宣布將為日本先鋒株式會社(Pioneer Corporation)提供自然的對話式語音識別技術支援。無論日本消費者駕駛任何類型的汽車,通過先鋒的智慧化產品都可以為他們帶來安全的高效的日語語音個性化體驗。
人工智慧是一個偉大的歷史進程,其起步至今,已迎來了人工智慧規模化落地元年。未來,隨著5G等技術的同步發展,越來越豐富的語音識別應用場景也將促進不同語言、不同膚色、不同地域之間的無障礙溝通。
**附數據堂自然對話語音數據清單:**