數據推薦 | 自然對話語音數據集

從目前的數據行業看,大部分語音識別數據都以朗讀式訓練數據為主,朗讀式語音數據可以解決例如手機語音助手、車載語音助手、智慧音箱、智慧家電等較為簡單的人機交互應用場景。

圖片

用戶和機器之間通常是以單一短句的形式來對話或進行命令控制,用戶往往會注意自己的語速和發音,本質是一種非自然狀態下的發音。在這種場景下,朗讀式語音數據可以滿足語音識別演算法的訓練需求。

圖片

然而,隨著語音識別技術在智慧客服、智慧會議等更多自然場景下的落地,朗讀式語音數據的訓練效果開始變得差強人意。由於日常生活中說話人的發音習慣更加自然,在發聲時會有大量的連音、吞音、發音變形、咬字不清等,包括一些無意識的「嗯、啊、呃」等,說話人往往不會刻意去控制語音、發音習慣,多人同時交流時甚至會出現語句打斷、搶話、交疊音等複雜語音現象,所以這種自然對話風格的語音識別率就不是很理想。

圖片

**數據是人工智慧的基礎,要想使人工智慧技術有更高的準確率,就需要和應用場景更加匹配的訓練數據集。**自然對話語音數據已經成為業內更急缺的數據集。

數據堂在採集自然對話語音數據時,完全沒有預設語料,只給出話題列表,錄音人從中挑選多個自己感興趣並熟悉的話題展開對話,確保對話語音自然流暢。

目前數據堂擁有20萬小時成品語音數據集,其中,自然對話風格的語音數據近4萬小時,包括中文普通話、方言、英語、日語、韓語、印地語、越南語、阿拉伯語、西班牙語、法語、德語、義大利語等,發音人來自不同地域及城市、年齡性別覆蓋均衡。所有音頻都經過了嚴格的人工轉寫及質檢,標註文本內容、有效句子的起止時間點、錄音人身份標識等,句準確率高達95%以上。

圖片

部分自然對話語音數據集清單

圖片