冬奧AI手語主播亮相,人工智慧技術助力跨越聲音障礙
萬眾期盼的2022年北京冬奧會即將舉行,這是中國歷史上第一次舉辦冬季奧運會。在關注冬奧會的觀眾中,有一個特殊的群體,他們聽不到賽場的聲音,但他們關注著冬奧賽事,希望了解比賽動態,渴望感受比賽的激情,全球約4.3億人有中度及以上程度的聽力障礙,根據全國第二次殘疾人抽樣調查數據,中國有聽障人士2780萬。
用技術跨越聲音障礙
「從北京冬奧會開始,我將全年無休用AI智慧為聽障用戶提供手語服務,讓他們快捷的獲取比賽資訊!」
11月24日,央視新聞推出的央視總台首個AI手語主播正式亮相——她有著真人般的皮膚、頭髮、眼睛,形象親切自然,氣質優雅獨特,從表情、口型、毛髮、服飾身形五大維度打造3D高精超寫實的數字人AI模型,也讓AI驅動的數字人表情則更加親切自然。
據介紹,AI手語主播採用語音識別、機器翻譯等人工智慧技術,構建了一套複雜而精確的手語翻譯引擎,可實現由文字及音影片內容到手語的翻譯,再通過專門為手語優化研發的自然動作引擎,進行虛擬形象的驅動。這些技術使得AI手語主播具備高可懂度的手語表達能力和精準連貫的手語呈現效果。
此次央視AI手語主播的亮相,是人工智慧對人類的反哺,是一個科技發展帶來的溫情脈脈的時刻,人工智慧發展越來越快,也越來越有溫度了。
為了能讓更多的AI主播為更好的特殊群體服務,身為全球領先的人工智慧數據服務商,數據堂義不容辭,我們量身訂製了一系列數據集,可快速提高AI主播的表達能力,助力人工智慧反哺人類。
手語手勢數據集
AI主播想要準確、自然的表現手語,光是學習《國家通用手語詞典》是遠遠不夠時,《國家通用手語詞典》只能提供正確的手語手勢,要想讓AI主播擺離線械感,更加接近真人的手語表達,那麼,AI主播還需要學習更多真人的手語手勢。
手語手勢識別數據集
該數據集包括多種場景、40餘種靜態手勢、近百種動態手勢、多種拍攝角度和多種光照條件 ,標註21關鍵點、手勢類別標註、手勢屬性標準確率95%以上,該數據可用於手勢識別,手語翻譯等任務。
唇型同步多模態數據集
除了手語要準確,唇型也得要準確,AI主播如果不針對性的進行唇型同步的學習,在正式進行新聞播報的時候,會出現唇型和聲音匹配不上的問題,為了解決這個難題,數據堂採集了行業領先的唇型同步多模態數據集,可快速調高AI主播唇型準確率,實現聲音與畫面的精準匹配。
唇型同步多模態數據集
近500人參與錄製語音以及相匹配的唇語影片,多設備同步錄製,通過脈衝訊號進行精準對齊,準確性高。可用於語音影像領域的多模態學習演算法研究。
TTS語音合成數據集
AI主播合成的語音如果更接近真人且感情表達豐富,那麼觀眾會覺得這不是一個冷冰冰的機器,而是一個有感情的「人」,會更容易接受AI主播的存在,讓觀眾的注意力從AI主播身上,轉到新聞內容上。
中文女聲情感合成庫
由中文母語發音人錄製,六種情感文本,語料音素覆蓋均衡,專業語音學家參與標註,字準確率不低於99.9%,句準確率不低於99%,句準確率不低於98%,精準匹配語音合成的研發需求
隨著AI技術的更迭和進化,3D虛擬場景不斷拓展,AI主播的工作空間會更大,也許不久AI主播會走出演播室,在不同場景中更好地滿足新聞呈現多樣化的需求,實現科技改變生活,技術反哺人類。