深度 | 車載語音群雄並起共爭智慧座艙新高地

不論是蘋果公司iOS系統中的智慧語言助手「Siri」,還是微軟Windows系統中的「Cortana」,智慧語音交互早已融入我們生活之中。隨著汽車產業的發展,用戶消費形態的改變,自動駕駛、智慧座艙、新能源這些概念已經逐漸落地成為現實,智慧語音交互與汽車之間也擦出了別樣的火花。

由於駕駛汽車無法解放雙手,對於人機互動的需求,則更多需要通過語言來實現。因此,結合了人工智慧的車載語音交互系統作為汽車智慧網聯時代的代表性產物,被更廣泛地運用於汽車之中。

據蓋世汽車研究院報告顯示,隨著消費者對座艙體驗要求的提升,智慧座艙將融合更多智慧化、數字化功能,使得其單車價值量將大幅提升,2030年有望達到千億規模。車載語音交互系統作為智慧座艙中不可或缺的一部分,是車內最直接、最人性化、最安全的交互方式,隨著AI和硬體性能的增強,也將成為未來最主要的車內交互方式。

圖片

圖片來源:蓋世汽車研究院

解決難點成行業首要共識

智慧語音交互主要有三大重點,分別是識別、理解、執行。在目前提供解決方案的廠商中,識別部分已經趨於成熟,識別率可以達到90%以上,像是數據堂等公司的識別率已達95%左右。行業的痛點主要聚焦於「理解」部分,大部分的車載語音交互系統在「理解」上並不智慧,其主要體現在操作複雜與交互機械兩個方面:

現在大部分廠商提供的語音交互解決方案是通過觸控螢幕與部分語音相結合的方式進行交互。同時在螢幕內的不同應用中還內置了不同的語音方案,這也帶來了許多的操作不便。

此前傳統主機廠提供的前端語音交互的功能,大部分採用命令控制。用戶需按照指定命令去進行交互,機器不具備語義理解能力。交互機械化,導致整個系統功能單一、命令詞單一。

此外,雖然語音識別準確率已經達到了一個較高的水平,但是用戶畢竟是一個有獨立精神的個體而非機器人,「口誤」隨時可能發生。因此在語音交互時,具有很大的不確定性,由於缺乏適應用戶語音使用習慣的系統,以至於達不到正常的交互,無法完成用戶設定的目標。

如何讓車載語音交互系統像人一樣理解我們的話語?這主要涉及到NLP(自然語言處理)技術,它們對於用戶輸入語音的理解與本身的場景策略、多輪對話有著密不可分的關係,並直接決定著車載語音交互系統的智慧化程度。

如何交互,語音識別提供商獻計獻策

目前Google在NLP技術中處於一枝獨秀的地位,但在中國中文車載語音交互市場,科大訊飛、微軟、數據堂、亞馬遜、百度等公司都在雲服務和NLP技術領域擁有不俗的實力。

科大訊飛作為汽車智慧化領域的先行者,自2003年開始,深耕汽車智慧化領域,使人工智慧技術在汽車產品上得到了深度應用。目前合作已覆蓋90%以上的中國自主品牌和合資品牌車廠,累計前裝搭載量突破 3600萬套。

對於智慧座艙提供了一整套解決方案。以全鏈路的產品和服務合作為基礎,讓用戶的體驗和管理持續迭代、持續在線。他們不僅僅停留於語音交互,還融入視覺和聲紋多模感知交互等,讓智慧語音系統不再只服務於駕駛者。此外,科大訊飛還在車載語音識別系統中加入了深度學習功能,致力於為汽車用戶打造一個專屬自己的虛擬人工助理。值得一提的是,截止至2021年10月,科大訊飛共奪得38項國際人工智慧大賽冠軍,在人工智慧領域建樹頗多。

圖片

科大訊飛車載語音系統;圖片來源:科大訊飛

微軟也在車載語音交互江湖「摩拳擦掌」,其在去年就聯合華人運通打造首個主動式人工智慧夥伴 HiPhiGo。2021年4月,微軟官宣了一項重量級收購,花費160億美元收購美國最大語音識別公司Nuance。比爾·蓋茨說過,「自然語言處理是人工智慧皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟。」

圖片

搭配微軟車載語音系統的HiPhi X;圖片來源:高合汽車

車載語音交互系統離不開語音識別技術的支援,即在文中一開始提到「識別」的部分。語音識別作為一種基礎層感知類技術,既可以作為核心技術直接應用於終端產品,也可以僅作為一種感知類輔助技術集成於語音助手、車載系統、智慧醫療、智慧法院等場景的產品中。

數據堂專註於AI數據服務,作為中國首家上市的人工智慧數據服務企業,擁有國際領先的自主核心數據處理技術,已實現基於ML輔助技術進行大規模數據生產的能力。在語音識別數據領域,數據堂現有20萬小時的成品語音數據集,覆蓋多設備、多類型、多環境與多語種,可快速幫助企業快速提高語音模型識別準確率。

圖片

成品語音數據覆蓋30個語種;圖片來源:數據堂

如何讓系統更懂你,仍有許多思考空間

從專業的角度而言,語音識別作為一門交叉學科,涉及到從語言學到通訊理論等多方面內容,還涉及到聲紋、TTS、ASR、RNN等等一系列技術,同時要對一些特定領域有著深入理解。此外,漢語語義複雜,各地口音眾多,也為系統開發增添了不小的難度。所以為智慧語音交互提供解決方案是依靠相關企業共同合作還是一家企業獨立完成,成為了未來的一個觀察方向。

從產業的角度而言,語音交互的發展趨勢正在從單模交互向和其他交互方式配合的多模交互發展。比如在車載系統中,語音識別結合虹網膜識別用來來判斷駕駛員的疲勞程度;車載語音機器人通過聲音和臉部識別抓取,判斷用戶的行為軌跡。因此車載語音如何構建與攝影機、座椅等配件的聯動,真正實現智慧座艙的一體化協同發展,也需要車載語音交互系統提供商們思考。

從市場的角度而言,汽車作為一個整體性銷售的產品,無論是硬體還是軟體,用戶在使用中出現問題,首先想到的一定是尋找車廠解決,所以主機廠在尋找第三方合作的時候都會很謹慎。目前車載語音交互系統的提供商與主機廠合作關係良好,但是作為軟體的部分,其涉及後續的OTA與是否付費的探討。因此,未來主機廠會不會獨立開發或者請提供商為其開發一套屬於自己的語音交互系統也是一個值得思考的方向。