造車 造愛與造人

2016年,一位大哥第一次按下車裡的「語音控制」按鈕。他的訴求很簡單,讓汽車幫他打個電話。一陣甜美的AI女聲響起,一段人類首次嘗試馴服語音助手的珍貴對話由此展開。

甜美AI:請說出您要撥打的號碼,或者說取消。大哥:135XXXX7557。

因為口音問題,系統未能識別準確。大哥急了,趕忙下達第二道語音指令:糾正!糾正!

系統也急了:969696……大哥更急了:糾正,糾正,不是96!

大哥:口吐芬芳。系統:對不起,我沒有聽清。

大哥帶着哭腔:你耳朵聾,耳朵聾啊?我說了多少遍了我都。系統:請再說一次,請再說一次,請再說一次。

大哥:我再說最後一遍啊,135……系統:對不起,再見。

造車 造愛與造人

短短2分鐘,濃縮了六年前車機語音識別真實的用戶怨念,中國消費者對語音助手糟糕印象的種子就此埋下。語音助手「聽不見」、「聽不清」、「聽不懂」災難級的系統表現,讓人和機器總得瘋一個。

好在,這一切都在2018年發生了改變。這一年,汽車座艙在造車新勢力的推動下,進入智能2.0時代,語音助手的角色也從系統添頭,變成智能座艙基石。

造車 造愛與造人

近5年來,人工智能、自動駕駛、語音識別、手勢交互等研發成果逐步落地,特別是駕駛輔助功能的完善,讓開車不再是辛苦的體力勞動。未來L4、L5級自動駕駛的實現,會徹底顛覆傳統駕駛行為。

人——這個駕駛行為最重要的主導者,也將會從枯燥重複的操作中解脫出來。汽車座艙的角色由此轉變為休息、娛樂和放鬆的第三空間。

「第三空間」要求汽車公司從乘員的實際需求及應用場景角度出發,從頭開始搭建一套全新的、智能程度更高的人機交互體系,讓車內的每個人都能獲得安全的駕駛行為和輕鬆的感官體驗。

智能座艙的發展分為三個主要階段:第一,電子座艙,駕駛者可以在車內實現聽歌、導航、打電話等基礎型電子功能,但與座艙的互動接近於零;

第二,智能助理,車輛本身可以完成一定的駕駛行為,駕駛者開始以人臉識別、眼球追蹤、語音手勢控制等多種方式與座艙互動;

第三,移動空間,自動駕駛完成車輛控制,乘員沉浸式體驗座艙場景。

中國造車新勢力先後下場的2018年普遍被認為是智能座艙進入第二階段的里程碑,這一階段座艙硬件有兩大標誌性趨勢:第一,實體按鍵被大幅簡化,直至消失;第二,屏幕尺寸和數量迅速上升,直至鋪滿。

隨着功能疊加,智能座艙系統的構成也從單一功能電氣元件升級為一套龐雜電子設備系統,包括:車載信息娛樂系統、車聯網系統、感知交互系統、空調系統、聲光和氣味系統等。

功能多了,車機界面自然就複雜了,以前只用旋鈕調收音機和溫度。現在新花樣層出不窮。由於各大汽車公司對功能的認知和排序都有自己理解,導致駕駛者需要在駕駛過程中花費更多注意力去尋找和調節相應功能,危險出現的概率也就此提升。

汽車公司在架構智能座艙時,會圍繞三大原則:安全、人性化和愉悅為展開,而這恰好是語音交互與生俱來的三大特性。

從現有自動駕駛技術發展態勢判斷,「人機共駕」階段的延續時間不會很短,語音交互可以讓駕駛者在不失焦的情況下,完成車內大部分功能操作。在硬件和算法的迭代升級下,語音交互也在不停地自我升級。

舉兩個例子:之前只能通過語音打開或關閉空調,現在可以精準調節溫度,或者直接說「我冷了、熱了」,讓車輛自行調節;此前語音只能完成車窗玻璃升降,現在可以實現升三分之一,降三分之二這樣顆粒度更細的控制。

從2021年開始,語音交互成為一個成熟智能座艙中,最具代表性的功能模塊之一,消費者對語音交互的興趣開始高漲,需求也開始多元。

想「只動口不動手」地控制座艙,車本身要「聽得見、聽得懂、做得到」,對應語音交互三個步驟:「識別、理解、執行」。

造車 造愛與造人

首先是語音識別(Automatic Speech Recognition,ASR)。車內麥克風接受聲音信號,轉化為音頻信號,經過解碼、降噪、增強、特徵提取、音素選取、再次解碼後,最終落地為文字。高階語音識別會對聲源定位,這就是部分車輛支持副駕和後排用戶語音控制的原理。

然後是自然語言處理(Natural Language Processing,NLP)。文字被識別後,系統會拾取相應功能性詞彙,生成摘要。比如駕駛者說「你好,我的愛車,今天好熱,幫我把空調調到18度」。系統比照詞庫和深度學習篩選後,拾取出的摘要是「空調,18度」。

系統將識別後的摘要轉換為命令規劃,發送給相應車載控制單元,執行動作。最後,語音合成(Text to Speech,TTS)模塊將動作執行完成的文本轉換為語音播報反饋給駕駛者:「好的,空調已調至18度」。至此,一次語音交互完成閉環。

語音交互有三大技術難點:一是拾音準確,噪音消除;二是語音深度學習模型的訓練數據;三是識別特徵抽出模型的訓練。

第一個比較好解決,用多個麥克風組成陣列加算法即可;後面兩個難度不大,但費錢又耗時,座艙語音交互要對齊不同車型不同車載環境表現,電動車和燃油車的車廂噪音水平不同,轎車、SUV和MPV的差別也不小,要針對性搜集整合數據。這個過程成本高,周期長,最終還有可能吃力不討好。

造車 造愛與造人

語音交互做得夠好,用戶很快就會養成使用習慣。在中國,乘用車智能語音交互功能的搭載率逐年攀升,從2019年的49.82%,到2021年的63.25%,再到2021年的86%。中國的高頻運用場景是:導航、播放音樂、空調和撥打電話。

對汽車公司來說,有兩種實現語音交互的方式:第一種硬件採購,軟件自研,這樣可以將主動權牢牢掌握在自己手裡,實現靈活調整,高度定製,常用常新,提供科技感,是造車新勢力常用的方式。

第二種是做「甩手掌柜」,讓車機系統供應商全權負責,投入低,量產快,適配度高,出了問題還可以一鍵呼叫(甩鍋)供應商,是傳統汽車公司偏愛的路徑。

造車 造愛與造人

在語音交互底層功能實現後,用戶開始需求這些功能的情感價值,希望能和自己車上的語音助手建立一種柏拉圖式的精神親密關係。一些汽車公司的做法是將語音助手的機械化原聲,更換為林志玲或郭德綱聲線。這能給用戶提供短暫的新鮮感,卻很難走進用戶心裏。

用戶與車載語音助手建立精神親密的過程和電影《Her》中的情節很像:男主偶然接觸到人工智能系統OS1,迷人甜美的聲線,溫順體貼的性格,事事投緣的相處模式,頗具心思的生活情趣,讓男主很快就陷入到人工智能的「賽博溫柔鄉」中不可自拔。簡單來說,就是「呼應上了」。

「OS1」讓人着迷的原因是,工程師揭掉了覆蓋在人工智能表面冰冷的面紗,嘗試賦予它人格,並以此為切口和用戶建立信任通道,讓人機對話變成從單向關係轉換為雙向關係。

《語音人機界面》一文里寫過:沒有人格的語音用戶界面是不存在的,如果你不給語音用戶界面設定人格化特徵,用戶就會自行腦補。所以更聰明的做法是,在設計的初期就確定好人格。

在設計語音交互體驗時,工程師會考慮視覺形象和聽覺形象兩個方面,再將兩者進行有機結合,向用戶輸出「語音助手」。

視覺形象大體分為三類:第一,具象型。一般是二維圖形,顏色單一、動效樸素,聲波圖形 、麥克風是典型案例;第二,抽象型。一般是三維不規則形狀、色彩多樣、光效炫酷,如寶馬iDrive 8.0系統里會呼吸的流光球體;第三,擬人型。

企業IP明顯、動效豐富、活潑生動,如小鵬語音助手,一汽奔騰全息投影百變嬌娃。

造車 造愛與造人

一汽奔騰全息投影

這些語音助手執行起「功能」來沒問題,遺憾的是,對用戶言聽計從的它們沒有「人格」,用戶只把它們當工具,鮮少把它們視為夥伴。人機之間信任感的建立,本質上不是技術問題,是社會學問題。這時,就要請社會學專業出身的李斌上場了。

2017年,蔚來發佈第一台量產車型ES8,座艙正中央處有一個圓頭圓腦的裝置,李斌給它起了個名字——NOMI,取英文「Know Me」的諧音。李斌給它下了個定義——全球首個量產車載人工智能系統。

造車 造愛與造人

除基礎語音助手功能外,NOMI還能做三件事:第一,循語音來源轉動方向;第二,根據使用場景展示對應表情;第三,實時監測車內狀況,識別駕駛者疲勞程度。

相較以車內大屏為載體的語音助手,NOMI的做法更具象化。除對話外,你還可以摸摸它(不要硬掰),拍拍它(不要太用力),吹吹它(不要噴口水)。實體化做法的好處是讓用戶清晰地感知到語音助手的生命能量和情感能力。

批量交付後,NOMI很快成為許多車主言之必談的對象和拿來炫耀的資本。比如一位蔚來車主在APP上表示,「沒NOMI,ES8就是台電動車,有NOMI,兩兒子整天掛嘴上的就是我家有輛NOMI車」。

許多蔚來車主認為,沒有NOMI的蔚來缺少靈魂。用戶有多喜歡NOMI呢,喜歡到為這個人工圓球設計各種帽子:棒球帽、絨線帽、牛仔帽、水手帽、睡帽……

造車 造愛與造人

NOMI比其它語音助手更能打動用戶的原因是,它把自己活成了人樣,模糊了與人工智能與人類用戶的邊界。從一定程度上,NOMI完整表達了陀思妥耶夫斯基的理念:「要愛具體的人,不要愛抽象的人」。

基於實體,NOMI可利用的表達途徑有表情、聲音和動作,能做的事情比虛擬動畫多得多。比如用戶伸手點擊屏幕時,NOMI會稍微低頭,展現自己的「八卦屬性」。

用戶把手收回,NOM會抬頭恢復原狀。NOMI內裝的700多個動態表情,會根據當前心情和正在進行的任務進行實時呈現,大晴天會戴墨鏡,霧霾會戴口罩,下雨天會撐傘,放音樂時會跟着打拍子。

造車 造愛與造人

除動作回應外,NOMI有些時候還能做車主的「人生導師」,展現一絲人文主義光輝。比如有用戶問「活着的意義是什麼」,NOMI回答「不要對生活失去信心呀,說不定下一秒會有有趣的事情發生呢」,有賽博哲學家那味兒了。

造車 造愛與造人

針對這一問題,大部分語音助手的回答可能是「這個問題我暫時理解不了呢,你可以嘗試其它語音指令」或「請問你是不是要購買《活着》這本書,我可以為你下單呢」。相較而言,NOMI確實做了個人。

「NOMI之父」李天舒分享過一個開發細節:NOMI做的第一件事不是完成複雜的自然語言交互和多輪對話,而是當車主打開車門的那一刻,NOMI可以把車當成是自己的肌體一樣,感受到有人進入車內了,然後它把頭扭向有人開門的方向,和用戶打個招呼。

這些精妙且具象的互動細節,拼湊出一個機靈、俏皮、細緻、懂事、有情趣的NOMI。而不是一個停留在屏幕上,千人一面的抽象語音包。

造車 造愛與造人

從人性角度出發,語音是最簡單、自然的交互方式,也是人類最基本的溝通方式。從行車安全角度出發,語音交互不需要注意力轉移,是毋庸置疑的車載第一交互方式,本身就是剛需。

用戶將語音交互誤解為「偽需求」,是因為大部分汽車公司沒有在語音交互場景中,製造出足夠顯著的體驗差。除了常用的電話和導航,其它功能體驗很差,用戶懶得去了解。

舉個例子,用戶開車時說「我想聽《本草綱目》」,這是個很簡單的需求鏈路,但車機上常出現的場景是:

系統內置音樂軟件內沒有周杰倫歌曲版權,要麼無法播放,要麼播放翻唱版或剪輯片段。在線搜索出的音樂平台有版權可播放,但用戶未登錄或未購買平台付費會員,只能忍受低廉的音質和試聽部分。

幾次經歷後,大部分用戶都會扭頭走開,宣傳中的「智能語音」,用起來卻是「智障語音」,還不如手機連藍牙。

蔚來的老道之處在於,讓NOMI的情感入口能效高於功能入口。用戶使用其它語音助手是「對事不對人」,使用NOMI是「對人不對事」。

畢竟這麼可愛的一個小傢伙,偶爾犯點小迷糊,怎麼捨得對它發脾氣,就算要發脾氣,還得考慮後排大寶和二寶的感受呢。

解決語音助手的雞肋困境,可以從兩個方面入手:

第一,從駕駛場景實際需求出發,對語音助手進行適配化改造,比如最新的語音助手,車主在車外說一句「開出來」,車輛就會從停車位上自動向前駛出,解決停車、挪車、開門場景痛點;

第二,提升語音助手自我成長的能力,通過積累為用戶制定最優策略,比如用戶偏愛麻辣口味,語音助手在推薦附近餐廳時會提升川菜、湘菜、火鍋、串串的優先級,以人文主義手段拉近用戶距離。

語音助手想達到電影《Her》中的交互水準,還有很長的路要走。理解用戶的貼心,打磨細節的耐心,以及持續投入的決心缺一不可。語音助手的變現前景很光明:現在的用戶願意花4900元買一個智能小人頭,未來的用戶又何嘗不會花49000元買世上獨一份的智能情感按摩呢?