語音交互的優勢與劣勢
轉載自公眾號【談人工智慧】,轉載請聯繫授權
語音交互是指人與人、人與設備之間,通過自然語音進行資訊傳遞的過程。人與人之間通過語音來傳遞資訊、交流感情等等,其實就是一種最基本的人與人之間的語音交互。
為什麼VUI這個概念(Voice User Interface)在最近幾年又變得的火起來了呢?因為人們發現除了人與人之間可以通過語音來交互之外,已經可以慢慢地對一些智慧設備(如手機、智慧音箱、車載系統等),通過語音進行交互下達指令或者獲得回饋等,所以現在的語音交互的概念已經不僅僅局限於人與人之間了。
尤其是對語音行業的研究來講,我們的注意力更主要的是集中在人機交互上,所以很多時候VUI這個概念就是特指人機語音交互。
1. 語音交互的4點優勢
那麼,為什麼我們要探討人機語音交互呢?是因為語音交互本身獨有的優勢,我把它總結為這樣四點的優勢
一、語音的輸入效率比較高
相比於傳統的鍵盤輸入、文字輸入,語音輸入的速度,語音輸入的效率至少是傳統輸入方式的三倍以上,這個是在百度開放平台上做過的一個數據統計。
輸入效率高,體現在以下幾個方面:
1、通過語音去檢索資訊的效率會比較高,尤其是針對複雜的query
在這種輸入方式不變的場景下,通過語音的交互效率會更高,比如說當我在家裡看電影的時候,我可以直接對著電視機說出我要看的電視節目或者是電影名稱。這種交互來講,通過語音的方式,直接下達指令會更方便。
2、語音交互可以跨空間,對於跨空間的交互方式更加便捷
跨空間的含義,我們可以簡單地理解為遠距離的語音交互,這裡的一般稱之為遠場語音交互或者是遠講,遠場的意思是說我的說話人距離我的設備的麥克風的距離要比較遠,一般來講至少是1米以上,很多時候是3到5米,甚至是更遠。
在這種跨空間的場景下,一般傳統意義上的文字交互,很多時候是不可能操作的。比如,當距離智慧音箱(手機)比較遠的時候,不可能通過文字的方式去進行交互,所以在這種場景下,語音交互就顯得更加必要、高效。
3、語音支援組合指令輸出
即我們發出語音指令的時候,可以一次性的下達多條指令,然後由機器識別之後,分別去執行這些指令的意圖。
舉一個例子,以家居的場景為例,我要看一部電影,其實可以對我的電視機這樣說:「播放周星馳的電影、電影要四星以上,並且都是免費觀看的」。這樣一句話當中,蘊含了多個層次的含義。
這樣的話,通過語音,一句話就可以把我的多層次的指令通過組合的方式一起來下達,並且智慧機器會通過解析我的指令含義,去依次調用相應的skill來滿足我的指令的下達方式。
這些就是語音輸入方式比傳統輸入方式效率高的原因。
二、解放雙手和雙眼,更安全
其實談到解放雙手,我們馬上會想到車載場景。其實對於車載場景來講,我們是絕對不可能在車上一邊開車一邊通過手機用手敲漢字的方式進行交互的,這個也是絕對不允許的。在車載場景里,如果你想設置導航、聽音樂、聽廣播,也是必須要用語言來進行交互的。而在現在很多的汽車上,其實也都已經內置了車載語音交互的功能。
除了車載場景之外,還有其他的場景,比如說醫療場景:醫生在跟病人或者病人家屬溝通病情時,他可能同時雙手還要去操作各種各樣的複雜的醫療設備,那這時候,如果醫生需要記錄病歷,通過語音的方式來做就是一個比較必要的一種方式了。
三、使用門檻低
其實我們每個人都有經驗,我們人與人之間的交互,最早本來就是用語言進行交互的。一個還不會寫字的小孩子在慢慢長大的過程當中,與父母與其他的朋友之間的交互,都是通過語音來進行的,這是一個我們人類天然就具備的交互能力。
尤其對於小孩子、一些老人、一些有視覺障礙的人群,他們更是沒有辦法通過文字的方式來進行交互,所以語音交互的方式會為這些人帶來非常大的便利。此外,語音交互的學習成本比較低,它的交互方式更加自然,所以它的上手成本也比較低。
四、可以傳遞更多的聲學資訊
我們知道,一段語音不僅僅包含這段語音所承載的內容資訊,還包括其他的資訊,比如聲紋資訊、身份資訊、性別資訊(說這段話的人的是男是女)、年齡資訊、情感資訊(指的是人在說這段話的時候他的感情是怎麼樣的,它是生氣的還是高興的還是悲傷的)等等。
這些資訊都可以通過一段語音訊號藉助各種技術把它解析出來。那麼相比於傳統文字的這種乾巴巴的交互方式來講,語音它能夠傳遞的資訊會更多。
2. 語音交互的3點劣勢
這些就是語音交互的幾點優勢。但是,對於一種交互方式,尤其是人機語音交互這樣一種新型的交互方式,自然也有一些劣勢
一、接收效率比較低
在剛剛的分析中,我們一直是集中在語音輸入的方式。而對於資訊的接收,我們則是從輸出的角度來講的。語音的輸出其實是一個線性的輸出。
什麼意思呢?也就是說當你在聽別人說一段話的時候,你很有可能需要等到對方把這句話全部說完以後,或者是說完大部分以後,才能夠理解對方想說的話是什麼意思。
文字交互則不太一樣。當我們在看一段文字的時候,我們很可能會跳過一些沒有意義的文字,去直接掌握這段話的全局意思。可能大家會有這樣的體驗,在用微信的時候,相對於收到的語音消息,更願意閱讀一些文字的消息。
因為看一段文字,我們可以直接的很快速的去掌握這段文字的中心內容,而如果我要去聽一段語音的話,那我必須要把這段語音從頭到尾的完整的聽完,我才能知道對方寫了講的是什麼。所以這一點上,我們說語音輸出是一個線性的輸出,對於資訊接收者來說,它的效率是比較低的。
二、環境複雜
我們面臨的各種各樣複雜的生活環境,這一點也是語音訊號處理課程所要著重解決的一個問題。
我們每天都被各種複雜的環境所包圍。這些環境里可能會包含著各種各樣我們不需要或者是不想聽到的聲音。
當這些聲音與我們想要聽的那些聲音交疊在一起的時候,就會對我們的交互體驗產生非常大的影響,所以複雜的聲學環境是我們在設計人機語音交互系統時,所必須考慮的一個問題。
三、用戶的心理負擔
這一點,也是對於語音交互設計者來說最難把握的一點。因為用戶在實際使用這個人機交互系統的時候,他的很多行為往往是我們沒有辦法事先預期的。
對於同一個交互場景,不同人的交互方式很有可能會不一樣。從用戶的心理體驗來說,可能會有一部分人的人機語音交互的習慣還沒有培養起來,也可能會有一些人,他不太願意對著機器去通過語音來說話,尤其是身處在一個比較開放的需要顧及個人隱私的場景的時候更是如此。
3. 總結
通過以上的內容,我們可以了解到語音交互的本身是有它的優勢的,當然也有它不足的地方,而不足的地方正是需要我們去著重解決的一些問題。
特別感謝
本文整理自深藍學院《語音訊號處理》課程,感謝宋輝老師的細心講解,以及深藍學院提供的優質課程,再次感謝!
//www.shenlanxueyuan.com/course/244