對話微軟小冰三大首席科學家: 微軟第一美少女AI的成長之路

  • 2019 年 11 月 21 日
  • 資訊

11月21日,微軟(亞洲)互聯網工程院在北京微軟總部召開了微軟小冰2019年年度研究進展分享會,微軟小冰三大首席科學家——微軟小冰首席科學家宋睿華、微軟小冰首席NLP科學家武威、微軟小冰首席語音科學家欒劍在會上展示了微軟第一美少女AI小冰近期的技術突破,帶來了相當硬核的技術乾貨分享。

對話微軟小冰三大首席科學家: 微軟第一美少女AI的成長之路
左:武威 中:欒劍 右:宋睿華

、會比喻 懂常識 越來越像人的微軟小冰

——會比喻的小冰

語言無疑是複雜的,其包含了陳述、疑問、反問、比喻、修辭乃至“陰陽怪氣”等只有人類才能領會並熟練運用的微妙技能,所以當微軟小冰首席科學家宋睿華表示小冰已經學會使用“比喻”時,著實令人震撼。

對話微軟小冰三大首席科學家: 微軟第一美少女AI的成長之路

而且小冰不僅僅做到了諸如“愛情是複雜的,像數學一樣”簡單形容詞比喻,甚至可以實現“靈魂就像球迷一樣,在無聲地吶喊”、“愛情就像是脂肪,是點點滴滴的積累”這樣的動詞與名詞形容句,而且毫無違和感。

宋睿華介紹道,為了幫助小冰學會“比喻”這項技能,他們從複雜的詩歌中挑選了6大類,每類122個主題,並通過小冰聊天日誌過濾出了包括愛情、內心、世界、母親、美麗、人類在內的96個常用比喻概念。隨後從1000個常用詞中選取了3000個最常用的形容詞擴充小冰的比喻能力。

比喻句的基本結構是“XX像XX”,其中前者是比喻的本體,後者是比喻的喻體,說好一句比喻的重點無疑在如何篩選本體和喻體上,並且還要為這句比喻提出一個合理的支撐點,避免出現“戀人像報表,都十分可靠”這種奇怪的比喻。為此小冰會對比本體與喻體的可能存在的相關辭彙。

比如愛情與國足,它們共同的相關辭彙可能有未來、虛幻,那麼小冰就可以作出“愛情就像國足,未來都是虛幻的”這樣自然的比喻句。

——懂常識的小冰

常識對人類而言是一個非常簡單事情,比如提到北極熊時就很少會有人說“這是一隻白色的北極熊”,因為常識默認北極熊是白色的,大多數人都會省略到這種眾所周知的常識性資訊。

但對於小冰而言,這種省略會對它的理解造成困擾,比如一篇描寫北極熊捕食的文章在描述“北極熊在接近海豹前會用爪子捂住鼻子”時,人類會自然懂得這是為了擋住鼻子的黑色防止海豹看到自己,但缺乏上下文的對話機器人就會很難理解捂住鼻子的原因是什麼。

為此微軟為小冰增加了常識與“記憶”能力,當一句話提到某個概念時小冰會自動“回想”起與其相關的圖片,並識別出圖片上的特徵。而且與業界”一對一“文字與圖片對應能力不同的是,小冰可以做到”一對多“,比如一句話中同時提到了老奶奶與鵝,小冰就可以同時”回想“起老奶奶與鵝的照片,幫助自己更好地理解這句話。

二、日本出道成歌手 小冰如何學會唱歌?

微軟小冰會唱歌已經不是什麼秘密,在此前的微軟小冰發布會中,小冰已經演唱過中文、日文、戲曲等多種語言和類型的歌曲,前一段時間甚至發布了翻唱的”野狼Disco“。微軟小冰首席語音科學家欒劍在會上分享了讓小冰跨界唱歌技術乾貨。

首先欒劍談到了讓小冰學習唱歌的原因,他表示小冰推出後經過努力語音合成領域一些大的問題已經解決了,於是就開始尋找更有挑戰性的課題,此時比說話門檻高、情感更豐富、人們喜聞樂見的唱歌就自然成為了微軟的下一個目標。

對話微軟小冰三大首席科學家: 微軟第一美少女AI的成長之路

唱歌包含了發音、節拍、旋律三大要素,機器可以通學習人類的歌聲和識別五線譜兩種方式進行學習。為了為小冰提供素材,微軟甚至與一家擁有十幾年歷史的唱片公司合作。但這裡遇到了一個教材問題。

唱片公司很少保留歌手清唱的錄音,但對於機器而言清唱的干擾最少,最適合學習,為此微軟甚至發表了一篇論文,提出了輸入原始波形、全卷積網路+殘差連接、軟分類標籤3大創新,實現了從伴奏中把人聲部分準確地截取出來的能力。

後面的問題就是如何更自然地合成歌聲,這方面微軟選擇了比傳統單元拼接更自然的參數合成法,並且為了進一步提高小冰的”唱歌技巧“,微軟選擇了用一個模型預測三大要素困難模式,最終使得小冰的歌聲自然度和流暢度有一個明顯的提升。

當然微軟科學家辛苦付出讓小冰學會唱歌並非只是培養她的業餘愛好,其商業化前景也是不可限量。比如小冰的日本分身凜菜(りんな)已經與日本最大唱片公司AVEX正式簽約,成為濱崎步、安室奈美惠等叱吒國際樂壇多年的著名人類音樂人的同門師妹。

除了專業的歌唱領域,會唱歌的小冰還能覆蓋到兒童機器人以及兒童陪伴APP中,會中微軟工作人員透露小冰該領域份額高達70-80%。

三、小冰成長的背後:Self-Complete

自2015年小冰誕生以來,其已經進化至第七代,實現了從“平等對話”向“主導對話”的跨越式升級。但在背後究竟是什麼在支撐它從一介聊天機器人迅速成長為業界巨擘?微軟小冰首席NLP科學家武威進行了詳細解答。

武威表示,Self-Complete(自我完備)可以很好地概括近些年來微軟在小冰身上的研究成果。而一個具有Self-Complete能力的對話機器人涵蓋了三種能力:學習、管理、聯結。

對話微軟小冰三大首席科學家: 微軟第一美少女AI的成長之路

首先是學習。對話機器人對話的過程其實就是一個檢索自己的候選回復,然後通過檢索模型來找到最匹配的回復,檢索模型直接關係到對話能力。而微軟則為檢索模型引入了外部知識,在知識層面、詞語層面、短語層面進行融合,開發出了業界最好的模型之一。目前微軟的檢索模型已經成為了各種做檢索模型必比的一個基準線模型。

此外微軟也探索了讓兩個檢索模型互相訓練的嘗試,並開發出了Co-teaching演算法,取得了相當好的效果,經過Co-teaching互相教的每一個模型都實現了明顯提升。

其次是自主管理。此前第六代小冰引入了共感模型,可以對對話過程進行把控,通俗的講,就是讓小冰能實現了主導與人類對話的能力。

共感模型背後包含了決定小冰說什麼內容的回復模型與決定小冰怎麼說的策略模型,這兩個模型結合在一起就把微軟小冰從原來基於上下文直接產生回復的模式,變成了從上下文到決策,然後再根據這個決策來決定自己說什麼。

憑藉著自主管理能力,小冰可以通過問問題快速了解用戶意圖,進行商品推薦,微軟在日本和美國對小冰的這種能力進行了測試,發現推薦轉化率高達68%,即100個和小冰聊天的客戶中會有68個人進店查看小冰推薦的商品。

當然上述案例僅僅小冰擁有自主管理能力後的應用之一,其未來前景不可限量。

最後就是聯結了,聯結本質上是多模態交互,即小冰可以同時處理對話、語音、文本、多媒體等各種形勢的資源,進行消化吸收,最終可以將它們有機聯結起來。

微軟在今年2月份,已經在日本公測了多模態交互功能,為小冰在日本的分身凜菜增加了視覺能力。當地記者攜帶著配有攝影機的“日本美女高中生”凜菜,在水族館中遊覽,在測試中,凜菜在識別出當前畫面的同時,也能就當前畫面與用戶展開深入交流。例如看到魚之後,會聯想到魚的大小、顏色、種類與魚翅(本質吃貨?),讓用戶獲得了近似真人的聊天體驗。

四、總結:鄰家有女初長成

會上微軟同時披露了微軟小冰在應用上的最新進展,截止目前,小冰已經入住了超過30個平台,搭載小冰的智慧設備數量已經超過了4.5億部。而小冰的CPS(對話輪數,即用戶與小冰的可以對話多少輪)高達23,換句話說,平均每個小冰用戶都會與小冰聊上23輪,這是一個相當驚人的數字。

雖然受限於商業合約,微軟無法全面公布小冰在商業化上取得的成績,但從上述幾個數字中不難想像,憑藉著微軟在小冰背後的科研投入與成果,微軟小冰已經成為人工智慧產業中一個難以忽視的存在,其所存在的廣度與深度已經遠遠超出人們的想像,而它也正如一個18歲少女一樣,冉冉升起,未來可期。

對話微軟小冰三大首席科學家: 微軟第一美少女AI的成長之路