2019年,一篇題為「ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations」的工作橫空出世,其中,與愛因斯坦同名的輕量級預訓練語言模型「ALBERT」因以極少的參數量在 GLUE、SQuAD 2.0 與 RACE 等三個基準上達到了 SOTA,而在自然語言處理研究社區引起了極大關注。這篇工作由當時正任職於Google研究(Google Research)的中山大學校友藍振忠主導完成。同年,他還與一眾中國NLP研究人員合作推出了對標 GLUE 的中文預訓練語言模型評價基準 ChineseGLUE(後來簡稱「CLUE」),同樣大受歡迎,他也因此紅極一時。但鮮為人知的是,當時距離藍振忠從卡內基梅隆大學(CMU)獲得博士學位只有大約兩年的時間,而藍振忠在 CMU 讀博時的主要研究內容是電腦視覺與多媒體分析。博士畢業後,他之所以從視覺轉向語言,是因為他想打造一台能夠輔助心理諮詢的對話機器人,而語言處理是對話系統的核心。可以說,ALBERT 的誕生,其實是藍振忠追求「AI向善」過程中一個美麗的意外。2020 年,藍振忠從Google離職,回國加入西湖大學工學院,成立了深度學習實驗室。3個月後,他與團隊推出了中國第一個用於輔助心理諮詢的 AI 機器人「小天」,經過不斷迭代,目前已有超過一萬個小程式用戶,且仍在不斷增長。相比短短兩年內就在Google學術上獲得 1500+ 引用數的 ALBERT 模型,藍振忠更願意談談他與「小天」之間的故事。
作者 | 陳彩嫻
編輯 | 琰琰
1
起因
「為什麼會想到研究 AI 輔助心理諮詢?」藍振忠停了下來,沉思了一會。凡是與藍振忠打過交道的人,都很難將這位總是帶著開朗笑容的廣東男生與「抑鬱症」、「心理問題」這類消極字眼聯繫在一起。事實上,這個想法的產生,不是來源於藍振忠本人的親身經歷,而是源於一場悲劇的目睹: 當時,2017年,藍振忠即將從卡內基梅隆大學博士畢業,結果有一天從朋友那得知,一位他曾與之共同成長的同窗因心理壓力過大、得了心理抑鬱症,選擇了自殺。這件事令藍振忠十分震撼:
從那時候起,藍振忠才開始關注到心理抑鬱群體。他的性格比較內向,平日很少社交,與身邊的同學都沒有太深入的交往,但這件事發生後,他仔細留意,才發現原來身邊有很多同學在吃抗抑鬱葯。圖註:卡內基梅隆大學事實上,博士生是公認的心理壓力最大的群體之一,「因為讀博就是要開拓新的領域,沒有人告訴你要做什麼、怎麼做,你也不知道你所選擇的研究方向是不是一條死胡同,但你又必須堅持走下去,所以特別難。」讀博那會,他也經歷過 paper 被拒、抓狂的時候,但沒想到壓力會帶來這麼嚴重的後果。 藍振忠來自廣東潮州,是一個地道的海邊人,喜歡游泳。讀博那會,雖然有壓力,但他極少陷入悲觀的情緒。這可能與他樂觀、自控與熱愛運動的性格有關:在 CMU 讀博時,他每天早上都是六七點起床,先去游泳,游一個小時後再去實驗室做研究,呆到晚上九點,然後準時回家陪家人。他從來不把工作帶回家裡,也不熬夜。「你看我整天都是笑嘻嘻的。我也不是很 care 外面的事情,投出去的 paper,結果是好是壞我都無所謂的,所以可能受傷比較少。」藍振忠回憶。藍振忠的「開闊心胸」,或許也受到了博士導師 Alexander G. Hauptmann 的影響。2010年從中山大學獲得軟體工程與統計學學士學位後,藍振忠先是在卡內基梅隆大學的感知實驗室(Human Sensing Laboratory)跟著 Fernando De La Torre 研究電腦視覺,取得了不錯的研究成果,偶然結識 Alexander Hauptmann,2012年開始到 Alexander Hauptmann的門下讀博。在藍振忠的印象中,Alexander Hauptmann 是一個很有生活情趣的人,熱愛馬術與旅遊:「他有一個莊園,家裡養了三匹馬,估計他的大部分收入都放在這上面了。他跟他夫人都很喜歡騎馬,拿到過很多騎馬比賽的獎勵。而且他經常來中國旅遊,去過的地方比我要多得多,包括內蒙古、新疆、西藏等等。」圖註:Alexander Hauptmann參加騎馬比賽 「他在生活上有其他的寄託,不會只著圍繞著科研轉。跟著他,你會慢慢學會更多地從人性的角度去看問題。」藍振忠談道。在了解到身邊有許多人飽受心理問題困擾、又身處孤立無援的境地後,他就想:「我能做點什麼?因為我們做許多研究,目的就是希望能夠幫助到別人。」他接著解釋:「其實我一直在尋找一種意義感。我對發很多論文不是很感興趣,因為覺得沒什麼意思。但如果我的研究能夠真正幫助到別人,那麼我會覺得特別有意義。」藍振忠的哲學觀是存在主義(Existentialism):
他原是為了研究 AI 輔助心理諮詢加入Google「學習」自然語言處理,意外的是,只經過一年多的「打基礎」階段,他就在自然語言能處理研究上取得了令人矚目的成就:推出了基於BERT的輕量級預訓練語言模型「ALBERT」(A Lite BERT)。
「這個想法是我在騎自行車回家的路上突然蹦出來的。」藍振忠介紹,「所以我覺得做研究真的是運氣的成分居多,就像那句話說的,『文章本天成,妙手偶得之』。」當時,他應中國 AI 教育公司貪心科技的邀請準備一個演講,於是就把自然語言理解的工作梳理了一遍。在梳理的過程中,他發現一個問題:目前大規模預訓練語言模型(如BERT)的效果雖然非常好,對各項任務都有明顯提升,但參數量太大,比如 BERT-large 的參數量就超過了 3 億。「能否在性能不變的情況下減少參數量呢?」帶著這個疑問,藍振忠開始尋找解決方案。當時,有許多人在研究知識蒸餾,但知識蒸餾的學習能力受限於大模型。如果想要在大模型的基礎上有所提升,就需要做架構上的改變。於是,他們就借鑒了電腦視覺的一些做法,比如 MobileNet,從架構創新入手,通過對詞向量的投射做因式分解和對隱層的參數做共享來分別減少這兩個模組的參數量。他們的工作(「ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations」)最終被 ICLR 2020 接收,新穎的觀點引起了廣泛關注,藍振忠成為自然語言處理領域小有名氣的青年研究者,ALBERT 被應用於Google新聞、Google助手等產品,當時與他一起工作的實習生陳明達(豐田工業大學芝加哥分校在讀博士生)後來也獲得了2020年Google博士生獎學金。圖註:BERT與ALBERT的參數量對比,ALBERT的參數量約為BERT的十分之一這個工作從想法的萌生到最終完成,只用了大約一個暑假的時間。事後回想,藍振忠想,除了「運氣」,他能完成這項研究,也要歸功於他在卡內基梅隆大學電腦科學學院下的語言技術研究所(Language Technology Institute)讀博時所接受的學術訓練。比如批判性思維的養成:「其實那個idea之所以會蹦出腦海,並不是無中生有,而是你之前就讀過一些相關工作,進行了大量的思考,只是你當時沒有想法,後來突然之間就蹦了出來。」此外,他在Alexander Hauptmann 的帶領下也練就了一身強悍的工程實現能力。「有一個好的 idea,能夠快速做出來,也是因為工程能力比較強。」藍振忠解釋,比如,神經網路需要很多調參、做很多實驗,在做 ALBERT 時,他們一共做了幾百個實驗,ALBERT 只是其中的一小部分,「如果沒有管理好,很容易做到後面就把前面的忘了」。除了藍振忠,Alexander Hauptmann 還帶出過許多優秀的中國學生,包括現任阿里巴巴數據科學研究院副院長的金榕、Dada Group的創始人楊俊等。「博士期間的成長是多方面的,包括批判思考、如何寫論文、做研究、做presentation等。當你掌握了做研究的方法後,從一個方向轉到另一個方向後,也不是很難出結果的。」他解釋,且此前他在做影片分析時也更多是圍繞特徵理解,與ALBERT這個工作有一定的延續性。再談 ALBERT,藍振忠表示:
雖然ALBERT的誕生是偶然,但ALBERT與CLUE的發布,以及在Google的兩年工作積累,給了藍振忠回國研究 AI 輔助心理諮詢機器人的信心。 2019年年底,他決定回國。當時研究自然語言處理的另一知名學者張岳剛好在西湖大學工學院任職,藍振忠便與他聯繫,張岳說:「你要不要來講講你的工作呀?」藍振忠就去做了一個學術演講,「講完覺得西湖大學很不錯,就過來了。」圖註:西湖大學雲谷校區「我是2020年1月15日回國的,剛好趕在新冠疫情爆發前,好險。」 至於為什麼選擇回國做這項研究,藍振忠的解釋是:
互聯網有個知名的段子:「小天是我見過最單純善良的人。」此小天非彼小天,但在藍振忠與團隊成員的心裡,這個中性、陽光的名字,正寄託了他們對於 AI 輔助心理諮詢機器人的期望。在談起這項研究時,藍振忠感慨,雖然天性樂觀,但自己的內心會有一種「緊迫感」,因為經常在網路新聞上看到因為受心理問題困擾而一蹶不振、甚至選擇輕生的例子。除了個體的事例,還有許多宏觀的數據: