2019年,一篇题为“ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations”的工作横空出世,其中,与爱因斯坦同名的轻量级预训练语言模型“ALBERT”因以极少的参数量在 GLUE、SQuAD 2.0 与 RACE 等三个基准上达到了 SOTA,而在自然语言处理研究社区引起了极大关注。这篇工作由当时正任职于谷歌研究(Google Research)的中山大学校友蓝振忠主导完成。同年,他还与一众国内NLP研究人员合作推出了对标 GLUE 的中文预训练语言模型评价基准 ChineseGLUE(后来简称“CLUE”),同样大受欢迎,他也因此红极一时。但鲜为人知的是,当时距离蓝振忠从卡内基梅隆大学(CMU)获得博士学位只有大约两年的时间,而蓝振忠在 CMU 读博时的主要研究内容是计算机视觉与多媒体分析。博士毕业后,他之所以从视觉转向语言,是因为他想打造一台能够辅助心理咨询的对话机器人,而语言处理是对话系统的核心。可以说,ALBERT 的诞生,其实是蓝振忠追求“AI向善”过程中一个美丽的意外。2020 年,蓝振忠从谷歌离职,回国加入西湖大学工学院,成立了深度学习实验室。3个月后,他与团队推出了国内第一个用于辅助心理咨询的 AI 机器人“小天”,经过不断迭代,目前已有超过一万个小程序用户,且仍在不断增长。相比短短两年内就在谷歌学术上获得 1500+ 引用数的 ALBERT 模型,蓝振忠更愿意谈谈他与“小天”之间的故事。
作者 | 陈彩娴
编辑 | 琰琰
1
起因
“为什么会想到研究 AI 辅助心理咨询?”蓝振忠停了下来,沉思了一会。凡是与蓝振忠打过交道的人,都很难将这位总是带着开朗笑容的广东男生与“抑郁症”、“心理问题”这类消极字眼联系在一起。事实上,这个想法的产生,不是来源于蓝振忠本人的亲身经历,而是源于一场悲剧的目睹: 当时,2017年,蓝振忠即将从卡内基梅隆大学博士毕业,结果有一天从朋友那得知,一位他曾与之共同成长的同窗因心理压力过大、得了心理抑郁症,选择了自杀。这件事令蓝振忠十分震撼:
图注:卡内基梅隆大学事实上,博士生是公认的心理压力最大的群体之一,“因为读博就是要开拓新的领域,没有人告诉你要做什么、怎么做,你也不知道你所选择的研究方向是不是一条死胡同,但你又必须坚持走下去,所以特别难。”读博那会,他也经历过 paper 被拒、抓狂的时候,但没想到压力会带来这么严重的后果。 蓝振忠来自广东潮州,是一个地道的海边人,喜欢游泳。读博那会,虽然有压力,但他极少陷入悲观的情绪。这可能与他乐观、自控与热爱运动的性格有关:在 CMU 读博时,他每天早上都是六七点起床,先去游泳,游一个小时后再去实验室做研究,呆到晚上九点,然后准时回家陪家人。他从来不把工作带回家里,也不熬夜。“你看我整天都是笑嘻嘻的。我也不是很 care 外面的事情,投出去的 paper,结果是好是坏我都无所谓的,所以可能受伤比较少。”蓝振忠回忆。蓝振忠的“开阔心胸”,或许也受到了博士导师 Alexander G. Hauptmann 的影响。2010年从中山大学获得软件工程与统计学学士学位后,蓝振忠先是在卡内基梅隆大学的感知实验室(Human Sensing Laboratory)跟着 Fernando De La Torre 研究计算机视觉,取得了不错的研究成果,偶然结识 Alexander Hauptmann,2012年开始到 Alexander Hauptmann的门下读博。在蓝振忠的印象中,Alexander Hauptmann 是一个很有生活情趣的人,热爱马术与旅游:“他有一个庄园,家里养了三匹马,估计他的大部分收入都放在这上面了。他跟他夫人都很喜欢骑马,拿到过很多骑马比赛的奖励。而且他经常来中国旅游,去过的地方比我要多得多,包括内蒙古、新疆、西藏等等。”
他原是为了研究 AI 辅助心理咨询加入谷歌“学习”自然语言处理,意外的是,只经过一年多的“打基础”阶段,他就在自然语言能处理研究上取得了令人瞩目的成就:推出了基于BERT的轻量级预训练语言模型“ALBERT”(A Lite BERT)。
“这个想法是我在骑自行车回家的路上突然蹦出来的。”蓝振忠介绍,“所以我觉得做研究真的是运气的成分居多,就像那句话说的,‘文章本天成,妙手偶得之’。”当时,他应国内 AI 教育公司贪心科技的邀请准备一个演讲,于是就把自然语言理解的工作梳理了一遍。在梳理的过程中,他发现一个问题:目前大规模预训练语言模型(如BERT)的效果虽然非常好,对各项任务都有明显提升,但参数量太大,比如 BERT-large 的参数量就超过了 3 亿。“能否在性能不变的情况下减少参数量呢?”带着这个疑问,蓝振忠开始寻找解决方案。当时,有许多人在研究知识蒸馏,但知识蒸馏的学习能力受限于大模型。如果想要在大模型的基础上有所提升,就需要做架构上的改变。于是,他们就借鉴了计算机视觉的一些做法,比如 MobileNet,从架构创新入手,通过对词向量的投射做因式分解和对隐层的参数做共享来分别减少这两个模块的参数量。他们的工作(“ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations”)最终被 ICLR 2020 接收,新颖的观点引起了广泛关注,蓝振忠成为自然语言处理领域小有名气的青年研究者,ALBERT 被应用于谷歌新闻、谷歌助手等产品,当时与他一起工作的实习生陈明达(丰田工业大学芝加哥分校在读博士生)后来也获得了2020年谷歌博士生奖学金。
虽然ALBERT的诞生是偶然,但ALBERT与CLUE的发布,以及在谷歌的两年工作积累,给了蓝振忠回国研究 AI 辅助心理咨询机器人的信心。 2019年年底,他决定回国。当时研究自然语言处理的另一知名学者张岳刚好在西湖大学工学院任职,蓝振忠便与他联系,张岳说:“你要不要来讲讲你的工作呀?”蓝振忠就去做了一个学术演讲,“讲完觉得西湖大学很不错,就过来了。”
互联网有个知名的段子:“小天是我见过最单纯善良的人。”此小天非彼小天,但在蓝振忠与团队成员的心里,这个中性、阳光的名字,正寄托了他们对于 AI 辅助心理咨询机器人的期望。在谈起这项研究时,蓝振忠感慨,虽然天性乐观,但自己的内心会有一种“紧迫感”,因为经常在网络新闻上看到因为受心理问题困扰而一蹶不振、甚至选择轻生的例子。除了个体的事例,还有许多宏观的数据: