在港读博期间,李海洲完成了香港政府资助的“语音静态模型”研究项目。他的博士论文“语音的静态模型及汉语语音识别算法的研究”因其创新的视角与扎实的理论基础,不仅得到了电子研究同行的一众好评,还获得了知名数学家梁之舜(国内最早研究概率统计学的学者之一)的高度评价。值得注意的是,早在深度学习兴起之前,李海洲这篇发表于上世纪90年代的博士论文已经用到了神经网络的语音识别算法。但当时,用神经网络识别语音的技术在国内并不受推崇,“我1990年博士毕业时都找不到工作”。他分析,原因主要有两点:一是当时的电脑计算能力没有现在这么强,比如,在他的博士论文结果中,电脑只能识别 10 个数字;二是当时的电脑价格非常昂贵,相当于一个大学教授几个月的薪水。如此一来,高成本、低回报,这项技术自然就遭到了冷落。后来,在徐秉铮的帮助下,李海洲获得了留校任教的机会。虽然当时智能语音识别研究不受推崇,但李海洲坚持自己的热爱:“我就觉得,计算机能听懂我说的话,真的太神奇了!”于是,他与导师徐秉铮继续沿着这个方向探索。比如,他们发表于1991年的工作“An implementation of short-timed speech recognition on layered neural nets”就开始尝试引入神经网络架构与学习算法来实现多层感知器(MLP)上的孤立词识别,同年工作“A learning algorithm for MLN with dynamic neurons”又尝试训练具有多局部反馈的动态神经元的多层网络架构,使其记忆序列模式,用来进行中文数字语音识别。回想那段无人问津的研究岁月,李海洲的感受是:“我觉得自己很幸运,因为在深度学习冷门的时候,我就开始研究。只是当时条件有限,但后来数据增多,深度学习就显示出了它的强大。我从中得到的体会就是,要喜欢自己的研究,然后坚持。如果你又喜欢、又专注,你也有能力,那你的研究迟早会有用。”2
从1990年博士毕业至今,这30多年里,李海洲坚持自己做语音识别与语言处理的方法。他一直认为,机器学习的基础理论不仅支持了机器的识别工作,而且也是人学习语音与语言的过程;也就是说,人的学习也是一个“机器学习”过程,只是学习的主体不是电脑,而是人脑:“人学习的过程也是通过大数据进行学习,从听人如何发音,到一个音、一个音地学习,然后学会了一种语言,再将第一种语言的知识转移到第二种语言中去。”这个观点来源于李海洲本人学习多种语言的亲身经历。李海洲的母语是潮州话,上了中学后开始学习普通话。“那时候我觉得学普通话很难很难,但是,当我学习第三种语言、第四种语言、第五种语言时,我就觉得没那么难了,因为我已经有了学习语言的方法。机器学习就是这样,从一个地方学来的东西可以拿给第二个地方用,所以我对机器学习特别有兴趣。”上初中时,他只学会一句英语,就是“Long Live Chairman Mao”,升高中后多了一句“Never forget class struggle”。所幸,英语在1981年之后才被列为高考的必考科目,而李海洲十分幸运,因为他参加的是1980年高考。读博期间,李海洲的大部分时光都是在香港度过。那时候,他才有机会学习英文;此前,他连“Good Morning”都听不懂。也是在那时候,李海洲开始学讲广东话,他的感受是:“广东话最难学,因为没有课本。”博士毕业后,1991年,李海洲加入华南理工大学任教,年仅26岁就被华工评为副教授;一年后,也就是1992年,又被破格提升为教授,担任博士生导师,成为了全广东省最年轻的博导。但李海洲并没有安于现状,1994年,他又在法国国家科学院的邀请下,去法国国家科学研究中心(CNRS)担任研究员,从事语音识别研究,并开始涉猎声纹识别。在法国的三年,李海洲驻在“洛林之魂”南锡(Nancy)。出发前,他已在广州学了一年法文。到了南锡之后,他又几乎每晚都跑去“阿尔及利亚人之家”学法文。这是一个专门协助阿尔及利亚人学法文的机构,无需学费,学员只需在冬天时付点柴火费。他们没有拒绝李海洲的加入,他也去了足足一年,总算打好法文基础。
图注:法国南锡 1996年,受到新加坡多元语言与文化氛围的吸引,李海洲又应聘到了苹果公司新加坡研究中心担任语音处理实验室主任。之后,他便一直留在新加坡,先后任职于苹果、Lernout & Hauspie、言丰科技、新加坡资讯通信研究院(A*STAR),直到2014年重返学术界,加入新加坡国立大学电气与计算机工程系担任终身教授。如今,李海洲熟练掌握潮州话、普通话、广东话、英语和法语,能应付工作需要的语言还有越南语、泰国语、马来语、日语和韩语。有感于自身学习语言的经历,在教机器学习时,李海洲总是强调“先了解人是如何学习的,然后再告诉机器应该怎样学习”。这是他多年来的研究心得,即把人的认知过程放在机器学习的研究上。从这一思路出发,李海洲团队在语音识别与语言处理上取得了许多不错的研究成果。比如,最近他们被顶刊 TASLP 录用的工作(“Target Speaker Verification with Selective Auditory Attention for Single and Multi-talker Speech”)便是来源于对人们日常交流方式的观察,从“双向认知过程”来做语音识别与对话系统。在人类的交流中,当 A 在听 B 说话时,无论旁边有多少杂音、B 说话的声音多小,A 只需要专注听,就一定能听到 B 的说话声,因为人脑可以“指挥”耳朵听什么、不听什么。但现在的机器在识别目标语者时,性能并不稳定。有时候,如果两三个人在一起同时说话,电脑就无法识别。“我就研究,人在复杂的环境中是怎么听的,任何把这个过程放在机器里。”李海洲谈道。在 TASLP 这个工作中,受 SpEx 等工作的启发,他们就在机器识别中引入了听觉注意力机制,提出了目标语者验证(tSV)框架,可以在多语者环境中有效识别目标语音。地址://arxiv.org/abs/2103.16269对研究思路的指导还是其次,多语言背景对李海洲最重要的影响是使他成为了多语种语音识别研究的先行者。他在2014年被选为 IEEE Fellow,入选理由便是“For leadership in multilingual speaker and language recognition”(引领多语种语音与语言识别研究)。早期的语音识别局限于英文,而李海洲的工作不仅覆盖英语,还有中文、马来文、韩语、日语、泰文、越南语等等。“人在分语言时,是人为分割,其实是同一双耳朵、同一个大脑。我的理念是用同一套系统(多语种大词汇集连续语音识别系统)来实现多种语言识别,而不用重复开发。”回顾研究生涯,李海洲最自豪的是,2001年,他所开发的多语种语音自动问答系统在新加坡樟宜国际机场投入使用。这个系统每天可以处理超过一万个查询电话,是当时东南亚最大的全自动客户呼叫中心。“出租车司机非常喜欢这项工作,因为他们只需拨打电话,就能知道航班信息,知道什么时候出发去机场。”李海洲也因此获得2002年新加坡国家资信科技奖。2018年,他又与南洋理工大学的 Chng Eng Siong 教授合作开发了专门用于处理新加坡 995 紧急热线的多语种通话自动处理系统,可以实时转换并记录每个电话,根据来电内容进行资源调度。这个系统覆盖了多种东南亚语言,还可以识别闽南语中的“jiak ba bueh”(你吃过了吗)和“hoh boh”(你好吗),以及炒粿条和椰浆饭等当地菜肴。2015年,李海洲当选为国际语音通信学会(International Speech Communication Association,简称“ISCA”)的主席。他也是ISCA自1988年在法国格勒诺布尔成立以来的首位华人主席。ISCA是语音技术领域最重要的国际顶会,李海洲相信,他能从2009年开始在 ISCA 任职,从理事到候任主席、再到主席,一个很重要的原因就是他精通法语。
图注:2015年,李海洲被任命为 ISCA 主席除了 ISCA 主席,他还曾凭借出色的英文能力,担任了 IEEE/ACM Transactions on Audio, Speech and Language Processing(美国研究和实践音频、语音和语言处理理论最权威的学术月刊)的总编辑、回想自己从一个小渔村出来,远渡重洋,辗转多地,李海洲十分感慨。他刚上大学时,是一个连“Good Morning”都不会说的潮州仔,没想到后来却能凭借出色的外文能力,在国际学术刊物与顶会上担任要职。3