“吴琦,现任阿德莱德大学高级讲师,ARC DECRA Fellow,2019年获得澳大利亚科学院罗素奖,担任 ICCV 2021 Area Chair。2015年于英国巴斯大学获得计算机科学博士学位,在CVPR、ICCV、ECCV、TPAMI 等顶会与期刊上发表论文60余篇。”
在不到100字的自我介绍中,吴琦对自己的科研经历作了简单总结。阿德莱德大学(University of Adelaide)是全球顶尖的计算机视觉研究机构,近10年在计算机视觉三大顶会(ECCV、ICCV、CVPR)的论文发表成果十分突出 (CSRanking上计算机视觉排名全球第3)。在澳大利亚,高级讲师的级别相当于长聘副教授;而 ARC DECRA Fellow 全称“Australian Research Council DECRA Fellow”,相当于“澳大利亚优青”。事实上,在“名校加持”、“大师背书” 被默认为是科研者“标签”的人工智能领域,吴琦是一个少数:双非本科,一路读硕、读博,直到担任博士后研究员才开始接触深度学习与神经网络。起点低,入行晚,博士导师也不是知名的CV大神。尽管如此,2018年结束阿德莱德为期3年的博士后研究时,吴琦成功凭借自己在Vision-Langugae(视觉-语言,简称“VL”)上的领先成就,顺利获得留校任教的机会,并当选澳洲优青,得到为期3年的科研启动基金,同时获得了澳大利亚科学院罗素奖,定义了属于自己的“标签”。在大多数中国人衡量高校学子个人潜力时,“985”、“211”是两个常见的数字:本科就读于985、211高校的学子会被寄予大展身手的宏图期望,而与985、211不沾边的普通中国学子往往会被一拨归类为职业与科研角逐场的边缘垫底者,更何况是在顶尖高校王牌专业学生集中的人工智能领域。那么,双非学子就注定无缘于前沿研究吗?起点低就不能在科研领域打出一方天地吗?答案显然是否定的。在吴琦看来,无论“出身”高低,科研面前人人平等。撇去外界的偏见,能够战胜结构性处境局限的主要手段,还是在于自己的坚持与努力。正如吴琦所说,“所有的坚持都会在某一时刻给你回报。”
首先是平台的变化。刚到巴斯,吴琦便感觉平台很不一样:“所有老师都在做研究,你可以和他们进行深入的科研问题探讨。”在这里,他终于有机会做自己想做的事情:学习图形学,进实验室做科研,接触前沿的研究。硕士那一年,他跟着巴斯大学媒体技术研究中心(Media Technology Research Centre)的导师 Peter Hall 做研究。Peter Hall 主要研究非真实图像渲染(Non-Photorealistic Rendering,简称“NPR”),刚好吴琦也对图形学感兴趣,所以他便一边上课,一边跟着Peter研究如何通过物理建模的方式(比如渲染),把真实图像转化成中国的水墨画。
图注:NPR图像处理示例,将真实图像渲染水墨风格
正如前面所提到,在本科阶段,吴琦很想做科研,但没有机会。因此,到了巴斯大学后,吴琦想到的第一件事,不是坐一个半小时的车去伦敦看大本钟,而是终于有机会像海绵吸水一样去吸收知识。那一年,吴琦的忙碌程度不输大学四年,天天往实验室跑。硕士快毕业时,Peter问吴琦想不想留下来继续读博士,他可以提供奖学金,吴琦几乎没有思考就答应了。那时候的吴琦有多努力?他没有详细描述,只说了句:“如果他没有让我留下来读博,我其实都会感到诧异。” 2011年,吴琦继续留在巴斯,在Peter的门下攻读计算机科学博士,做图形学研究。组里的师兄分别做水、火、树等不同方向的模拟,Peter原本想让吴琦从“烟”的模拟入手,将组里的传统沿袭下来,但是,吴琦似乎又一次不愿意按着别人订好的框架走下去。2012年夏天,吴琦去意大利西西里参加一个以计算机视觉为主题的夏校,有幸听了两位大神 Andrew Zisserman(欧洲计算机视觉第一人)与 Jitendra Malik (计算机视觉领域的奠基人之一)的报告。他们介绍了计算机视觉的一些基础课程与研究方向,吴琦觉得很新奇。图形学是从数据到图像,而计算机视觉是从图像到数据。尽管当时深度学习尚未兴起,但吴琦觉得视觉是一个比图形学更有意思的研究方向。那时候计算机视觉研究还没有那么火,大家主要做的还是SIFT、BoW、DPM等传统方向,图像识别里,有研究简笔画与真实图像匹配的,但没有做风格画识别与分类的。吴琦想开拓这个方向,这也获得了Peter的支持。“不同绘画风格在描述相同物体时的呈现方式是千差万别的。比如,毕加索在画人脸时会用很多几何体,中国的水墨画在描绘山水时也有自己所讲究的笔法。人类能够很快识别毕加索画的人脸、水墨画上的奇石枝桠,但计算机很难识别出来。”这个研究课题需要结合图形学与计算机视觉的知识,而吴琦是实验室当时为数不多的研究计算机视觉的学生。加上 Peter 带学生的风格基本属于“放养”,一个月开一次会,每次开会也只讨论大的方向,所以吴琦只能靠自己自学机器学习与计算机视觉相关的基础理论,找教材,旁听,网上找视频。幸好吴琦本科学的是数学,概率论、高等代数等知识让他在入门机器学习时少了一些困难。跟着Peter,吴琦养成了“万事不求人”的科研习惯,从问题的提出、数据的建立,到具体用什么样的方法去完成,都是自己决定。即使到了后来,他去阿德莱德担任博士后研究员,他也“很不习惯经常和老板开会。”“所以现在有的学生就说,我没学过这个课程,我没做过这类问题,我该怎么办,是不是不能做?我养成的习惯就是:没做过也没关系,自己去看。”吴琦感慨。但同时,他也能深刻地体会到,博士刚入门时靠自学对学生来说有多艰难,所以,担任教职后,吴琦在自己带领学生时,“会跟得比较紧”,将与学生开会的优先级放在 To do list(待完成事项)的第一位。在硕博阶段,吴琦能明显感觉到自己的基础比其他从知名高校毕业的同学差,“别人上手很容易的课题,自己可能要花两到三倍的时间去恶补。”但好在国外似乎对985、211的标签并不在意,吴琦也愿意花更多时间去学习知识。“这也是为什么我说态度和坚持很重要,因为基础确实更差,确实要比别人花更多时间,没什么好隐藏的。做科研最重要的还是要能沉下心来,常年保持稳定的心态和作息、长时间的投入,搞不懂的地方就从最原始的问题开始抠。”吴琦总结。相比研究成果数量,吴琦觉得,自己在读博期间最大的收获是建立了一个较完整的知识体系。“我觉得对学生而言,能懂得什么是科研,比具体做一个paper要好得多。对于PhD,研究还是要成体系,从一个点开始,一直往更深的地方推进,最后可以去考虑如何推广到不同领域,做到一定程度的普适性,由点到线,再到面。当PhD毕业的时候,你应该是最懂这个方向的人之一。”最重要的是,在巴斯大学读博的经历,让吴琦感受到:原来自己没有名校背景,本科没有接触过科研,也是可以做前沿研究的。他所在的实验室里也有本科来自清北,浙大的同学,吴琦与他们齐聚一室,他开始相信自己也可以像他们一样优秀,甚至做到更好。
2015年,吴琦加入阿德莱德大学澳大利亚视觉技术中心(ACVT),在 Anton van den Hengel 与沈春华两位导师的指导下开始了为期 3 年的博士后研究。沈春华是过去10年在CV三大顶会(CVPR、ICCV、ECCV)发表论文最多的在澳学者。刚到阿德莱德的第一年,吴琦便在与导师讨论后决定从跨领域图像研究转到视觉-语言(Vision-Language,这里简称“VL”)研究。促使吴琦及团队成员关注到VL的一个重要契机是:CVPR 2015出现数篇关于 image captioning(图像描述)的工作,其中最有名的当属 Andrej Karpathy 的 NeuralTak 和 Google 的 Show and Tell,同时,2015 年的 MS COCO Image Captioning Challenge 也引起了大量关注。吴琦所在的课题组除了他,还有两个博士后,一个研究图像分类,一个研究图像分割。阿德莱德在科研上一向不甘于人后,恰巧吴琦也热爱探索跨界性问题,VL结合了计算机视觉与自然语言处理(NLP)的知识,所以吴琦决定从图像跨到另一个模态——语言,展开图像与外部领域的跨界研究,也就是“视觉-语言”。后来,吴琦谈到,对他来说,VL最大的魅力在于,它不像图像分类、物体检测、分割等传统计算机视觉任务一样是作用在一个有限的、提前定义好的标签集上,而是它要处理的问题往往是“不可预知的”,是在训练集中未见过的形式与组合。这时候,他又成了组里第一个研究NLP的人。此前,吴琦在英国留学期间从来没有接触过深度学习、神经网络与NLP的内容。所以,刚到阿德莱德的第一个月,他狂补这些新知识,自学,请教同门博士生,把基础知识过一遍,“跟重读一个博士差不多。”在刚开始接触VL研究时,吴琦主要研究 Image Captioning,随后又涉足 VQA(图像问答),Referring Expression(指称表达),Visual Dialog(视觉对话)等方向。博士后三年是吴琦的论文成果高产期。那三年,他在CVPR、AAAI、IJCAI、TRAMI等顶级会议与期刊上先后发表了15篇VL方向的研究论文。其中,最令他自豪的两项工作,一个是将属性引入 imaga captioning(发表于CVPR 2016),另一个则是将知识图谱引入VQA(发表于CVPR 2016)。
吴琦看到VL的重大潜力。然而,在他看来,要实现真正的人工智能,除了能够学习和理解多种模态的信息,机器还要能与真实环境进行一定程度的交互,从而帮助人类解决实际问题。吴琦解释:“目前,我们可以和手机上的Siri、小度等语音助手进行对话,但它们是不能移动的。假如有一天,我们有了一个可移动的人工智能助手,把Siri安装在小型家用机器人上,让机器人帮助我们完成某项任务,那么,在下指令时,机器人需要对你的语言指令与Ta所观察到的图像进行理解,同时具备导航与完成动作的能力。这也是我们将 Action(动作)加入到 VL 里的初衷。”因此,2018年,他决定在原有的VL基石上加进“动作”(Action)。为此,他提出了“V3A”的概念,即“Vision,Ask,Answer and Act”,机器以视觉为中心,进行提问(Ask),回答(Answer),行动(Act)等操作。
图注:V3A框架
2020年,吴琦在澳大利亚机器学习研究院 (Australian Institute for Machine Learning,CS Ranking上排名全球第3)下成立了 V3A 实验室。同时,他还担任澳大利亚机器人视觉研究中心(ACRV)的VL课题组组组长、AIML的VL项目组组长。从跨领域图像研究,到视觉-语言,再到视觉-语言-动作(Vision-Language-Action),吴琦从未停止对所在领域的边界探索与问题突破。在科研上,吴琦形容自己就像那只总想去海的边界来回试探的鸟。他不安于在别人已经画好的框架里做研究,而是喜欢自己探索问题的边界,研究如何与边界互动、突破边界,与其他学科建立桥梁,把原来所在的圈子扩大。