孙茂松:深度学习的红利我们享受得差不多了!

  • 2019 年 11 月 22 日
  • 筆記

整理 | 夕颜

出品 | AI科技大本营(ID:rgznai100)

【导读】2019 年 10 月 31日,在北京举行的智源大会上,清华大学教授、智源首席科学家孙茂松接受了媒体采访,畅谈当前人工智能技术与产业应用发展现状和存在的问题,包括自然语言处理研究面临的瓶颈、神经网络黑箱、常识、大数据与知识等,并提出了他对于改进 AI 实用性的看法和建议。本文将提炼孙茂松教授在访谈中表达的主要观点,供读者交流。

下一步,人工智能的核心任务是自然语言处理

访谈伊始,孙茂松首先简单概括了一下人工智能近几年的发展状况。他说道,人工智能这几年的发展,大家接触比较多的是图像方面的成果,包括很多创业公司的人脸识别、刷脸等技术,我们可以看到图像方面的进步非常快。但是,图像只是智能的一部分,人的智能区别于动物其实最主要的特征是语言。人工智能领域有一句话:自然语言理解是人工智能皇冠上的明珠。

下一步,人工智能的核心任务是自然语言处理。图像在一个视频里也有非常复杂的语义,我们现在还做不到完全理解,因为目前图像识别还是比较简单,比如识别一个人,而理解一段视频里丰富的语义,计算机还做不到。

从复杂语义的角度来看,做自然语言反而条件更好,因为每一个词都承载着丰富的语义,在视频里找很难。下一步,人工智能的关键之一就是想办法让机器能够理解人类的语言,这是自然语言理解在人工智能学科中大概的地位。

智源将自然语言处理作为重大研究方向,并根据自然语言处理发展的历史脉络设定研究目标。自然语言处理近几年的进展和图像识别获得进展所依赖的基本方法相差不多,就是深度学习。深度学习最显著的特点是依赖大数据,必须要有海量的数据来训练。自然语言处理相关的技术,比如语音识别,大家觉得这几年发展还可以,机器翻译不错,但都是靠大数据驱动的。我们都看到了其中的好处,性能得到飞速提升,但问题是,因为大数据驱动深度学习是典型的“黑盒子”,虽然翻译效果不错,但其实机器对句子没有任何理解。这样的系统在处理复杂语义时非常脆弱,即使是非常简单的日常词汇,目前最先进的机器翻译系统也无法做到准确翻译。

数据和大知识/富知识双轮驱动自然语言处理

下一步,孙茂松设定真正理解语言需要攻克人工智能的难关,那就是知识驱动。大数据驱动的自然语言处理已经做得很好,大知识或者比较丰富的知识驱动的自然语言处理则刚刚起步,在智源的框架下,我们希望做到大数据和大知识/富知识双轮驱动的自然语言处理,这相比目前人工智能的大数据驱动方法也是重要的突破。

我们希望做这件事,但非常难,因为做这件事需要有基本资源,要有计算机可以操作的人类知识库,但是目前国内没有这样的知识库。虽然世界上有一些类似的库,但是没有达到真正能够很好驱动自然语言处理的水平,特别是常识库匮乏,虽然有一些从某个角度做的常识库,但质量并不能得到所有人的认可。

在常识知识库和世界知识库建设方面,我们正在做一些尝试,并希望在知识库的基础上研究新的大数据和大知识结合的人工智能算法,这对现有基本框架也是比较重要的。如果做成这件事将会是一种突破。

事实上,清华大学在世界知识图谱的构建上已经有一些成果出来,比如 2019 年 1 月发布的世界知识图谱——XLORE。

这个知识图谱由清华大学计算机科学与技术系教授,知识计算领域专家李涓子团队完成,融合了中英文维基、法语维基和百度百科,对百科知识进行结构化和跨语言链接构建的多语言知识图谱,是一个中英文知识规模较平衡的大规模多语言知识图谱。XLORE 中的分类体系基于群体智能建立的维基百科的 Category 系统,包含 16,284,901个实例,2,466,956 个概念,446,236 个属性以及丰富的语义关系(可能有更新)。

另外,清华大学还于今年开源了在中文世界有巨大影响力的语言知识库——知网(HowNet),知网最早由已故的清华大学人工智能研究院知识智能研究中心学术顾问董振东和他的儿子董强先生(HowNet 科技公司技术总监,负责知网知识系统研发)在 20 世纪 90 年代设计和构建,至今已有近 30 年历史,期间不断迭代更新。

OpenHowNet 将知网的核心数据开源,并且开发了丰富的调用接口,实现义原查询、基于义原的词相似度计算等功能。知网构建了包含2000 多个义原的精细的语义描述体系,并为十几万个汉语和英语词所代表的概念标注了义原。

HowNet 开源地址:https://openhownet.thunlp.org/about_hownet

孙茂松表示,知网并非完美,比如其中缺乏定量,知网中有很大的图,所以他的团队就使用了深度学习图神经网络的方法,把专家定性的判断和从文本数据中得到东西结合起来。孙茂松透露,目前该项目还在基础准备阶段,预计时机成熟之后,在这方面很快将会有一些成果在 GitHub 上开放出来。

为什么常识问题迟迟得不到解决?

不同的人具有完全不同的知识,我们如何实现让机器学习常识?

在孙茂松看来,虽然看起来似乎每个人都有不同的知识容量,但实际上人类的共同知识的核心是相对稳定的,比如人是动物的一种,但同时属于有生命的动物。这一路的描述现在比较充分,但更丰富的知识,比如现在谷歌、Wikidata 等国际上开放的规模特别大的知识库,会发现这些知识其实大而不强。举例来说,比如 Wikidata 上关于关羽的描述只有他是中国三国时期蜀国的一位将领,他生于某年,卒于某年,儿子是谁。但我们熟知的关羽的事迹却没有形式化的描写,比如关于过五关斩六将、走麦城等典故全部没有,只是给你一篇文章。所以,它只能做粗浅的处理,无法做推理。

这类世界知识做得非常不够。这些知识是客观存在,把这些总结出来,全人类有很多共识的知识。

孙茂松表示,他期待做这样的一个库,至少做其中的一部分,比如我们做体现北京特色的库比较深入。要做到这一点不能完全靠人工,文本中有关羽哪年从麦城开了哪个门趁夜逃走,这句话是有的,但是变成形式化,比如谁逃走了?逃走的地点在哪?何时逃走?需要能抽象出来,把所有句子变成一阶谓词逻辑表达式,这相当于变成了数学公式,之后就可以用数学逻辑的办法来推理,可以做得更深入,这需要计算机能够从这句话分析出这些结构,这就是自然语言处理的任务,话分析出一句话的结构,至少分析出主谓宾。

打造如此大的知识库,会遇到很多问题,其中最大的难点是什么呢?

孙茂松说道,因为知识库不可能完全靠专家来写,写知识库需要非常有水平的人,带着一帮人做 10年、20 年,才有可能做得不错。中国基本不具备这种条件,中国科研评价体系太急功近利了,虽然一再号召我们发扬”板凳干坐十年冷,文章不写半句空”,但实际上现在真正坐冷板凳的人还是太少了。坐冷板凳的人还得有水平,没水平坐一百年冷板凳也没有用。

做知识库需要对世界万物准确的把握,世界万物理论上都是相互关联的,不可能全部描写,但一定要抓主要矛盾,把重要关系找出来,这个需要有判断,很不容易。最早做知识体系的是亚里士多德,他的《范畴论》把世界分成若干个范畴,研究语言的主语、宾语、谓语。

打造好的知识库,有两个可行的办法,一个是我们把现有世界各方面的知识库都拿来先做整合,看是否可以汲取一些养分。另一个办法是从文本中挖掘知识库,文本中有大量的知识,对知识进行形式化,找出主谓宾。这对于机器来说非常困难。这个事做出来以后,就有可能把互联网上所有的文本形式化,变成类似谓词逻辑表达式,相当于变成某种公式,这时就可以往知识库里补充。如果这条道走通了,这个问题就会得到相当程度的解决,问题是机器分析出主谓宾的难度非常大。

比如在维基百科中找“关羽”的词条非常难,单句处理很难,有时几句话在一块,主语省略了就会处理不好,再比如中国的流水句不如英文的语法严格,现在瓶颈就卡在这里。“是否能达到我们的设想,要看自然语言处理技术能得到多大的帮助,这有很大的挑战性,我们不敢说一定能做出来,但会往这个方向努力,我们有这个认识,目标是应该做到这个程度,才有可能解决问题,但能否做成不太好说,因为这既有难度又有规模上的挑战。”孙茂松说道。

算起来,让机器具有知识这件事从 60 年代就存在了,为什么这个问题直到现在也没有解决?为什么学知识这么难?除了缺乏数据库,还有什么问题在阻碍?

对于这个问题,孙茂松答道,这有点像鸡生蛋,蛋生鸡,自然语言处理理解得好,需要有知识库,但是知识库又需要好的开放环境,需要自然语言处理的帮助,从工程角度就遭遇瓶颈了。现在最好用的知识库是 WordNet,这个同义词体系知识库由普林斯顿大学很有名的认知心理学家乔治·米勒带领团队做了一二十年的成果,但是它的刻划只是世界知识的一部分,虽然覆盖了几乎所有英文词汇,但是一个静态的描写,这些关系里缺少 event,“走麦城”这事它都描写不了,动态信息很少。在国内,靠人坚持一二十年做这种事情太难了。

所以,我们希望机器来做,人来辅助,但这也不可能一蹴而就,需要分阶段来进行,本阶段可以让机器可以做得好一点,人来帮忙,经过迭代才有可能做好。

“黑箱”并不是贬义

现在有一些学者认为,人类很多发明理论之前都先进行了实践,比如飞机发明之后才有空气动力学,他们认为这是一个合理的过程。深度学习的“黑箱”性质同理,这会给研究和应用带来什么风险?

孙茂松认为,”黑箱”并不是不好,1950 年图灵提出的图灵测试就是黑箱测试。如果我们在那时一定要把人脑的机制搞清楚才做人工智能,现在人工智能也不会有发展。实际上“黑箱”这件事并不是贬义的,是在目前阶段,搞不清人脑时只就看外特性,外特性具有智能那就是智能。图灵测试伟大的意义在于我不需要搞清人脑,也可以做人工智能,这是它最重要的意义,可能很多人没意识到这点。“黑箱”固然有问题,是不得已而为之,但搞清人脑的机制再做研究,肯定会更深刻。包括图像识别很容易被攻击,这就是“黑箱”,端到端的情况千变万化,图像再多,也会也例外,即使有正确识别率达到 99%,也会有 1% 的例外,那 1% 的例外如果出现某种问题,可能就很糟糕。

他还提到,Nature 最近发布了一篇文章,讨论为什么 AI 这么容易被愚弄,比如在 Stop 牌子上贴上 tag AI 系统就会识别错误。和人脑不同,人脑的机制会保证识别出上面贴了东西。由于”黑箱”,深度学习并无法理解,如果之前训练过贴纸条,告诉系统这是干扰,它就能学到。但是这种例子无法穷举,如果有知识库,与其中的知识建立起联系,就会有系统性的解决方法,否则这个问题解决不了。

用建立知识库的方法训练机器和算法,在使用“黑箱”之前要优先考虑常识。然而,常识中包含一些全人类有共识的常识,但同时也有一些全人类没有共识的常识。所以,构建适合全人类的知识库时应该怎么解决这个问题?另一方面,想要训练机器阅读材料,材料应该怎么选取?

对此,孙茂松表示,人类知识核心部分是比较稳定的,所谓“常识”。以上所说的实际上已经超出了常识的范围,相当于观点。我们要把常识部分刻划出来,比如你去餐馆,不管全世界哪个餐馆,你要点菜、上菜、吃完之后付账,不付账就跑人家肯定不干,这就属于常识。

而观点是灵活的,为什么我们要做“双轮驱动”?因为观点难以穷尽,且因时而变,因人而变,因地而变,这就要靠大数据,从数据文本里挖。光靠知识肯定不行,核心知识覆盖面不够,也可能干巴巴的,藏在后面。我们处理很多事情在用知识时并没有把它推到前台,需要两方面结合,你说的观点那类东西要在大数据里体现。

之前,孙茂松曾经表示,人工智能下一步需要研究的重点是机器的可解释和可理解的能力,包括决策解释的能力,但这实际上很难实现。字节跳动 AI 实验室主任李航博士在一篇文章中说道,可解释性对应用是很依赖的,不是所有的应用都需要可解释性,比如医疗等关乎生命的重要场景需要可解释性,但是其他的应用不需要可解释性一样可以做到好的效果。而关于可解释性的问题可以放在下一代的人工智能来解决。

对于这个观点,孙茂松表示赞同。他认为,比如小数据,小数据解决问题时系统一定要有可解释性。大数据是基于发现两个事物之间的关联,关联有时不太好讲道理。小数据要起作用,通常需要有知识,有知识就有可解释性。我要把黑箱子打开变成灰的,希望小数据起作用,希望它具有推理能力,具有可解释性,这几件事大概是相通的,只从几个不同的角度来描写。这是下一代人工智能的核心。

可解释性、可理解性和打开“黑箱”的意思差不多。端到端的系统没有理解,比如机器翻译看起来效果似乎不错,但其实并没有理解,我们称之为无理解的智能,它其实只是学习了函数,说穿了就像小学我们学了 Y=3X1+5X2,其实深度学习本质上就是学了一个函数,X1、X2 是输入,Y 是输出,如果给了公式就可解释了。深度学习的好处就是深度神经网络不需要给出函数形式,事实上你也给不出来,没有函数形式,好像就没法解释,到底是什么东西在起作用,解释性会变差,但也不是完全没有。深度学习里有一个注意力机制,可以做一点简单的解释。

学习神经网络可以归纳出它是某种函数形式,这就具有了可解释性,但是机器现在肯定做不到,下一代人工智能也许能做得好一点。目前人工智能的研究热点转到了第三代人工智能,也可以称之为下一代人工智能。但是接下来他坦承做到这一点很难,这些问题解决了,基本上机器真的可以具有和人类差不多的智能,对人也许真的会有威胁。

用小数据解决隐私问题很难,小数据没有通用工具

现在采集大数据可能或多过少地引起隐私方面的忧虑,如果采集大数据隐私问题不可避免,有些人就会想,是否可以改用本机的处理能力离线运算,或者用更小的数据集在文档库中运算,这个方向是否可行?另一方面,在目前的研究现状下,如果使用更小的数据集可能会造成精度的下降,如果有人想致力于从保护隐私的角度尽可能地缩小数据集产出同样或类似的结果,这个工作是否很困难?

孙茂松认为,数据隐私问题比较突出的是在商业公司,服务和人形成了一个闭环,就会涉及到用户的隐私。而用小数据的思路实践起来很困难。他总结到,目前这一轮大家用的比较火的基本都是基于大数据,没有大数据根本不成。小数据是研究热点,在西方要拿到病人的病历很困难,需要通过各种许可,即使拿到了各种风险评估,也要想如何把学术研究利益最大化,做出好的成果。这必须是小数据驱动,小数据涉及知识、推理、判断,这些都是这代人工智能最大的短板。

从宏观角度来说,现在大家都在研究小数据。如果取得成功,一般都是在特定领域,针对特定问题,有了相当的知识,在知识的引导下做小数据,才有可能成功。目前没有一个通行的公认的解决方案或工具,不像深度学习,一些基本的工具是全世界都有的,比如图像识别一般用 CNN 卷积神经网络,语言处理用 LITM、GPT2 等,这些通行的东西放在任何语言问题中都能用。但小数据不行,小数据一定与知识有关,有了一点小数据,没有知识也做不好。小数据要起作用一定要有知识,不是宏大无比的世界知识,而是领域知识,要有针对某个问题的知识才能解决好。

深度学习红利享受得差不多了

现在,很多人似乎都开始反思深度学习的作用究竟是否被夸大了,对此,孙茂松表示现在倒不至于进入反思的阶段,而是走到现在,深度学习的好处我们基本上已经享受得差不多了,深度学习的不足不是做得不好,而是因为这个方法天然就有某种缺陷。到现在这个阶段,大家发现了这个方法似乎不太行,比如机器翻译,谷歌基本上把全世界的双语语料都整全了,按理说功能应该非常强大,但实际上还是解决不了翻译 Box was in the pen 的问题。翻译要达到信达雅,现在连信都做不到,达雅更不用说。

“没有知识库就解决不了这个问题,或者想别的招来解决,但深度学习似乎真的解决不了端到端的问题。端到端的功能非常强大,但是有时又不像我们想象的那么强大,这真不是反思,是碰壁了就得思考了。”

NLP学术研究VS工业界

当前国内在自然语言处理学术研究的现状究竟如何?做得好和不好的点在哪里?

“国内自然语言处理从研究角度平均水平我认为在国际上应该是在一线,在最好之列。”孙茂松说道,“但自然语言处理领域缺少像图像领域中李飞飞的 ImageNet 那样的重大进展。”

孙茂松坦承,自然语言处理中有两个重点,一个是语音识别,一个是机器翻译,这两件事都是企业在往前推的。而学术研究方面,如果从发表高水平论文的定量指标这个角度来看,国内做得不错,但是这个领域真正的突破还是要看效果,不能光看论文,这方面学术研究相对较弱,反而是企业在引领潮流,因为它需要强大的计算能力。从研究角度来说我们做得还不错,并不意味着我们整体做得不错。在NLP 领域,我们与国际最好的学校差距不大,反而是语义资源建设方面还有差距,比如美国有 WordNet,我们没有,当然我们有 HowNet,但是 HowNet 不是大学做出来的。

越来越多的学术界人才涌向产业界,尤其是近年来这一趋势越发明显。GPU资源、数据库资源等是否是工业界吸引多学者到工业界的主要原因?

孙茂松说道,全世界都面临这个问题,产业界待遇高是一条,但他认为这不是最重要的。最重要的是在公司里往往能够接触到真实的问题,公司有大数据的支持,在内部用可以规避隐私的问题,有强大的计算资源。美国的大学同样没有谷歌的资源。而且更重要的是做出的成果以后可以真正用上,有成就感,这是吸引很多高校老师投身工业界的重要原因。“我们确实面临这方面的压力。“

很多成果现在都是工业界做出来的,这个趋势会延续下去吗?

对此,孙茂松认为,工业界在享受学术界的创新,0 到 1 这个事基本不是工业界做的,比如深度学习就是大学做的。

“1 到 2 的事情大学也在做一些,再往后走,工业界就上手了。大学真正要立住,要在 0 到 1这个阶段发力,2 到 N,你是做不过企业的。0 到 1 是原创,1 到 3 还存在一些技术科学的问题搞不清楚。我们现在做得比较多的是 1 到 3,工业界也开始做 1 到 3 了,这样大学和工业界比就没有太大的优势。这时大学就应该放手,不去做 3 到 N。问题是 1 到 3,3 到 N 纠结到一起,大学如果没有做 0 到 1 就麻烦,相当于在竞争中各方面都处于劣势。所以,大学应该在 0 到 1 方面起作用。这就涉及到更大的问题人才培养,涉及到钱学森之问了。”孙茂松答道。

(*本文为AI科技大本营整理文章,转载请微信联系1092722531)