新任AAAI 2021 大会主席,杨强教授认为的「机器学习前沿问题」有哪些?

作者 | 十、年

编辑 | camel

据南大周志华微博消息,微众银行首席人工智能官杨强教授担任国际人工智能大会AAAI 2021大会主席。

杨强教授的此次任职亦是AAAI大会历史上第二位大会主席,同时属华人首次。

周志华教授在微博中提到,2020年前AAAI仅设程序委员会主席(Program Committe e chair),没有大会主席( General chair)。由于近来投稿量剧增,为了使程序委员会主席能把精力集中在稿件学术质量把控上,2020年起才开始设置大会主席。

杨强教授是人工智能业界的国际专家,在学术界和工业界做出了许多贡献,尤其近些年为中国人工智能和数据挖掘的发展做出了重要的贡献。杨强教授是国际人工智能界“迁移学习”(transfer learning)领域的发起人和带头人,同时也是国际“联邦学习”(Federated Learning)的发起人之一及带头人。

他于2013年7月当选为AAAI Fellow,这也使他成为第一位获此殊荣的华人;之后又于2016年5月当选为AAAI执行委员会委员,是首位AAAI华人执委,2017年8月当选为国际人工智能联合会(IJCAI)理事会主席,是第一位担任IJCAI理事会主席的华人科学家。

由此可见,担任 AAAI 2021 大会主席,也是顺理成章之事。

比较巧合的是,不久之前,AI 科技评论恰好聆听了杨强教授做的一场报告。1月11日,在《清华-中国工程院知识智能联合研究中心年会暨认知智能高峰论坛》上,杨强教授做了《机器学习的几个前沿问题》的报告,针对人工智能算法方面的限制,在机器学习层面对几个前沿问题做了总结。

在报告中,杨教授指出,在机器学习流程中的大多数环节都可以进行自动化设计;面对小数据集的困境,迁移学习是很好的解决方案;在隐私保护越来越重视的今天,联邦学习可以实现利用多方数据进行训练,还能够很好的保护每一方的数据隐私。

AI 科技评论藉此机会,将杨强教授的观点分享给大家,如下——

AI科技评论做了有删改的整理,未经杨强教授本人确认。

1、机器学习如何规模化?

虽然人工智能现在发展的非常火热,但是人工智能面临巨大的挑战,首先是人才的挑战,培养一个人工智能的人才,包括在学校里的培养,在实践当中培养,前后加起来需要耗费近十年的时间。

那么人工智能技术本身是不是可以用来设计人工智能?在人工智能的具体应用环节,有的环节是否能够让人工智能来进行?换句话说,AI的算法是不是可以自动化的进行设计?要解决这个问题需要全面考虑AI算法,尤其是机器学习算法整个流程的每个环节,哪个环节适宜用自动化,哪个环节不能用自动化。

机器学习的整个流程包括问题的定义、收集数据、建立特征工程、模型的训练和测试、应用,最后再将应用的结果反馈到第一步。所以这个循环的过程非常繁杂,有很多的环节需要人工智能的专家,这也是为什么一个人工智能落地的项目非常昂贵的原因。所以哪个步骤可以用自动化来解决?例如从定义问题出发,定义问题不仅仅是从过去知识学习的问题,还能够有意识的提出新颖的想法,甚至有些想法没有过去的经验可参考。

因此我们断定在定义问题的环节很难引入自动化,但是后面的环节,例如数据的收集、数据聚合,然后形成特征工程,包括模型的训练其实都是可以自动化。

在数学模型的概念上,机器学习目的在于使训练数据和模型之间的差别变得越来越小,整个过程是一个优化的过程,也是一个概率的过程。我们在寻找模型的时候,实际上是在配置的参数空间里面寻找。但是参数的数量,尤其是在深度学习里面的参数数量非常多,维度可以达到上亿。这些参数一般是机器学习专家来调节,那么如果使用机器,效果是不是更好?

第二个环节,是性能的评估,即评估模型和训练数据差别,这个环节也可以部分的由机器来解决,虽然这个差别本身的定义还是由人来解决,即由数学家来定义一个模型和训练数据之间到底有多大的差别。

所以,最近的一些分析,人工智能的基础是不是应该是数学,就体现在:数学家对距离的定义,即各种各样的在不同的空间,转化空间之间的距离的定义。

那么如何高效的求解,在这个空间里面找到最佳的配置是一个优化的问题,所以总结起来为:数据的预处理、特征处理和模型训练。这几个方面都可以形成一些搜索空间,可以在这样的空间里面形成优化函数,例如上图左边是三个空间,那么在这三个空间就包括在右边的那个性能的空间里面。

自动化的特征工程已经有非常好的平台,例如第四范式公司推出了AutoCross平台,他会把不同维度的特征自动的组合筛选,最后推出最优化的组合。同时现在比较困难的是在自动化机器学习里如何找到一个最优的网络结构,这也是拓扑空间的搜索问题。

上图的右上角展现的是一个深度学习的拓扑结构,也即从一个神经元到另外一个神经元之间的连接,这种连接千变万化,而且影响是巨大。那么如何找到一个最佳的拓扑结构?这是比较难的问题,这个问题现在也在尝试自动化的方式解决,具体来说是引用了强化学习的概念,如上图左侧所示。

首先在深度学习的过程中,右边展示的是如何不断地寻找一个更好的配值,即网络拓扑空间的一个配值参数,然后再返回到设计,由此得到反馈。这就像AlphaGo下棋一样,不同的是把棋盘定义成网络的连接。

2、AI数据不够怎么办?

现有深度学习的各种各样的算法,都有一个重要的假设:存在足够的数据。如果数据不够,可以用迁移学习来解决。

具体方法是:先看上图红色模型,假设我们要训练的模型是上图这种目标模型,需要很多的数据。如果假设数据有限,就需要在上图左侧寻找蓝色领域,蓝色区域的特点为:具有大量的数据、有非常可靠的模型、模型效果非常好。那么迁移学习是:从上图蓝色成熟的模型迁移到红色领域。这类似于人类的类比学习,举一反三。

结果是:如果原数据量非常巨大,把它迁移到一个小数据,效果会很好。而且当原数据的数据数量和数据质量不断提高的时候,迁移学习的效果也是不断提高。那么就可以把其落地到一个深度学习的迁移学习上。在上图中红色可以迁移到蓝色,红色已经有一个从左到右的流程,从左边是输入,右边是输出,已经可以达到很好的分类。

但是和领域特别相关,特别具体的部分,则存在于深度模型的上端,也就是在右边输出的那一部分,那部分尽量的让它不要参与迁移。这便涉及到迁移策略,类似于退火模型。随着时间,我们把这个迁移的重点逐渐推向底层,那么这样就使得下面的这个蓝色的模型的迁移效果变得越来越好,

这种迁移方式现在也在业界大量的实施,例如汽车金融的风险控制上,大额的汽车贷款往往是很少的,那么就需要迁移学习的解决方案,具体做法是是通过小额贷款,大量数据,通过在两个数据之间迁移得到很好的效果。

例如城市计算,假设在一个城市已经获得了很好的交通出行的预测模型,那么可以把它迁移到一个新的城市,那么在这个新的城市不用收集很多的数据,就可以获得很好的结果。上面提到的自动化的迁移学习,就是用机器学习来学习迁移学习的策略。策略的要点是:对原领域的选择,对迁移学习算法的选择。那么在右边的优化空间里面再找最佳的优化解,把这个问题变成数学的问题,然后便可解决。

3、用户隐私怎么保护?

越来越多的声音告诉我们,在做人工智能的时候也要做有道德的人工智能。首先一定要保护人的利益,人的利益最大体现就是隐私。大数据一方面可以提高效率,另一方面会涉及到很多人的隐私。现在各种法律法规也频繁出现,例如欧洲的GDPR的保护法,中国也有相应非常严格的个人隐私保护法,并且遍布在游戏、金融、互联网各个方面。

过去的情况是:不同的机构把数据聚合到一个大数据公司,同时发挥大数据公司的力量,从而有足够的样本和维度;缺点是会暴露隐私。

现在有没有别的办法把模型高质量的建立起来呢?联邦学习(Federated learning)是一种新的做法。意思是:假设有两个数据拥有方,A方和B方,A方是上面的矩阵,B方是下面的这个矩阵,他们之间可能有数据上的重叠。现在的目的是让A方看不到B方,B方也看不到A方,同时要建立一个共有的模型,这个模型把两方的数据都用上。

举例来说:假设一个农夫在养一只羊,他需要把各地的草收集到农庄来喂羊,类似于把数据聚合到中心服务器。但是假设草不能移动到外地,现在能做的是领着羊到各地吃草。也就是让模型先到A方来加以训练,再把模型带到B方加以训练,几次之后,模型就壮大了,而数据不用流出本地,这就是联邦学习的思想。

联邦学习需要很多计算机领域的跨领域的知识,例如多方计算、隐私加密、加密技术、数学、分布式的机器学习、分布式计算。具体怎么做呢?例如要在两个领域之间做迁移学习模型,从A迁移到B,不让A看到B的数据的同时不让B看到A的数据。这可以以通过逻辑回归的办法,把数据的参数、权重等等进行加密,然后把加密的包给运到B,然后加密包会参与到B端的模型训练,然后再把模型加密运到A,如此循环往复多次之,模型也成熟了。上述过程有两点:第一没有泄露任何一方面的数据,第二个达到的效果和用两边数据之和训练出来的是一样的。

电商和视频里大量使用的推荐系统会产生大量的数据,不同的推荐方拥有的数据不同,为了保护隐私,不能粗暴的把所有的手机点击产生的数据上传,所以要采用联邦学习的做法。具体做法如下:

首先认识到数据有两个部分,一部分是描述用户,就是上图右侧U1~UN。另一部分是对产品的描述,用线性代数里面的矩阵描述。对矩阵分解以后,然后认识到虽然有不同的用户,但是产品本身矩阵是共有的,这个矩阵可以用联邦邦学习来学习。具体学习过程是:

每一部分在迭代的过程中,都在贡献自己学到的那一部分的特征值,然后把它传到服务器上,在这里面要特别关注的是上图右边红色加密步骤:在上传和下传时用模块加密,同时包装产品矩阵的参数包,使每一方都相互看不到彼此的数据,同时模型不断壮大。

同时可以把此过程迁移学习化,即两个数据方的用户和参数的维度都重叠很少的情况下,可以退一步把其映射到一个子空间来进行学习,如此便可得到很鲁棒的学习效果。在具体的电影推荐数据集实践结果如上图所示,右边代表错误率,错误率随着训练的次数急剧的下降。

同时在新闻推荐方面,在财新的新闻推荐中使用的就是联邦学习和迁移学习的推荐引擎。如今此项技术已经开源,并放在了Linux Foundation上,而且最近已经有所突破。

4、AI如何做到反欺诈?

金融机构AI的落地应用特别关心的一个议题是如何做到反欺诈。人工智能的发展有一种技术:Deepfake,可以来模拟一个完全虚拟的人,虚拟和真实的之间不仅人看不出,现在很多人工智能算法也不能区分。

当前AI造假主要集中于以下几点:第一个是对数据的造假;第二是对模型的造假;第三是对结果的造假。针对上面三个方面,研究者们展开了针对性的研究,例如对于训练的过程,在考虑原本训练目标的基础上,同时考虑加入对抗的样本,来增强模型的鲁棒性。不仅要考虑一个模型,而且我们要考虑多个模型,从不同的角度来对样本进行分类。假设坏人用了两个模型,我们要用四个模型,假设坏人也学会用四个模型,我们就要用八个模型。

5、总结

最后总结一下,人工智能的成功方面在于:第一能把一个环节给自动化,例如刚开始讲的自动化机器学习。第二分布式的大数据,即怎样能够在保护隐私的前提下,让不同的数据拥有方合作。第三则是高性能计算能力的提升,这一点我没有太多研究,清华在这方面做了非常多的研究,我就不再赘述。谢谢大家!