莱斯大学胡侠团队 ICML 2022 杰出论文: 新型图数据增强方法 G-Mixup|附作者对话

  • 2022 年 8 月 3 日
  • AI

作者|李梅
编辑|陈彩娴

近日,备受关注的第十九届机器学习国际会议(ICML 2022)在美国马里兰州巴尔的摩市举办。自新冠疫情以来,大会首次恢复线下形式,采取线上线下结合的方式举办。


1

ICML2022概况

本届大会共收到5630 篇投稿,其中,1117 篇被接收为short oral,118篇被接收为long oral。接收率为21.94%,与以往几年基本持平。前几日,本届大会的全部奖项公布,共评选出15 篇杰出论文奖和 1 项时间检验奖。其中,复旦大学、上海交通大学、厦门大学、莱斯大学等多个华人团队的工作被评位杰出论文奖。ICML 2012 的一篇论文《Poisoning Attacks against Support Vector Machines》获得了时间检验奖。

获奖论文信息详见://icml.cc/virtual/2022/awards_detail

今年的杰出论文奖不同寻常,评选数量多达 15 篇。而同样是 21% 左右的接受率,前年只评选出2篇杰出论文,去年则仅有1篇。

本文我们来关注一下今年获奖的一篇优秀工作。AI 科技评论此次采访到获得杰出论文奖的莱斯大学胡侠团队,为我们解读他们的研究工作。该团队的获奖论文题目为:《G-Mixup: Graph Data Augmentation for Graph Classification》。作者:Xiaotian Han、Zhimeng Jiang、Ninghao Liu、Xia Hu。

论文地址://arxiv.org/pdf/2202.07179.pdf

在这项研究中,作者提出了一种新的图数据增强方法:G-Mixup,实验表明,G-Mixup 能够提高图神经网络的泛化性和鲁棒性。

胡侠,现任美国莱斯大学终身副教授,数据科学中心主任,AIPOW联合创始人兼首席科学家。其主导开发的开源系统AutoKeras成为最常用的自动机器学习框架之一(超过8000次star及1000次fork),开发的NCF算法及系统(单篇论文他引3000余次)成为主流人工智能框架TensorFlow的官方推荐系统,主导开发的异常检测系统在通用、Trane、苹果等公司的产品中得到广泛应用,研究工作多次获得最佳论文(提名)奖。



2

获奖工作G-Mixup介绍

研究背景

图数据在我们的现实生活中无处不在,我们可以使用图来建模和描述各种复杂网络系统。而为了将图数据应用于具体任务,我们首先需要对图数据进行表征。近年来,通过深度学习技术对图数据进行表示学习的图神经网络(GNNs),在节点分类任务上取得了最优性能,因而已被广泛用于图形分析。同时,数据增强(data augmentation)和 Subgraph(子图)也被用于图分析,它们通过生成合成图来创建更多训练数据,以提高图分类模型的泛化性能。

当前流行的数据增强方法 Mixup 通过在两个随机样本之间插入特征和标签,在提高神经网络的泛化性和鲁棒性方面显示出优越性。但是,Mixup 更适用于处理图像数据或表格数据,直接将其用于图数据并非易事,因为不同的图通常:(1)有不同数量的节点;(2)不容易对齐;(3)在非欧几里得空间中的类型学具有特殊性。

为此,提出了一种 class-level 的图数据增强方法:G-Mixup。具体来说,首先使用同一类中的图来估计一个 graphon。然后,在欧几里得空间中对不同类的 graphons 进行插值,得到混合的 graphons,合成图便是通过基于混合 graphons 的采样生成的。经实验评估,G-Mixup 显着提高了图神经网络的泛化性和鲁棒性。

G-Mixup的实现方法

G-Mixup。G-Mixup 是一种通过图形插值的class-level数据增强方法。具体来说,G-Mixup 对不同的图生成器(graphon)进行线性插值以获得新的混合的生成器。然后,基于混合的新的生成器对合成图进行采样得到新的图数据以进行数据增强。改论文从理论上证明从该生成器中采样的图部分具有原始图的属性。

如图1所示,G-Mixup包括三个关键步骤:(1)为每一类图估计一个graphon,(2)混合不同图类的graphons,以及(3)基于混合的graphons采样生成合成图。

图 1:在二值图分类任务中,有两类不同的图 G 和 H,二者拓扑不同(G 有两个社区,而 H 有八个社区)。G 和 H 具有不同的graphons。

Graphon 估计和 Mixup。作者使用矩阵形式的阶进函数作为graphon来混合和生成合成图。对阶跃函数估计方法,作者首先根据节点测量值将节点对齐在一组图中,然后从所有对齐的邻接矩阵中估计阶跃函数。

合成图的生成。一个 graphon W 提供一个分布来生成任意大小的图。

G-Mixup 的性能评估

那么,G-Mixup 在真实世界的图数据上表现如何?作者团队对 G-Mixup 的性能进行了评估。

一个数据集中不同类别的图的 graphons 显著不同。图 2 表明现实世界中不同类别的图有完全不同的graphons,这为通过融合 graphon 来生成混合的图奠定了基础。

图2:IMDBBINAERY 的 graphons 显示 class 1 的 graphon 有更大的密集区域,这表明该类中的图比 class 0 中的图具有更大的社区。REDDIT-BINARY 的 graphons 显示,class 0 中的图有一个高度节点,而 class 1 中的图有两个。

G-Mixup 合成的图是原始图的混合。作者团队将在 REDDIT-BINARY 数据集上生成的合成图进行可视化,如图 3,混合 graphon(0.5∗W0+0.5∗W1) 能够生成包含高度节点和密集子图的图,这可看作是包含 1 个高度节点和包含 2 个高度节点的图的混合图。这验证了 G-Mixup 更倾向于保留来自原始图的区别性图案,其合成图确实是原始图的混合。

图3:在 REDDIT-BINARY 数据集上生成的合成图的可视化。

G-Mixup 可以提高 GNN 在各种数据集上的性能。作者比较了使用 G-Mixup 的各种GNN主干网络在不同数据集上的性能。实验结果表明,G-Mixup可以提高图神经网络在各种数据集上的性能。

G -Mixup 可以提高 GNN 的鲁棒性。作者对 G-Mixup 的两种鲁棒性(标签腐蚀的鲁棒性和拓扑腐蚀的鲁棒性)进行研究,发现 G-Mixup 能够提高 GNN 的鲁棒性。

结论

这项工作提出了一种名为 G-Mixup 的新型图增强方法。与图像数据不同,图数据是不规则的、未对齐的且处于非欧几里得空间中,因此很难进行混合。然而,同一类别中的图具有相同的生成器(即graphon),它是规则的、良好对齐的且处于欧几里得空间中。因此,作者转而对不同类别的 graphons进行混合来生成合成图。综合实验表明,使用 G-Mixup 训练的 GNN 获得了更好的性能和泛化能力,并提高了模型对噪声标签和被损坏拓扑的鲁棒性。



3

 AI 科技评论对话G-Mixup作者团队

AI 科技评论:祝贺你们的研究获得ICML 2022杰出论文奖。首先,能否概括一下你们这项工作的主要贡献?

作者团队:我们提出了 G-Mixup 来增强用于图分类的训练图。由于直接混合图是难以处理的,因此 G-Mixup 将不同类别的图的图元混合以生成合成图。其次,我们理论上证明合成图将是原始图的混合,其中源图的关键拓扑(即判别主题)将被混合。最后,我们证明了所提出的 G-Mixup 在各种图神经网络和数据集上的有效性。大量的实验结果表明,G-Mixup 能够增强图神经网络的泛化性和鲁棒性。

AI 科技评论:当时论文收到的审稿意见是怎样的?

作者团队:审稿意见总体比较positive,不过当时审稿人对我们做数据增强的意义有一点疑问,我们对此作了详细的解释,比如就训练而言,有时训练数据集特别少,我们就可以用数据增强来获取更多的数据。审稿人在最后的意见中也表明认识到了数据增强的重要意义。

AI 科技评论:与以往的Mixup方法相比,G-Mixup的不同之处在什么地方?

作者团队:Mixup 技术主要应用在图像上,已经比较成熟,它是将训练数据中的两个数据集线性地加起来,得到一个新的训练数据,从而完成数据扩增。但它在图数据上还没有一个很好的解决方案。而我们的G-Mixup 是一个简单且有效的方法,它是对不同类别的图生成器进行混合来生成合成图。

AI科技评论:与图像数据和表格数据相比,对图数据做mixup的难点在什么地方?

作者团队:目前针对图的mixup的研究比较少,因为图数据比较难处理,它不容易表示,而且两个图的节点数量、无结构信息是不一样的,所以很难将其融合到一起。图像数据和表格数据可以表示成连续的向量或矩阵的形式,所以很容易做融合,但图数据无法表示成这种形式。

AI科技评论:为什么说G-Mixup 是一种Class-level的图数据增强方法?

作者团队:我们是用两个类来生成一个新的类,我们用多张图来估计图的生成规则也就是图的生成器,然后对每一类图来估计一个生成器,这样来生成一个新的类别。以往针对图像的mixup是用两张图片来做,属于instance-level,但针对图的处理方法与此不同。

AI科技评论:有哪些途径可以提高图神经网络的泛化性?

作者团队:比如设计新的网络结构,做数据增强,以及训练技巧方面的一些工作,都可以提高泛化性,我们这项工作展示的是其中一种方法。

AI科技评论:针对这项工作所研究的问题,有什么下一步的研究计划?

作者团队:我们这项工作提出的方法主要是用于图分类任务,以后我们可以进一步考虑在节点分类任务上做融合,节点分类也是图神经网络方面的一个重要任务。

AI科技评论:这次获得杰出论文奖,有没有什么经验、体会可以分享?

作者团队:首先文章的写作质量要好,要将研究清楚地表述出来;研究的 idea 要十分合理;以及,研究问题本身要有意义和价值。

AI科技评论:这项研究的成果对相关领域有怎样的影响?有哪些实际应用的价值?

作者团队:由于图数据的本身特性,使得mixup这个在其他数据上很有效的方法不能直接适用在图数据上,我们提出的g-mixup使用了图生成器去融合图数据,实现了class-level的图数据mixup, 希望能对图数据的mixup能有一定的启发作用。希望提出的方法能够在图生成,新药物发现方向能有一定的启发。

更多内容,点击下方关注:
扫码添加 AI 科技评论 微信号,投稿&进群:

雷峰网