Bengio參與、LeCun點贊:圖神經網路權威基準現已開源
- 2020 年 3 月 11 日
- 筆記
機器之心報道
機器之心編輯部
圖神經網路發展到什麼程度了?現在我們有了專用的 Benchmark 工具來進行評測。
近期的大量研究已經讓我們看到了圖神經網路模型(GNN)的強大潛力,很多研究團隊都在不斷改進和構建基礎模組。但大多數研究使用的數據集都很小,如 Cora 和 TU。在這種情況下,即使是非圖神經網路的性能也是可觀的。如果進行進一步的比較,使用中等大小的數據集,圖神經網路的優勢才能顯現出來。
在斯坦福圖神經網路大牛 Jure 等人發布《Open Graph Benchmark》之後,又一個旨在構建「圖神經網路的 ImageNet」的研究出現了。近日,來自南洋理工大學、洛約拉馬利蒙特大學、蒙特利爾大學和 MILA 等機構的論文被提交到了論文預印版平台上,而且這一新的研究有深度學習先驅 Yoshua Bengio 的參與,也得到了 Yann LeCun 的關注。

論文鏈接:https://arxiv.org/abs/2003.00982
在該研究中,作者一次引入了六個中等大小的基準數據集(12k-70k 圖,8-500 節點),並對一些有代表性的圖神經網路進行了測試。除了只用節點特徵的基準線模型之外,圖神經網路分成帶或不帶對邊對注意力兩大類。GNN 研究社區一直在尋求一個共同的基準以對新模型的能力進行評測,這一工具或許可以讓我們實現目標。
現在,如果你想測試一下自己的圖神經網路模型,可以使用它的開源項目進行測試了。
項目地址:https://github.com/graphdeeplearning/benchmarking-gnns

不同任務上的測試腳本,每一個 Notebook 都會手把手教你如何測試不同的圖神經網路。
該開放基準架構基於 DGL 庫,DGL 由 AWS 上海 AI 研究院、紐約大學、上海紐約大學開放和維護,是業界領先的圖神經網路訓練平台,並無縫支援主流深度網路平台。Benchmarking gnn 建立在 DGL 的 PyTorch 版本之上。
AWS 上海 AI 研究院首任院長、上海紐約大學張崢教授評論說:「這篇論文來得很及時,也有意義。第一,說明現有的數據集太小、以致成為前進的障礙,已經成為學界的共識。值得讚揚的是這篇文章的作者並沒有因為 OGB 的發布就擱下不弄了。在我看來,他們的數據集和 OGB 有很強的互補性,呈現了圖神經網路更豐富的應用場景,比如把影像數據轉換成圖數據,雖然是從 MNIST 和 CIFAR 開始,也隱含了顛覆或改變基於卷積網路 CNN 的解決方案,再比如旅行推銷員問題是一個經典的優化問題,等等。」
「另外,基於這一系列的數據得到的結論有比較高的可信度,比如數據多起來圖神經網路更能發揮優勢,比如帶注意力的圖神經網路雖然參數更多,但性能也更好。總之,這些結果對激勵更多的模型研究和拓展應用場景非常有意義。」張教授說
圖神經網路已成為分析和學習圖形數據的標準工具,並已成功地應用在很多領域中,包括化學、物理、社會科學、知識圖譜、推薦系統以及神經科學等。隨著各領域的發展,確定架構類型以及關鍵的機制顯得尤為重要,這些架構與機制可以在跨圖形大小的情況下進行泛化,使得我們能夠處理更多更大更複雜的數據集以及領域。
但是,在缺乏具有一致性的實驗設置和大量數據集沒有標準化基準的情況下,衡量新的 GNN 有效性以及對比模型變得越來越困難。在本論文中,作者提出了一個可複製化的 GNN 基準測試框架,可以讓研究人員方便地添加新的數據集以及模型。從數學建模、電腦視覺、化學和組合問題等多方面將這一基準框架應用至最新的中尺度圖形數據集里,以便於在設計有效的 GNN 時建立起關鍵的操作。更準確的來說,圖卷積、各項異性擴散、殘差連接、歸一化層是開發魯棒性以及可擴展性 GNN 的通用構件。
基準測試的數據集和構建圖的方法
這項工作的目標之一是提供一個易於使用的中等規模數據集,在這些數據集上,面向過去幾年中所提出的不同 GNN 架構在性能表現上有明顯的差異。同時,這些差異從統計的角度上來說是具有相當的意義,該基準包含 6 個數據集,如表 1:

提議基準數據集的匯總統計資訊。
對於這兩個電腦視覺數據集,來自經典的 MNIST (LeCun et al., 1998) 以及 CIFAR10 (Krizhevsky et al., 2009) 數據集中的每個影像都使用了所謂的超像素轉換成圖。
而接下來的任務是將這些圖形分類。在 PATTERN 和 CLUSTER 數據集中,圖形是根據隨機塊模型生成的。這些任務包括識別特定的子圖結構 (PATTERN 數據集) 或者識別集群 ( CLUSTER 數據集)。這些都屬於是節點分類任務。
Tsp 數據集是基於銷售人員旅行的問題 (假設給定一個城市列表,訪問每個城市並返回原始城市的最短路徑是什麼?)
將隨機歐氏圖上的 TSP 問題作為一個邊界分類或是連接預測的任務看待,其中 Concorde Solver 給出的 TSP 旅行中每一邊界的真實情況值都屬於是在現實世界中已存在的分子數據集。每個分子可被轉換成一個圖形: 其中每個原子可成為一個節點,每個鍵可成為一個邊。
基準測試設置
GatedGCN-門控圖卷積網路 (Bresson & Laurent,2017) 是考慮中的最後一個 GNN。如果在數據集中可用的情況下,其中 GatedGCN-e 表示使用邊緣屬性/特徵的版本。另外,作者也實現了一個簡單的不使用圖結構的基準線模型,它處於並行情況下對每個節點的特徵向量使用一個 MLP,且獨立於其他節點。
這是後續可選的一個門控機制,用以以獲得門控 MLP 基準線 (詳情見補充材料)。作者對 MNIST,CIFAR10,ZINC 以及 TSP 在 Nvidia 1080Ti GPU 上進行實驗,對 PATTERN 和 CLUSTER 在 Nvidia 2080Ti GPU 上進行實驗。
圖分類和超像素數據集
這一部分使用了電腦視覺領域裡最流行的 MNIST 和 CIFAR10 影像分類數據集。超解析度格式為 SLIC(Knyazev et al., 2019)。MNIST 擁有 55000 訓練/5000 驗證/10000 測試圖,節點為 40-75 之間(即超像素的數量),CI-FAR10 有 45000 訓練/5000 驗證/10000 測試圖,節點數為 85-150。

圖 1. 示例圖和超像素圖。SLIC 的超像素圖(其中 MNIST 最多 75 節點,CIFAR10 最多 150 節點)是歐幾里得空間中的 8 個最近鄰圖形,節點顏色表示平均像素強度。

表 3. 不同方法在基於 MNIST 和 CI-FAR10 的標準測試集上的測試結果(數值越高越好)。該結果是使用 4 個不同種子運行四次結果的平均值。紅色為最佳水平,紫色為高水平。粗體則表示殘差鏈接和非殘差連接之間的最佳模型(如兩個模型水平相同則皆為粗體顯示)。
圖回歸和分子數據集
ZINC 分子數據集被用於對受限溶解度分子特性進行回歸分析。在這裡 ZINC 有 10000 訓練/1000 驗證/1000 測試圖,節點數/原子數為 9-37。對於每個分子圖,節點特徵是原子的類型,邊緣特徵是邊緣的類型。

在 SBM 數據集上進行節點分類
研究者考慮了節點級別的圖模式識別任務和半監督圖聚類任務。圖模式識別時為了找到一個固定的圖模式 P,嵌入於更大的圖 G 中。
而半監督聚類任務則是網路科學中的另一個重要任務。研究者針對以上兩個任務分別生成了相應的數據集。

表 5:在標準測試集 PATTERN 和 CLUSTER SBM 圖上的性能表現。
TSP 數據集上的邊分類
TSP(Travelling Salesman Problem)指的是旅行推銷員問題:給定一個 2D 的歐幾里得圖,演算法需要找到一個最優的序列節點,名為 Tour。它應當有著最少的邊權重。TSP 的大規模特性使得它成為一個具有挑戰性的圖任務,需要對局部節點的近鄰和全局圖結構進行推理。
更重要的是,組合優化問題也是 GNN 中有研究意義的一個應用場景。研究這類問題,不僅僅在現實中有著廣泛的應用,還對於理解圖模型的優化和學習過程,圖網路本身的局限性等有重要意義。
在基準測試中,研究者採用了基於學習的方法,建立了一 GNN 作為骨架網路,來給每個邊和是否所屬預測結果集進行概率預測。這一概率經由圖搜索技術被轉換為離散決策。研究者分別創建了 10000 個訓練實例和 1000 個驗證、1000 個測試實例。
圖 2:TSP 數據集的樣本圖。節點以藍色表示,紅色表示 groundtruth 的邊。
測試結果

表 6:TSP 測試集的圖性能表現,分為有/無殘差連接良好總情況。紅色表示最好的模型性能,紫色表示模型效果不錯。

表 7:在 TSP 測試集圖上的性能表現。模型是深度 GNN,有 32 層。模型分為使用殘差連接和沒有殘差連接兩種情況。L 表示層數,B 表示最好的結果(有殘差連接和無殘差連接的情況)。

表 8:ZINC、CIFAR10 和 CLUSTER 測試集圖在有或者沒有 BN、GN 的情況下的性能表現。