集成圖網絡模型實現、基準測試,清華推出圖表示學習工具包
- 2019 年 12 月 24 日
- 筆記
機器之心報道
參與:張倩、杜偉
近日,清華大學知識工程研究室(KEG)推出了一個大規模圖表示學習工具包 CogDL,可以讓研究者和開發者更加方便地訓練和對比用於節點分類、鏈路預測以及其他圖任務的基準或定製模型。該工具包集成了 Deepwalk、LINE、node2vec、GraRep、NetMF、NetSMF、ProNE 等非圖神經網絡和 GCN、GAT、GraphSage、DrGCN、NSGCN、GraphSGAN 等圖神經網絡基準模型的實現。

清華大學計算機科學與技術系長聘教授、計算機系副主任、知識工程研究院教師唐傑發微博介紹 CogDL 項目。
- 項目頁面:http://keg.cs.tsinghua.edu.cn/cogdl/index.html
- GitHub 鏈接:https://github.com/THUDM/cogdl/
與其他圖表示學習工具包相比,CogDL 具有以下特點:
- 稀疏性:在具有數千萬節點的大規模網絡上實現快速網絡嵌入;
- 任意性:能夠處理屬性化、多路和異構等不同圖結構的網絡;
- 並行處理:在多個 GPU 上實現不同種子和模型的並行訓練並自動輸出結果表格;
- 可擴展性:輕鬆添加新的數據集、模型和任務並在所有現有的模型/數據集上測試。

CogDL 圖表示學習工具包的整體框架。
下游任務的 SOTA 結果和基準方法排行榜
對於節點分類(有無節點屬性)、鏈路預測(有無屬性、異構與否)和多路異構鏈路預測等下游任務,CogDL 提供了在這些任務上 SOTA 結果和基準方法的排行榜。
多標籤和有屬性的節點分類
如下圖所示,這是無監督多標籤節點分類設置的排行榜,開發者在真實世界的幾個數據集(PPI、Blogcatalog 和 Wikipedia)上運行所有的算法並得出了排序後的實驗結果。

ProNE、NetMF 和 Note2Vec 位列前三甲。
下圖展示了集中流行圖神經網絡在內的監督式節點分類直推設置的排行榜。

排名前三的是 NSGCN、DR-GAT 和 DR-GCN。
鏈路預測
對於鏈路預測任務,開發者分別採用了 ROC、AUC 和 F1-score,這些用來表徵隨機未觀察到鏈路中的頂點(vertices)比隨機不存在鏈路中頂點更相似的概率。他們對這些指標進行了評估並刪除了 PPI、Wikipedia 和 Blogcatalog 三種數據集上 15% 的邊緣計算。最後實驗重複了 10 次,並按順序進行排列。

ProNE 排名第一。
多路異構鏈路預測
最後,對於多路異構鏈路預測任務,開發者依然採用了 ROC 評估指標。同樣地,他們對該指標進行了評估並刪除了 Amazon、YouTube 和 Twitter 三種數據集上 15% 的邊緣計算。最後實驗重複了 10 次,並按順序進行排列。

在此分類中排名前三的方法是 GATNE、NetMF 和 ProNE。
CogDL 怎麼用?
開發者在 GitHub 項目中介紹了 CogDL 的詳細使用方法。要使用該工具,首先需要安裝 Pytorch 和 Python,版本要求分別是:PyTorch version >= 1.0.0;Python version >= 3.6。
接下來,可以使用 python train.py –task example_task –dataset example_dataset –model example_method 在 example_data 上運行 example_method,然後通過 example_task 來進行評估。
CogDL 中的常規參數包括:
- -task,評估表示的下游任務,如 node_classification、unsupervised_node_classification、link_prediction multiplex_link_prediction 等;
- -datasets,支持的數據集包括'cora'、'citeseer'、'pumbed'、'PPI'、'wikipedia'、'blogcatalog'、'dblp'、'flickr';
- -models,要運行的模型名稱包括『gcn』、『gat』、『graphsage』、『deepwalk』、『line』、 『node2vec』、『hope』、『grarep』、『netmf』、『netsmf』和『prone』。
其他特定參數可以參見 GitHub。
除了這種常規用法之外,CogDL 還支持用戶將自己表現良好的算法和數據集添加到項目中。具體步驟也可以在 GitHub 頁面找到。
支持的數據集
下面兩個表格列出了 CogDL 支持的數據集,包括含有屬性的數據集和不含屬性的數據集。

沒有多標籤節點分類屬性的數據集。

含有多標籤節點分類屬性的數據集。
清華知識工程研究室(KEG)
清華大學知識工程研究室成立於 1996 年,致力於網絡環境下知識工程理論、方法和應用研究。主要研究內容包括:社會網絡分析與挖掘、新聞挖掘、語義 Web、知識圖譜構建等。研究成果在相關領域的 ACM/IEEE Transaction 以及計算機學會指定的 A 類國際期刊、會議上發表 70 余篇高水平論文。

實驗室在理論與應用研究結合方面成績顯著,研發的科研人員社會網絡挖掘系統 ArnetMiner 是國內最早研發的、也是至今訪問量最大的研究者社會網絡分析與挖掘系統,系統目前已有 200 多個國家和地區 800 多萬獨立 IP 的訪問。
該實驗室的負責人是清華大學計算機科學與技術系軟件研究所副所長李涓子,授課教師包括計算機科學與技術系長聘教授、計算機系副主任唐傑、清華大學計算機科學與技術系副教授許斌等。

此外,研究室還有多位優秀的碩士、博士、博士後及訪問學生、工程師等。