7 Papers | 騰訊王者榮耀絕悟AI;ICLR高分論文Reformer
- 2019 年 12 月 31 日
- 筆記
機器之心整理
作者:杜偉
本周 7 Papers 包含多篇 AAAI 2020、ICLR 2020 入選論文,如騰訊 AI Lab 遊戲 AI 研究、提高 Transformer 性能的研究等。
目錄:
- Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
- PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
- BackPACK: Packing more into backprop
- Deep Audio Prior
- REFORMER: THE EFFICIENT TRANSFORMER
- TextTubes for Detecting Curved Text in the Wild
- Joint Commonsense and Relation Reasoning for Image and Video Captioning
論文 1:Mastering Complex Control in MOBA Games with Deep Reinforcement Learning
- 作者:Deheng Ye、Zhao Liu、Mingfei Sun 等
- 論文鏈接:https://arxiv.org/abs/1912.09729
摘要:在本文中,來自騰訊人工智能實驗室和天美工作室的研究者對多玩家在線競技場(Multi-player Online Battle Arena,MOBA)1v1 遊戲中複雜行動的強化學習問題進行了研究。與圍棋和雅達利等傳統 1v1 遊戲相比,MOBA 1v1 遊戲中玩家的狀態和行動空間問題更加複雜,這導致很難開發出人類玩家級別的遊戲策略。因此,研究者提出了一個深度強化學習框架,從系統和算法兩方面來解決上述問題。系統具有低耦合度和高擴展性,因而可以實現大範圍內的有效探索。算法包含幾項新穎的策略,如控制依賴解耦(control dependency decoupling)、行動 mask、目標註意力和 dual-clip 近端策略優化(proximal policy optimization,PPO),從而使得提出的執行器-評估器(Actor-Critic)網絡可以在系統中獲得有效地訓練。通過 MOBA 遊戲《王者榮耀》的測試,訓練的 AI 智能體可以在 1v1 遊戲模式中擊敗頂尖職業玩家。

王者榮耀 1v1 遊戲 UI 界面。在主屏幕中,左上角的 A 為小地圖、右上角 B 為控制面板、左下角 C.1 為移動控制、右下角的 C.2 為技能控制。實驗表明,AI 智能體能在多種不同類型的英雄上能擊敗頂級職業玩家。

表 4:AI 與不同頂級人類玩家的比賽結果。
推薦:騰訊王者榮耀人工智能「絕悟」的論文入選 AAAI 2020。在研究測試中,AI 玩露娜和頂級選手單挑時也贏了個 3:0。
論文 2:PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
- 作者:Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter J. Liu
- 論文鏈接:https://arxiv.org/pdf/1912.08777.pdf
摘要:當在文本摘要等下游 NLP 任務上進行微調時,大規模文本語料庫上具有自監督目的(self-supervised objective)的預訓練 Transformer 取得了很大的成功。但是,尚未有研究涉及到專門針對抽象式文本摘要(abstractive text summarization)的預訓練目的。此外,不同領域之間也缺少系統化評估。
因此,在本文中,來自帝國理工學院和谷歌大腦團隊的研究者提出了大規模文本語料庫上具有新的自監督目的的大型 Transformer 預訓練編碼器-解碼器模型 PEGASUS(Pre-training with Extracted Gap-sentences for Abstractive Summarization)。與抽取式文本摘要(extractive summary)相似,在 PEGASUS 模型中,輸入文檔中刪除或 mask 重要句子,並與剩餘句子一起作為輸出序列來生成。研究者在新聞、科學、故事、說明書、郵件、專利以及立法議案等 12 項文本摘要下游任務上測試了 PEGASUS 模型,結果表明該模型在全部 12 項下游任務數據集上取得了 SOTA 結果(以 ROUGE score 衡量)。此外,該模型在低資源(low-resource)文本摘要中也有非常良好的表現,在僅包含 1000 個示例的 6 個數據集上超越了以往的 SOTA 結果。

PEGASUS 的基礎架構是一個標準的 Transformer 編碼器-解碼器。

在 12 個下游任務數據集上,PEGASUS_LARGE 和 PEGASUS_BASE 與以往 SOTA 的結果對比。

在 XSum、CNN/DailyMail 和 Gigaword 數據集上,PEGASUS_LARGE 與其他模型的結果對比。
推薦:研究者展示了預訓練語料庫、gap-sentence ratio 和詞彙量對文本生成的影響,並證明提出的 PEGASUS 模型可以非常快速地適應未知的文本摘要數據集。
論文 3:BackPACK: Packing more into backprop
- 作者:Felix Dangel、Frederik Kunstner、Philipp Hennig
- 論文鏈接:https://arxiv.org/abs/1912.10985
摘要:自動微分框架只在計算平均小批量(mini-batch)梯度時進行優化。但在理論上,小批量梯度方差或 Hessian 矩陣近似值等其他數量可以作為梯度實現高效的計算。研究人員對這些數量抱有極大的興趣,但目前的深度學習軟件不支持自動計算。此外,手動執行這些數量非常麻煩,效率低,生成代碼的共享性也不高。這種情況阻礙了深度學習的進展,並且導致梯度下降及其變體的研究範圍變窄。與此同時,這種情況還使得復現研究以及新提出需要這些數量的方法之間的比較更為複雜。因此,為了解決這個問題,來自圖賓根大學的研究者在本文中提出一種基於 PyTorch 的高效框架 BackPACK,該框架可以擴展反向傳播算法,進而從一階和二階導數中提取額外信息。研究者對深度神經網絡上額外數量的計算進行了基準測試,並提供了一個測試最近幾種曲率估算優化的示例應用,最終證實了 BackPACK 的性能。

在真實網絡上同時計算梯度和一階或二階擴展與單獨計算梯度的開銷基準對比。

第一版 BackPACK 框架支持的功能。
推薦:本文提出的 BackPACK 框架豐富了自動微分程序包的句法,從而為平均批量梯度下的優化器提供額外的可觀察量。
論文 4:Deep Audio Prior
- 作者:Yapeng Tian、Chenliang Xu、Dingzeyu Li
- 論文鏈接:https://arxiv.org/abs/1912.10292
摘要:眾所周知,深度卷積神經網絡專門用於從大量數據中蒸餾出壓縮和魯棒的先驗。在訓練數據集缺失時,研究人員往往有興趣運用深度網絡。在本文中,來自羅切斯特大學和 Adobe Research 的研究者提出了一種深度音頻先驗框架(Deep Audio Prior,DAP),它在單個音頻文件中利用到了網絡結構和時態信息。具體而言,他們證明,一個隨機初始化的神經網絡可以與精心設計的音頻先驗一道使用,以解決盲源分離、交互式音頻編輯、音頻紋理合成以及音頻同時分離等富有挑戰性的音頻問題。為了理解 DAP 的魯棒性,研究者利用各種聲源創建了一個用於聲源分離的基準數據集 Universal-150。實驗結果表明,與以往的研究工作相比,DAP 在定性和定量評估層面都取得了更好的音頻效果。

以合成聲音混合光譜圖表示的 DAP 框架。由於隨機噪聲作為輸入,研究者利用了兩個聲音預測網絡 S_1 和 S_2 以及兩個 mask 模塊化網絡 M_1 和 M_2,以實現聲源分離。

不同盲源分離方法在 Universal-150 基準上的音頻效果對比。從定性上來看,DAP 的效果顯著優於 NMF、RPCA、KAM 等方法。
推薦:本文提出的 DAP 框架要求零訓練數據(Zero Training Data),並且得益於它的通用和無監督屬性,該框架的潛在應用可以獲得保證。
論文 5:REFORMER: THE EFFICIENT TRANSFORMER
- 作者:Nikita Kitaev、Lukasz Kaiser、Anselm Levskaya
- 論文鏈接:https://openreview.net/pdf?id=rkgNKkHtvB
摘要:大型的 Transformer 往往可以在許多任務上實現 sota,但訓練這些模型的成本很高,尤其是在序列較長的時候。在 ICLR 的入選論文中,我們發現了一篇由谷歌和伯克利研究者發表的優質論文。文章介紹了兩種提高 Transformer 效率的技術,最終的 Reformer 模型和 Transformer 模型在性能上表現相似,並且在長序列中擁有更高的存儲效率和更快的速度。論文最終獲得了「8,8,6」的高分。在最開始,文章提出了將點乘注意力(dot-product attention)替換為一個使用局部敏感哈希(locality-sensitive hashing)的點乘注意力,將複雜度從 O(L2 ) 變為 O(L log L),此處 L 指序列的長度。此外,研究者使用可逆殘差(reversible residual layers)代替標準殘差(standard residuals),這使得存儲在訓練過程中僅激活一次,而不是 n 次(此處 n 指層數)。最終的 Reformer 模型和 Transformer 模型在性能上表現相同,同時在長序列中擁有更高的存儲效率和更快的速度。

簡化的局部敏感哈希注意力,展示了 hash-bucketing、排序和分塊步驟,並最終實現注意力機制。

圖左:在 enwik8 上 LSH 注意力隨層數增加的性能變化曲線;圖右:全注意力和 LSH 注意力的評估速度呈現出不同的曲線變化。
推薦:Transformer 是近期 NLP 領域裏的經典模型,但因為算力消耗過大,對於個人研究者來說一直不太友好。近日一篇入選 ICLR 2020 的研究提出了「Reformer」,把跑 Transformer 模型的硬件要求壓縮到了只需一塊 GPU,同時效果不變。
論文 6:TextTubes for Detecting Curved Text in the Wild
- 作者:Joel Seytre、Jon Wu、Alessandro Achille
- 論文鏈接:https://arxiv.org/pdf/1912.08990.pdf
摘要:在本文中,亞馬遜的三位研究者提出了一種用於自然圖像中曲線文本的檢測器 TextTubes。他們圍繞場景文本實例(scene text instance)的中軸線,將它們作為 tube 進行建模,並提出了一個參數化不變(parametrization-invariant)的損失函數。研究者訓練了一個兩階曲線文本檢測器,並在曲線文本基準 CTW-1500 和 Total-Text 上評估。他們提出的檢測器實現並甚而提升了 SOTA 性能,其中 CTW-1500 基準上的 F-score 提升了 8 個百分點。

研究者利用提出的模型和曲線文本檢測器 TextTubes 做出的推理。現實生活中的物體通常包含嵌入式和彎曲的文本,檢測這些文本往往會採取輸出四邊形的錯誤方法。

不同文本表示三種不同方法的文本檢索結果對比。(a)為原始圖像,(b)和(c)表示長方形和四邊形的檢索方法會產生重疊,並且在捕捉文本時往往將大量的背景噪聲(background noise)作為文本信息,同時在一個特定的 box 中包含多個文本實例。(d)中綠色的為 ground truth 多邊形,品紅色的為多邊形的中軸線,箭頭表示 tube 的半徑。
推薦:本文提出的 TextTubes 檢測器對文本實例非常有效,並且也能夠泛化至姿態估計等具有複雜但相關中軸線的其他任務。
論文 7:Joint Commonsense and Relation Reasoning for Image and Video Captioning
- 作者:Jingyi Hou、Xinxiao Wu、Xiaoxun Zhang 等
- 論文鏈接:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf
摘要:本文對北京理工大學、阿里文娛摩酷實驗室合作的論文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》進行解讀。在此論文中,研究者們提出了一種聯合常識和關係推理的圖像視頻文本描述生成方法。該方法通過迭代學習算法實現,交替執行以下兩種推理方式:(1) 常識推理,將視覺區域根據常識推理,嵌入到語義空間中從而構成語義圖;(2) 關係推理,將語義圖通過圖神經網絡編碼,生成圖像視頻文字描述。

基於常識推理的圖像視頻文字描述生成示例圖。

MSVD 數據集上各方法的對比結果。

MSCOCO 數據集上各方法的對比結果。
推薦:本文提出的方法利用先驗知識交替迭代執行常識推理和關係推理,生成語義圖來學習物體之間的語義關係,從而準確描述圖像視頻的內容。在圖像和視頻數據集上的實驗表明,該方法優於其他最新方法。