2019年 10 大精彩論文，哪篇論文打動了你？

2019 年 12 月 30 日
筆記

作者 | 楊曉凡

編輯 | Camel

AI 科技評論按：2019 年馬上就要結束了，這一年裡我們又一同見證了雪片般密集（越來越密集）的論文，見證了全世界研究人員在各種問題上的新探索。

AI 科技評論參考 TopBots、Heartbeat、New World AI 等機構的 2019 論文榜單，總結出 2019 年發表的具有研究風向代表性的、有學術影響力、內容也精彩的 AI 論文。其中一些論文把現有的技術思路改進得更加完善，有一些加深了我們對機器學習/深度學習整件事的理解，也有的嘗試了全新的假說、打開了新的探索方向。當然，這一年有許多論文都具有顯著的學術價值，下面總結出的只是冰山一角。如果你覺得還有哪些論文是同樣值得被回顧的，歡迎在評論區留言和我們討論。

除此之外，我們還準備了一篇「2019 年十大新奇論文」，總結了這一年中尤其新穎有趣、甚至出格招致批評的論文。

2019 年精彩學術論文 Top10（按首字母排序）

[ 一 ]

論文：A Style-Based Generator Architecture for Generative Adversarial Networks ( CVPR 2019 )

一個基於風格的GAN生成器架構

作者：NVIDIA 實驗室 Tero Karras, Samuli Laine, Timo Aila

推薦理由：StyleGAN 無疑是 2019 年最熱門的 GAN 網路模型。在 StyleGAN 之前，GAN 的相關研究已經遇到了條件式生成困難、單純增加模型大小的收益有限、無法生成逼真的高解析度影像等等多種困境，StyleGAN 就衝破了這個瓶頸，在生成控制的可控制性、不同屬性的互相搭配、高解析度高清晰度（且具備一致性）方面都帶來了大幅進步。為此，StyleGAN 獲得了 CVPR 2019 最佳論文榮譽提名獎。

StyleGAN 在網路上引發了大量討論，它驚人的人臉生成效果不僅折服了吃瓜群眾，也吸引了很多人撰寫自己的實現並開放 demo 供所有人嘗試，包括生成人臉（thispersondoesnotexist.com）、生成貓（thiscatsondoesnotexist.com）、生成二次元妹子（thiswaifudoesnotexist.net）、生成房間照片（thisairbnbdoesnotexist.com）的模型。

就在近期，包括論文原作者在內的 NVIDIA 實驗室研究人員們發表了 StyleGAN2 論文（Analyzing and Improving the Image Quality of StyleGAN，arxiv.org/abs/1912.04958），針對性地修正了 StyleGAN 生成的影像中的缺陷等問題、提高了影像中元素的一致性，從而把影像生成品質帶到了新的高峰。

論文地址：StyleGAN arxiv.org/abs/1812.04948

StyleGAN2 arxiv.org/abs/1912.04958

程式碼開源：https://github.com/NVlabs/stylegan2

[ 二 ]

論文：Bridging the Gap between Training and Inference for Neural Machine Translation ( ACL 2019 )

彌補神經機器翻譯模型訓練和推理之間的缺口

作者：中科院計算所智慧資訊處理重點實驗室，中國科學院大學，微信 AI 模式識別中心，伍斯特理工學院，華為諾亞方舟實驗室

推薦理由：神經機器翻譯模型的訓練方式是給定上下文，預測某一些被掩模的詞，但推理過程（真正的翻譯過程）是需要從零生成整個句子。這種偏差問題其實在序列到序列轉換任務中長期普遍存在。這篇論文就研究了這種偏差，並探討如何彌補這種偏差。

作者們提出的解決方案是，生成條件在「基於參考文本中的詞」和「解碼器自己的輸出中預選擇詞」兩種之間切換，論文的實驗做得非常完善，結果令人信服。根據 ACL 2019 論文獎評選委員會的意見，這種方法適用於當前的純學習訓練範式，也能為規劃取樣帶來改進；而且，這不僅可能影響本來針對的機器翻譯任務的未來研究和應用，也能用來普遍地改進其它的序列到序列轉換模型。這篇論文也被選為 ACL 2019 最佳論文。

論文地址：https://arxiv.org/abs/1906.02448

[ 三 ]

論文：Grandmaster Level in StarCraft II Using Multi-agent Reinforcement Learning ( Nature )

通過多智慧體強化學習在星際2中達到「Grandmaster」段位

作者：DeepMind Oriol Vinyals、Demis Hassabis、Chris Apps & David Silver 等

推薦理由：2019 年 1 月，DeepMind 開發的星際 2 AI「AlphaStar」首次亮相就擊敗了人類職業選手。雖然當時的比賽規則明顯對 AI 方有利，但我們已經感受到了 AI 並不是靠操作速度、而主要是靠優秀的策略取得勝利的。後來，在公平規則的、基於星際 2 天梯的大規模人機 1v1 比賽中，AlphaStar 繼續發揮出了優秀的表現，取得了「Grandmaster」段位，大概為所有活躍玩家的前 0.15%。這也成為了 AlphaStar 論文發表在《Nature》雜誌 2019 年 10 月刊所需要的最後一個實驗。

AI 在遊戲中勝過人類當然不是第一次了，不過 DeepMind 開發 AlphaStar 並不僅僅（和其它遊戲 AI 一樣）使用了大量的計算能力，他們使用的群體強化學習（群體進化、保留多種不同策略）等設計也改善了通常強化學習做法的問題，提高了智慧體在複雜環境中的表現。不完全資訊、高維連續行動空間的長序列建模問題的解決方案日趨成熟。

論文地址：https://www.nature.com/articles/s41586-019-1724-z

（開放閱讀版https://storage.googleapis.com/deepmind- media/research/alphastar/AlphaStar_unformatted.pdf）

詳細介紹：https://www.leiphone.com/news/201901/aDDh5MOlOsU22WvK.html

[ 四 ]

論文：Learning the Depths of Moving People by Watching Frozen People ( CVPR 2019 )

通過觀察靜止的人學習預測移動的人的深度

作者：Google AI 研究院 Zhengqi Li, Tali Dekel, Forrester Cole, Richard Tucker, Noah Snavely, Ce Liu, William T. Freeman

推薦理由：這篇論文要解決的任務「從單個攝影機估計運動物體的深度」乍看上去是無法完成的。這篇論文用了很巧妙的方法，一方面，作者們把 YouTube 上用戶們自己上傳的「時間靜止」影片作為數據集，它們提供了海量的、天然的、帶有人物的三維空間回放，經過傳統方法還原之後就可以作為標註數據，免去了採集之苦。這實際上提醒我們，除了用傳統眾包方法專門收集數據集之外，網路上還有許多公開數據經過處理以後也可以成為很有價值的訓練數據集。

另一方面，在用深度模型學習空間常識、學習預測深度的同時，作者們還增加了額外的結構讓網路能夠提取臨近的幀之間的變化資訊，提高了網路處理運動物體的能力。最終效果是，只需要單個攝影機視角的輸入，模型就可以輸出穩定、高準確率的三維深度預測，對於運動的物體也有很好效果。這篇論文也獲得了 CVPR 2019 最佳論文榮譽提名獎。

論文地址：https://arxiv.org/abs/1904.11111

詳細介紹：https://www.leiphone.com/news/201905/comu6TnFl5ejaAG1.html

程式碼開源：https://github.com/google/mannequinchallenge

[ 五 ]

論文：The Lottery Ticket Hypothesis：Finding Sparse, Trainable Neural Networks ( ICLR 2019 )

彩票假說：找到稀疏、可訓練的神經網路

作者：MIT 電腦科學與人工智慧實驗室 Jonathan Frankle, Michael Carbin

推薦理由：作為縮小網路體積、降低運算資源需求的技術路線，網路稀疏化和知識蒸餾一起得到了越來越多的關注。目前最常用的稀疏化方法是先訓練一個大網路然後剪枝，稀疏的網路也可以得到和稠密網路差不多的性能。

既然稀疏的網路可以有和稠密網路差不多的性能，這篇論文里作者們就提出一個大膽的假設，看作是想要的稀疏網路本來就在稠密網路里，我們只需要把它找出來就可以 —— 更具體地，如果從隨機初始化的網路隨機做 n 次迭代可以得到訓練好的稠密網路，從隨機初始化的網路里做類似數目的迭代也可以找到表現差不多的稀疏網路。只不過，找到那個稀疏網路非常依賴好的初始值，而想在隨機出好的初始值簡直就像抽彩票。這就是論文核心的「彩票假說」。

作者們設計了演算法確認「是否抽到了好的號碼」，也用一系列實驗驗證了假說、展示了好的初始值的重要性。甚至，從好的初始值出發得到的稀疏網路可以得到比稠密網路更好的表現。這篇論文獲得了 ICLR 2019 的最佳論文獎。

大膽的「彩票假說」立刻引發了激烈討論。作者們做了後續研究發表了 Stabilizing the Lottery Ticket Hypothesis（arxiv.org/abs/1903.01611）；Uber AI 實驗室發表了一篇論文 Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask（arxiv.org/abs/1905.01067）介紹了他們對這個現象的深入探究結果，揭示了「彩票假說」在碰運氣之外的合理性；論文 Sparse Networks from Scratch: Faster Training without Losing Performance（arxiv.org/abs/1907.04840）也緊接著提出「彩票假設」之類的稀疏網路生成方式計算代價太高，他們的新方法可以直接從稀疏的網路結構開始訓練，對計算資源需求更少、訓練更快，並達到和稠密網路相近的表現；FB 田淵棟組也發表了 One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers（arxiv.org/abs/1906.02773）並被 NeurIPS 2019 接收。

論文地址：https://arxiv.org/abs/1803.03635

詳細介紹：https://www.leiphone.com/news/201905/ZwDWnaSGZHDveLiO.html

程式碼開源：https://github.com/google-research/lottery-ticket-hypothesis

[ 六 ]

論文：On the Variance of the Adaptive Learning Rate and Beyond

關於自適應學習率的變化以及更多

作者：UIUC Liyuan Liu、韓家煒，微軟研究院高劍峰等

推薦理由：這篇來自韓家煒團隊的論文研究了深度學習中的變差管理。在神經網路的訓練中，Adam、RMSProp 等為了提升效果而加入了自適應動量的優化器都需要一個預熱階段，不然在訓練剛剛啟動的時候就很容易陷入不好的、可能有問題的局部最優，而這篇論文中提出的 RAdam 能為優化器提供好的初始值。藉助一個動態整流器，RAdam 可以根據變差大小來調整 Adam 優化器中的自適應動量，並且可以提供一個高效的自動預熱過程；這些都可以針對當前的數據集運行，從而為深度神經網路的訓練提供一個紮實的開頭。

同一時期還有另一篇研究改進優化過程的論文《LookAhead optimizer: k steps forward, 1 step back》（arxiv.org/abs/1907.08610），它的核心思路是維持兩套權重，並在兩者之間進行內插，可以說是，它允許更快的那一組權重「向前看」（也就是探索），同時更慢的那一組權重可以留在後面，帶來更好的長期穩定性。這種做法帶來的效果就是降低了訓練過程中的變差，就「減少了超參數調節的工作量」，同時「在許多不同的深度學習任務中都有更快的收斂速度、最小的計算開銷」（根據論文作者自己的介紹）。

這兩篇論文不僅都對神經網路的優化過程提出了有效改進，而且兩者還可以共同使用。這些成果都既增進了我們對神經網路損失空間的理解，還是非常有效的工具。

論文地址：https://arxiv.org/abs/1908.03265

程式碼開源：https://github.com/LiyuanLucasLiu/RAdam（RAdam），https://github.com/lonePatient/lookahead_pytorch/blob/master/（LookAhead）

詳細介紹：RAdam 和 LookAhead 可以合二為一 https://www.leiphone.com/news/201908/SAFF4ESD8CCXaCxM.html

[ 七 ]

論文：Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection ( CVPR 2019 )

Reasoning-RCNN: 在大規模目標檢測中應用統一的自適應全局推理

作者：華為諾亞方舟實驗室，中山大學

推薦理由：隨著目標識別的規模越來越大、粒度越來越細，類別不平衡、遮擋、分類模糊性、物體尺度差異性等等問題越來越明顯。我們很容易想到，人類視覺識別能力中的一個重要環節是「基於常識的推理」，比如辨認出了 A 物被 B 物遮擋之後，對這兩個物體的識別都能更準確。這篇論文就把這種思想融入到了 RCNN 模型中，作者們為模型設計了顯式的常識知識，並且用基於類別的知識圖把影像中物體的語義知識表示出來。

一方面，在感知模型中加入常識、加入基礎的推理能力是構建「視覺智慧」的趨勢；另一方面，其它研究者雖然在更早的研究里就提出過「從影像的目標識別生成關係圖」，但是關係圖生成了以後有什麼作用呢，這篇論文就展示了，可以用圖進一步改善目標識別任務本身的表現。

除此之外，作者們還做了許多改進，讓模型更適應大規模物體識別、增強階段之間的聯繫、優化識別效果。最終，模型的 mAP 在多個數據集上都有大幅提高。作者們的方法比較輕量，可以用在各種目標識別主幹網路上，也可以集成各種不同的知識來源。

論文地址：http://openaccess.thecvf.com/content_CVPR_2019/html/Xu_Reasoning-RCNN_Unifying_Adaptive_Global_Reasoning_Into_Large-Scale_Object_Detection_CVPR_2019_paper.html

程式碼開源：https://github.com/chanyn/Reasoning-RCNN

[ 八 ]

論文：Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning ( ICML 2019 )

在多智慧體強化學習中把社交影響作為固有動機

作者：MIT，DeepMind，普林斯頓大學

推薦理由：隨著多智慧體強化學習研究越來越多，為智慧體設計/讓智慧體學會行動協調和資訊交換成了一個重要課題。這篇論文中作者們的著力點就是在多智慧體環境下，讓智慧體從其他智慧體身上學會固有的社交動機。他們的方法是，如果一個智慧體能影響其他智慧體、讓它們在協同和溝通方面都有更好的表現，那就獎勵它。更具體地，作者們在論文中展示了，如果一個智慧體讓其他智慧體的行為發生了較大的改變，那獎勵它就更有可能鼓勵不同的智慧體之間有更多的共同資訊交換。這樣的機制會讓智慧體形成歸納偏倚，更有意願學會協同運動，即便這些智慧體都是各自獨立地訓練的。並且影響力的獎勵是使用一種分散式的方式來計算的，能夠有效解決突發通訊的問題。這篇論文獲得了 ICML 2019 最佳論文榮譽提名。

同期還有另一篇來自 Facebook AI 研究院的論文 Learning Existing Social Conventions via Observationally Augmented Self-Play （arxiv.org/abs/1806.10071）從另一個角度設計了協調機制：在加入一個團體之前，新的智慧體要通過觀察和重放機制學習這個團地當前的行為模式（人類角度的「風俗習慣」），讓自己能夠融入，避免加入團體之後它的策略無法得到獎勵（即便在無合作的競爭性環境下可以得到獎勵）。不過大概還是前一篇學會固有社交動機更高明一點？相比之下它可是明明白白地促進了智慧體都變得更協調、更主動溝通啊（笑）。

論文地址：https://arxiv.org/abs/1810.08647

[ 九 ]

論文：Weight Agnostic Neural Networks

權重無關的神經網路

作者：Google AI Adam Gaier 和 David Ha

推薦理由：現代的神經網路研究都有一個固定的模式，固定網路架構，通過優化尋找好的連接權重（訓練）。這種慣例也引發了一些討論，「如果我們把網路結構看作先驗，把連接權重看作學到的知識」，那麼我們能在多大程度上把知識以結構（先驗）的形式集成在模型中呢？以及這樣做是好還是壞呢？

這篇論文就是一次直接的探索，網路的訓練過程不是為了尋找權重，而是在相對固定且隨機的權重下尋找更好的網路結構。對於集成了好的先驗的網路結構，即便網路中所有的權重都統一且隨機的也能有好的表現；在此基礎上如果能允許分別優化不同的權重，網路的表現就可以更上一層樓。這種方式找到的先驗知識也會以網路結構的形式直接體現出來，有更好的可解釋性。

如果說「固定網路結構，尋找權重」和「固定權重、尋找網路結構」分別就像「氣宗」與「劍宗」，那麼現在雙方終於都登場了，我們可以期待未來有更多的好戲上演。

論文地址：https://arxiv.org/abs/1906.04358

詳細介紹：https://www.leiphone.com/news/201906/wMjVvtWT2fr8PcxP.html

程式碼開源：https://weightagnostic.github.io/

[ 十 ]

論文：XLNet: Generalized Autoregressive Pretraining for Language Understanding

XLNet：用於語言理解的通用自回歸預訓練

作者：CMU，Google AI

推薦理由：基於 BERT 的改進模型很多，XLNet 是其中非常成功的一個。XLNet 的改進重點在於，1，用基於輸入順序置換的新的掩模方式替代 BERT 的掩模+雙向預測（這種機制設計使得 BERT 更像是文本降噪模型，而在生成任務中表現不佳），2，使用了 token 內容和 token 位置分離的雙流自注意力機制，3，採用了和改進 2 匹配的新的掩模方式。這些設計讓 XLNet 兼具了序列生成能力（類似傳統語言模型）和上下文資訊參考能力。

再加上選用更大的訓練數據集、用更適應長序列的 Transformer-XL 作為主幹網路、訓練方式對掩模的利用率更高、允許部分預測訓練等改進，可以說 XLNet 相對於 BERT 的技術改進是從頭到尾的，在作者們測試的所有任務中都取得了比 BERT 更好的表現也是情理之中（雖然有一些任務中提升並不大）。

XLNet 這樣的模型出現代表著 NLP 預訓練模型越發成熟，適應的下游任務越來越多、表現越來越好；也代表著一個統一的模型架構就有可能解決各種不同的 NLP 任務。

論文地址：https://arxiv.org/abs/1906.08237

程式碼開源：https://github.com/zihangdai/xlnet

More ……

除此之外，以下這 10 篇論文也曾在我們的候選列表裡，它們各突出之處，我們列舉如下：

AI surpasses humans at six-player poker ( Science Magazine)
- https://science.sciencemag.org/content/365/6456/864
- 在 6 人德州撲克遊戲中勝過人類的撲克 AI（這也是 Science 雜誌總結的 2019 年 10 大科學突破第 10 名）
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
- https://arxiv.org/abs/1909.11942v1
- 簡化版 BERT，但不是簡單的縮小了事，他們用更少的參數獲得了更好的表現
A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction
- https://www.ri.cmu.edu/publications/a-theory-of-fermat-paths-for-non-line-of-sight-shape-reconstruction/
- 「非視線內的物體形狀重建」，也就是「如何看到牆角後面的東西」是這篇論文的研究課題。雖然這個任務略顯冷門，但這篇論文表明電腦視覺技術有潛力讓更多看似不可能的事情變得可能。獲得了 CVPR 2019 最佳論文
Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems ( ACL 2019 )
- https://arxiv.org/abs/1905.08743
- 面向任務的多輪對話系統通常會為不同的任務設計預定義的模版，但不同模版之間的數據共享、數據遷移是一大難點。這篇論文就提出了有效的知識追蹤、共享、遷移方法
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
- https://arxiv.org/abs/1811.06152
- 基於單視角影片，根據運動物體的移動解算三維空間結構的做法在傳統電腦視覺中就有很多研究，這篇論文里把它和深度學習結合以後帶來了更好的效果，作者們增加的在線學習能力也讓這個方法對不同的數據集、不同的場景有更好的適應性。
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
- https://arxiv.org/abs/1905.11946
- 研究 CNN 模型的縮放和可拓展性，用更小的模型得到更高的準確率，而且為不同規模的計算資源提供了一系列優化過的模型。ICML 2019 Spotlight 論文
Emergent Tool Use From Multi-Agent Autocurricula
- https://arxiv.org/abs/1909.07528v1
- 通過隱式的課程學習中，在一個具備互動和競爭機制的環境中，不同的智慧體之間可以持續地找到新任務，它們也就可以持續地學會新的策略
RoBERTa: A Robustly Optimized BERT Pretraining Approach
- https://arxiv.org/abs/1907.11692
- 專門研究 BERT 的預訓練過程並提出一種新的改進思路，用新的預訓練目標做更充分的訓練。也就是說，設計一個大模型容易，但還要想辦法確定是否已經訓練夠了。
SinGAN: Learning a Generative Model from a Single Natural Image
- https://arxiv.org/abs/1905.01164
- 這篇論文嘗試從單張影像學習 GAN，多種不同尺度的 GAN 組成的金字塔結構分別學習影像中不同大小的小塊，整個模型的學習效果得以同時兼顧影像中的全局結構和細節紋理。ICCV 2019 最佳論文
Towards Artificial General Intelligence with Hybrid Tianjic Chip Architecture
- https://www.nature.com/articles/s41586-019-1424-8
- 清華大學團隊設計的天機晶片用融合架構同時支援來自電腦科學的、基於數值的非線性變換的人工神經網路，以及來自神經科學的、基於訊號響應的脈衝神經網路。論文發表在 Nature 雜誌。

以上就是我們總結的十大精彩學術論文（以及同樣值得看看的另外十篇備選）。如果你有什麼不同的見解，歡迎留言和我們討論。