DeepMind AI 科學家:2020年NLP和ML領域十大研究進展

  • 2021 年 2 月 21 日
  • AI

編譯 | bluemin
編輯 | 陳大鑫

DeepMind NLP科學家Sebastian Ruder在這篇文章中概述了2020年機器學習和自然語言處理領域在10個振奮人心和影響深遠的研究方向上的進展。

註:領域和方法的選擇在很大程度上取決於作者自己的興趣;所選的主題偏向於表徵和遷移學習以及自然語言處理(NLP)。

作者試圖囊括知曉的全部論文,但未必會面面俱到,請讀者隨時在下方的評論區中補充相關要點。

總之,作者將討論以下研究亮點:

 1.大型高效的模型

 2.檢索增強 

 3.小少本樣學習 

 4.對比學習

 5.準確率不是模型評估的唯一指標 

 6.大型語言模型的實際應用問題

 7.多語種

 8.影像處理與Transformer模型

 9.自然科學與機器學習 

 10.強化學習

 

 1 

大型高效的模型

2018-2020年語言模型的規模發展圖(圖片來源:2020人工智慧發展報告)

2020年發生了什麼?

2020年見證了語言與對話模型的規模日益宏大,比如聊天機器人Meena 、圖靈-自然語言生成模型、BST模型和GPT-3模型。

與此同時,研究人員也逐漸意識到這些模型存在成本高和能源消耗大的問題,從而專註於設計規模更小的模型並取得了一定的進展:最新的方法依賴於剪枝、量化、蒸餾和壓縮。其他方法側重於提高Transformer架構本身的效率。這一系列的模型包括Performer和Big Bird,如上方的封面圖片所示。封面圖中顯示了在Long Range Arena基準下不同模型的性能(y軸)、速度(x軸)和記憶體佔用(圓圈大小)情況。

實驗衝擊跟蹤器等工具的應用令模型的能源效率追蹤變得輕而易舉。這些工具的應用也促進了主要基於效率評估模型的競賽和基準環境的發展,如EMNLP 2020的SustaiNLP研討會、NeurIPS 2020的高效問答競賽和HULK基準平台。 

為何如此重要?

擴大模型規模使我們能夠不斷突破現有模型的極限。然而,為了在真實場景中實現部署和應用,這些模型必須高效。最終,這兩個方向相得益彰:壓縮大型模型催生出具有強大性能的高效模型,而更有效的方法可能會推動性能更強、規模更大的模型的發展。

未來趨勢如何?

作者希望,隨著人們對效率和工具可用性的日益關注,研究重點將不僅僅局限於模型的性能和參數數量,對能源效率的關注會更加普遍。這有助於人們進行更全面的評估,進一步彌合機器學習研究與實際應用之間的差距。

  

 2

檢索增強

利用REALM進行無監督預訓練;檢索器和編碼器實行聯合預訓練

2020年發生了什麼?

大型模型從預訓練數據中學到了驚人數量的全局知識,這使其可以重現事實,甚至在沒有外部上下文語境的情況下也可以回答問題。

但是,將這些知識隱式存儲在模型的參數中效率很低,並且需要越來越大的模型來保留更多資訊。取而代之的是,最新的方法聯合訓練了檢索模型和大型語言模型,這在知識密集型自然語言處理任務(如開放域問答和語言建模)上成果卓著。

這些方法的主要優點是將檢索直接集成到語言模型的預訓練中,從而使語言模型能夠更有效地減少事實記憶,專註於學習自然語言理解中更具挑戰性的概念。因此,NeurIPS 2020高效問答競賽中的最佳系統全依賴於檢索。 

為何如此重要?

檢索是許多生成任務的標準,例如文本摘要或對話,並且在很大程度上已被抽象生成所取代。檢索增強生成能夠將兩個方面的優點結合起來:檢索片段的事實正確性和可靠性以及所生成文本的相關性和構成性。

未來趨勢如何?

檢索增強生成對於處理過去困擾生成神經模型的失敗案例行之有效,例如處理幻覺。通過直接為系統的預測提供證據,從而可能有助於提高系統的可解釋性。

 3 

少樣本學習

基於提示的微調使用模板化提示和演示

2020年發生了什麼?

在過去的幾年中,由於預訓練的進步,執行給定任務的訓練示例的數量逐漸減少。我們現在處於可以使用數十個示例來演示給定任務的階段。

少樣本學習的一個非常自然的範例是將任務重構為語言建模。這方面最突出的實例是GPT-3的上下文學習方法,它基於模型上下文中輸入-輸出對的一些演示數據以及沒有任何梯度更新的提示來進行預測。但是,此設置存在一些局限性:上下文學習方法需要一個規模龐大的模型(在沒有任何更新的情況下,模型需要依賴現有的知識),該模型可以使用的知識量受到其上下文窗口的限制,並且提示需要手工設計。

最近的研究試圖通過利用更小的模型、集成微調和自動生成自然語言提示使這種小樣本學習更有效。這項工作與可控神經文本生成的更廣泛領域密切相關,該領域尋求廣泛地利用強大的預訓練模型的生成能力。獲取精彩概述,請查閱Lilian Weng的部落格文章。 

少樣本學習可以使模型快速適應許多任務。更新每個任務的全部模型參數是一種浪費。取而代之的是,最好進行局部更新,對一小部分參數進行集中更改。有幾種方法使這種有效的微調更加實用,包括使用adapter、添加稀疏參數向量和僅修改偏差值。

為何如此重要?

僅僅根據幾個範例教會模型完成一項任務,大大降低了在實踐中應用ML和NLP模型的門檻。這使模型能夠快速適應新的領域,在數據收集成本非常高的情況下為應用的可能性開闢了道路。

未來趨勢如何?

對於許多實際場景,可以收集成千上萬的訓練示例。

因此,模型應該能夠在小樣本學習和大規模樣本學習間無縫切換,並且不應受到如上下文長度的限制。鑒於在整個訓練數據集上進行微調後,模型已經在許多熱門任務(例如SuperGLUE)上實現了超越人類的性能,因此提高其小樣本學習的性能是一個自然而然地需要改進的領域。

 

 4 

對比學習

實例判別將同一影像的不同變換之間的特徵相互比較

2020年發生了什麼?

對比學習——學習區分正樣本和負樣本(通常是雜訊分布)——例如,使用負取樣或雜訊對比估計是表徵學習和自監督學習的主要內容,也是word2vec等經典方法的重要組成部分。近期,對比學習在電腦視覺和語音的自監督表徵學習中占流行趨勢。新一代日益強大的用於視覺表徵學習的自監督方法,依賴於使用實例辨別任務的對比學習:不同的影像被視為負樣本對,同一影像的視圖被視為正樣本對。最新的方法進一步完善了這一總體框架:SimCLR定義了增強示例的對比損失,動量對比度旨在確保有大量且一致的樣本對,SwAV利用在線聚類,BYOL僅採用正樣本對。Chen and He (2020)進一步提出了一種與先前方法有關的更簡單的表述。

最近,Zhao et al. (2020) 發現數據增強對於對比學習至關重要。這可能解釋了在數據增強不太普遍的NLP中,使用大型預訓練模型進行無監督的對比學習失敗的原因。他們還假設,在電腦視覺中,實例判別比有監督的預訓練效果更好的原因是,實例判別不會嘗試使一個類中的所有實例的特徵相似,而是保留每個實例的資訊。這在NLP中不成問題,因為無監督的預訓練涉及對成千上萬個單詞類型進行分類。在NLP中,Gunel et al. (2020) 最近採用對比學習進行監督微調。

為何如此重要?

語言模型中常用的獨熱標籤和模型輸出對數之間的交叉熵目標存在一些局限性,例如對不平衡類的泛化能力很差。對比學習是一種替代性的補充範式,可以幫助緩解其中的某些不足。

未來趨勢如何?

對比學習與掩碼語言建模相結合可以使我們學習到更豐富、更魯棒的表徵。它可以幫助對異常值和罕見的句法和語義現象進行建模,這是當前NLP模型的一個挑戰。

 

 5 

準確率不是模型評估的唯一指標

情感分析中否定理解的檢查表模板與測試

2020年發生了什麼?

NLP中的SOTA模型已在許多任務上實現了超越人類的性能。

無論我們是否相信這樣的模型能夠實現真正的自然語言理解,我們知道當前的模型對此目標仍是望塵莫及。但是,我們任務的簡單性能指標無法捕獲現有模型的局限性。

該領域有兩個關鍵主題:

a)策劃當前模型難以實現的示例;

b)不只選擇諸如準確率之類的簡單指標,而要進行更細粒度的評估。 

對於前者,常用的方法是在數據集創建過程中使用對抗性過濾,以過濾出當前模型正確預測的示例。最近的工作提出了更有效的對抗性過濾方法和迭代數據集創建過程,其中對示例進行了過濾並且模型經過多輪訓練。Dynabench平台提供了此類不斷發展的基準測試的子環境。

關於第二點的方法在本質上是相似的。但是,不是創建針對特定模型的示例,而是使用示例來探索感興趣的任務所共有的現象。通常,創建最小對立體(也稱為反事實示例或對比集),以最小化的方式干擾示例,並經常更改重要的標籤。Ribeiro等人(2020) 在其CheckList框架中將一些基本的直覺資訊公式化,這使得這種測試用例的半自動創建成為可能。或者,可以基於不同的屬性來刻畫示例,從而可以對模型的優缺點進行更細粒度的分析。

為何如此重要?

為了在建立更有效的機器學習模型方面取得有意義的進展,我們不僅需要了解一個模型是否優於先前的系統,還需要了解它會產生什麼樣的錯誤以及它無法捕捉到哪些現象。

未來趨勢如何

通過對模型行為進行細粒度診斷,將更容易識別模型的缺陷並提出相應的解決方案。同樣,細粒度的評估可以更細緻地比較不同方法的優缺點。


 6 

大型語言模型的實際應用問題

模型根據看似無害的提示產生有害內容

2020年發生了什麼?

與2019年相比,語言模型(LMs)的分析主要集中在此類模型所捕獲的句法、語義和全局知識方面(請參見 (Rogers et al., 2020) 了解詳細概述),最近的分析揭示了一些實際問題。研究發現,預訓練的語言模型容易生成有害語言和泄漏資訊,微調後容易受到後門攻擊,從而使攻擊者操縱模型的預測結果,並且易受模型和數據提取攻擊的侵害。此外,眾所周知,經過預訓練的模型可能捕獲有關受保護屬性(例如性別)的偏見,請參見 (Sun et al., 2019) 關於緩解性別偏見的優秀調查。

為何如此重要?

大型的預訓練模型受到許多研究機構的訓練,並在實際場景中得到積極部署。因此,我們不僅要意識到模型存在的偏見問題,知道哪種行為可能會產生實際有害的後果更是重中之重。 

未來趨勢如何?

隨著規模更大、效力更強的模型的開發,從一開始就將這些實際憂思以及與偏見和公平相關的問題納入開發環節非同小可。

 7 

多語種

世界各地標註和未標註語言數據的不平等分布圖。

2020年發生了什麼?

2020年在多語種NLP領域有許多研究亮點。Masakhane組織的使命是推動非洲語種的NLP研究,該組織在第五屆機器翻譯會議(WMT20)上發表了主題演講,這是去年最鼓舞人心的演講之一。其他語言的新通用基準相繼湧現,包括XTREME、XGLUE、IndoNLU和IndicGLUE 。以其他語言複製的現有數據集以及它們的非英語變體包括:

SQuAD數據集:跨語言問答數據集XQuAD、多方向對齊提取問答數據集MLQA 和法語問答數據集FQuAD;

自然問題:類型多樣化語言問答系統TyDiQA,多語種知識問答系統MKQA;

多體裁自然語言推理:原始中文自然語言推理數據集OCNLI,針對波斯語言的自然語言推理數據集FarsTail;

計算自然語言學習-09數據集:X-SRL數據集; 

美國有線電視新聞網/每日郵報數據集:多語種概要數據集MLSUM。

通過Hugging Face數據集可以輕鬆訪問上面列舉的許多數據集以及許多其他語種的數據集。涵蓋了約100種語言的強大的多語言模型應運而生,包括XML-R、RemBERT 和 InfoXLM等等(有關概述,請參閱XTREME排行榜)。已經針對英語以外的語言訓練了大量特定於語言的BERT模型,如AraBERT和IndoBERT ;有關概述,請參閱 (Nozza et al., 2020; Rust et al., 2020)。藉助AdapterHub,Stanza和Trankit等高效的多語種框架,世界上許多語言的建模和應用將輕而易舉。

最後,今年激發作者在這一領域思考的兩篇立場論文是:《The State and Fate of Linguistic Diversity and Inclusion in the NLP World》和《Decolonising Speech and Language Technology 》。第一篇強調了研究英語以外的語言的緊迫重要性,第二篇則告誡人們不要把語言社區及其數據當作一種商品。

為何如此重要?

從事英語以外的NLP研究受益匪淺:不僅給ML和NLP領域帶來了有趣的挑戰,尤其是在其他方面也對社會產生了巨大的影響。

未來趨勢如何?

鑒於不同語種的數據和模型的可用性,這一階段將在英語以外的語言方面取得有意義的進展。最振奮人心的是開發出能夠應對最具挑戰性的環境的模型,並確定在哪些情況下,我們當前模型所依據的假設會失敗。


 8 

影像處理與Transformer模型

視覺Transformer模型將Transformer 編碼器應用於扁平化的影像塊。 

2020年發生了什麼?

儘管Transformer模型在NLP中取得了巨大的成功,但直到最近,它們在電腦視覺領域的成就仍然不高,而卷積神經網路(CNN)仍然佔據著主導地位。雖然早期的模型如DETR採用CNN計算影像特徵,但後來的模型完全沒有應用卷積。影像GPT模型將GPT-2方法直接應用於像素的預訓練,其性能優於有監督的Wide ResNet。後來的模型都將影像重塑為影像塊,這些影像塊被視為「token」。

Vision Transformer模型在數百萬個標記影像上進行了預訓練,每個影像均由此類影像塊組成,其性能優於最新的CNN模型。Image Processing Transformer模型通過對比損失對受損的ImageNet示例進行預訓練,並在低級影像任務上實現了SOTA性能。

Data-efficient image Transformer模型利用蒸餾方法在ImageNet數據集上進行預訓練。有趣的是,他們發現CNN是更好的老師。這一發現類似於將歸納偏置蒸餾到BERT模型中。與語音相反,Transformer模型並未直接應用於音頻訊號領域,而是通常接收編碼器(例如CNN等)的輸出作為輸入。

為何如此重要?

與CNN和RNN相比,Transformer模型的歸納偏置更弱。雖然理論上不如RNN強大,但給定充分的數據和龐大的規模,事實證明,Transformer模型最終超越了歸納偏置較強的「競爭對手」(請參閱 The Bitter Lesson)。

未來趨勢如何?

我們可能會看到Transformer模型在電腦視覺領域方興未艾。Transformer模型將特別適用於算力充足、數據充分的無監督預訓練場景。但在規模較小的環境中,CNN可能仍將是首選方法,並且是可靠的基準。

 

 9 

自然科學與機器學習

基於自注意力機制的AlphaFold體系結構(圖片來源:DeepMind部落格)

2020年發生了什麼?

亮點之一是AlphaFold在一年兩屆的CASP蛋白質摺疊挑戰賽中大放異彩。除此之外,在將ML應用於自然科學中的問題方面還有其他一些值得關注的進展。MetNet在降水預報方面優於數值天氣預報, Lample 和 Charton 使用神經網路求解微分方程的效果優於商業電腦代數系統,Bellemare 等人使用強化學習在平流層中導航氣球。

此外,ML已被廣泛用於幫助應對仍在持續的COVID-19大流行,例如預測COVID-19的傳播情況,預測與COVID-19相關的結構,將相關數據翻譯成35種不同的語言,以及實時回答有關COVID-19的問題。欲了解與COVID-19相關的NLP應用的概述,請查閱第一屆COVID-19 NLP研討會的論文集。

為何如此重要?

自然科學可以說是ML最有影響力的應用領域。自然科學的進步惠及生活的許多方面,並且可以對世界發展產生深遠的影響。

未來趨勢如何?

隨著蛋白質摺疊等核心領域的進步,ML在自然科學中的應用速度只會加快馬加鞭。期待對世界上產生積極影響的更多基本進展不斷湧現。

 

 10 

強化學習

與最先進的智慧體相比,就遊戲場數而言,整個訓練過程中Agent57和MuZero在Atari遊戲上的表現均優於人類基準。

2020年發生了什麼?

單一的深度強化學習智慧體——Agent57,第一次在全部57款Atari遊戲中都取得了超越人類的性能,這是深度強化學習文獻中的長期基準。智慧體的多功能性源自神經網路,該神經網路使智慧體在探索性策略和利用性策略之間自由切換。另一個里程碑是MuZero的開發,它預測了對精確規劃最重要的環境方面的內容。在沒有任何遊戲動態知識的情況下,MuZero在Atari遊戲上實現了SOTA性能,在圍棋、象棋和將棋上也實現了超越人類的性能。最後,Munchausen 強化學習智慧體基於樸素的、理論上成立的修改對SOTA智慧體進行了改進。

為何如此重要?

強化學習演算法具有許多實際意義。通過實現更好的規劃、環境建模和動作預測,對該領域中基本演算法的改進可能會產生很大的實際影響。

未來趨勢如何?

隨著經典的基準測試問題(如Atari遊戲)基本得到解決,研究人員可能會尋找更具挑戰性的環境來測試他們的演算法,例如推廣到外分布任務,提高樣本效率,多任務學習等。

原文鏈接: //ruder.io/research-highlights-2020/

點擊閱讀原文,直達AAAI小組!

由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。