Google研究員 Sebastian Ruber：線下參加 ACL 2022，我可太開心了！

2022 年 6 月 15 日
AI

作者 | Sebastian Ruder

編譯 | Antonio

編輯 | 陳彩嫻

今年 ACL 線下召開，Google研究員Sebastian Ruber也到現場參會了！

ACL 2022的舉辦地點是都柏林，Sebastian Ruber位於Google倫敦，過去不遠。ACL之行結束後，他興緻沖沖地寫下了他的參會感受，分享了他對幾個學術動態的關注，包括：1）語言多樣性和多模態；2）提示學習；3）AI 的下一個熱點；4）他在大會中最喜歡的文章；5）語言和智慧的黑物質；6）混合式個人體驗。

以下AI科技評論對他的分享做了不改變原意的整理與編輯：

語言多樣性和多模態

圖註：ACL 2022 主題演講小組討論支援語言多樣性的小組成員及其語言

ACL 2022 有一個主題為「語言多樣性：從低資源到瀕危語言」的主題賽道。除了賽道上的優秀論文，語言多樣性也滲透到了會議的其他部分。史蒂文·伯德（Steven Bird）主持了一個關於語言多樣性的小組討論，其中研究人員會講和研究代表性不足（under-represented）的語言。小組成員分享了他們的經驗並討論了語言之間權力動態等話題。他們還提出了切實可行的建議，以鼓勵在此類語言上開展更多工作：創建數據資源；為資源匱乏和瀕危語言的工作建立會議軌道；並鼓勵研究人員將他們的系統應用於低資源語言數據。他們還提到了一個積極的進步，即研究人員越來越意識到高品質數據集的價值。總體而言，小組成員強調，使用此類語言需要尊重——對說話者、文化和語言本身。

瀕危語言也是 Compute-EL研討會的重點。在頒獎典禮上，最佳語言洞察論文提出了KinyaBERT，這是一種利用形態分析器為基尼亞盧安達語（Kinyarwanda）預訓練的模型。而最佳主題論文為三種加拿大土著語言開發了語音合成模型。後者提供了一個多模態資訊【譯者註：此處的多模態是指語言的不同形態的資訊，例如語音、文字、手語等等】如何有益於語言多樣性的一個例子。

最佳語言洞察論文：KinyaBERT: a Morphology-aware Kinyarwanda Language Model

地址：//aclanthology.org/2022.acl-long.367.pdf

最佳主題獎：Requirements and Motivations of Low-Resource Speech Synthesis for
Language Revitalization

地址：//aclanthology.org/2022.acl-long.507.pdf

其他多模態論文利用電話表示來提高斯瓦希里語和基尼亞盧安達語[1]中的實體識別任務的性能。對於低資源的文本到語音，也有工作[2]使用發音特徵，例如位置（例如，舌頭的正面）和類別（例如，濁音），這些特徵可以更好地泛化到訓練集中沒有見到過的音素。一些工作還探索了新的多模態應用程式，例如檢測美國手語中的手指拼寫[3]或為聲調語言翻譯歌曲[4]。

多語言多模態研討會在MaRVL數據集上主持了一項關於多語言視覺基礎推理的共享任務。看到這種多語言多模態方法的出現特別令人鼓舞，因為它比前一年的 ACL 有所改進，其中多模態方法主要處理英語。

之後作者也受邀做了關於「將NLP系統拓展到下1000種語言」的口頭彙報。

圖註：Sebastian Ruder在ACL 2022上現場做的彙報

在受邀演講中，作者除了介紹將NLP 系統擴展到下1000 種語言的三個其他挑戰，即計算效率、真實語料上的評估以及語言變種（如方言）之外，他還強調了多模態的重要性。多模態也是由Mona Diab宣布的ACL 2022D&I特別倡議「60-60通過本地化實現全球化」的核心。該計劃的重點是使計算語言學（CL）的研究能夠同時被60 種語言應用，並且包括文本、語音、手語翻譯、隱藏式字幕和配音在內的所有模態。該計劃的另一個有用方面是整理最常見的CL術語並將其翻譯成 60 種語言，而缺乏準確的科學術語表達對許多語言在CL的發展造成了障礙。

代表性不足的語言通常幾乎沒有可用的文本數據。兩個教程側重於將模型應用於此類低資源語言種。（1）使用有限文本數據進行學習的教程討論了數據增強、半監督學習和多語言應用，而（2）使用預訓練語言模型的零樣本和少樣本NLP教程涵蓋了提示、上下文學習、基於梯度的LM任務遷移等。

教程（1）：使用有限文本數據進行學習，一作為華人學者楊笛一

教程鏈接：//github.com/diyiy/ACL2022_Limited_Data_Learning_Tutorial

教程（2）：零樣本、少樣本數據進行預訓練

教程鏈接：//github.com/allenai/acl2022-zerofewshot-tutorial

如何在不同語言中以最佳方式表示token是一個懸而未決的問題。一些工作採用了幾種新方法來克服這一挑戰。最佳語言洞察論文KinyaBERT利用了形態學分詞方法。類似地，霍夫曼等人[5]提出了一種方法，旨在在標記化（tokenization）過程中保留單詞的形態結構。該演算法通過確定辭彙表中最長的子字元串來標記一個單詞，然後在剩餘的字元串上遞歸。

圖註：KinyaBERT模型結構

Patil等人[6]並沒有選擇在多語言預訓練數據中頻繁出現的子詞（這會使模型偏向於高資源語言），而是提出一種更偏向那些多種語言共享的子詞的方法。CANINE[7]和 ByT5[8]都完全取消了標記化，直接對位元組進行操作。

通常情況下，語言不僅在言語形式上有所不同，而且在文化上也有差異，其中包括說話者的共同知識、價值觀和目標等。赫什科維奇等人[9]對——什麼對於跨文化NLP的很重要——這一問題提供了一個很好的概述。舉例來說，考察一種特定文化下和時間有關的語言表達，例如早晨，在不同語言中它可能指的是不同時間。

圖註：不同文化語境下可能會變化的四個維度：言語形式、目標價值、共有知識和側重傳達的內容

除了上述提到的文章，作者還羅列了他自己比較喜歡的文章：

面向非洲語言的以非洲為中心的 NLP：我們在哪裡以及我們可以去哪裡。

文章討論了NLP對非洲語言的挑戰，並就如何應對這些挑戰提出了切實可行的建議。它突出了語言現象（語調、母音和諧和連續動詞構建）和非洲大陸的其他挑戰（識字率低、正字法不標準化、官方語境中缺乏語言使用）。

文章鏈接：//aclanthology.org/2022.acl-long.265/

品質概覽：網路爬取的多語言數據集的審查。

這篇論文剛出版時，作者就寫過它。文章對涵蓋 70 種語言的大規模多語言數據集進行了仔細審核，並發現了許多以前未被注意到的數據品質問題。它強調了許多低資源語言數據集品質低下，一些數據集的標記甚至完全是錯誤的。

文章鏈接：//direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00447/109285/Quality-at-a-Glance-An-Audit-of-Web-Crawled

多語言模型零樣本性能預測的多任務學習。

我們想知道模型的性能如何如果將它遷移到一種新語言，這可以有助於告知我們在新語言任務中需要多少訓練數據。文章通過聯合學習預測跨多個任務的性能，使性能預測更加穩健。這還可以分析在所有任務上，影響零樣本遷移的特徵。

文章鏈接：//aclanthology.org/2022.acl-long.374/

而以下則是作者參與的和這個領域相關的論文：

一個國家，700多種語言：NLP對於印度尼西亞的代表性不足語言和方言的挑戰。

文章提供了對於印度尼西亞中的700多種語言在NLP上的挑戰的概覽（印度尼西亞是全世界語言多樣性方面第二多的國家）。這其中包含各種各樣的方言、說話風格的差異、相互混合以及正字法的變化。作者們做出了實用性的建議，包括方言文本化，並將資訊錄入到資料庫中。

文章鏈接：//aclanthology.org/2022.acl-long.500/

通過辭彙方面的適應手段，將預訓練模型拓展到上千種更多的語言。

作者分析了不同的利用雙語預料來為低資源語言訓練合成數據的策略，並分析了如何把合成的數據和現有的數據結合（如果有的話）。文章結果發現，這要比直接翻譯合成的數據效果要好（針對這些低資源語言的神經翻譯模型也往往做的不好）。

文章鏈接：//aclanthology.org/2022.acl-long.61/

NLP研究的單維偏差：朝向一個多維NLP研究的探索。

這是一篇綜述反省性的文章，作者們定義一個稱作「單一角落」（Square one）的NLP原型研究趨勢，並通過檢驗461篇ACL『21的做了口頭彙報的論文，發現現在的NLP儘管已經超越了這一趨勢，卻還是存在研究維度單一的問題。他們發現幾乎70%的文章僅僅使用英語進行評估，幾乎40%的文章僅僅評估性能。僅僅6.3%的文章評估公正性、偏差等方向，以及僅6.1%的文章是「多維度」的，也就是他們在2個及以上的維度上都做了分析。

ACL』21文章研究內容的分類可視化，聚集現象表明研究的單一性

論文地址：//aclanthology.org/2022.findings-acl.184/

2

提示學習（Prompt）

提示學習是另一個受到廣泛關注的領域。最好的演示樣例是由清華大學開發的OpenPrompt，這是一個用於提示學習的開源框架，可以輕鬆定義模板和語言器（verbalizer），並將它們與預訓練好的模型相適配。

圖註：OpenPrompt中與prompt相關的組件

一個常見的研究思路是將外部知識納入學習過程中。Shengding Hu[10]等人建議用知識庫中的單詞擴展語言器。Jiacheng Liu[11]等人先使用語言模型在少量樣本的設置中生成相關的知識陳述，然後使用第二個語言模型來回答常識性問題。我們還可以通過修改訓練數據來整合額外的知識，例如，通過在實體之後插入元數據字元（例如，實體類型和描述）[12]。

其他論文則提出了一些適合於特定應用的提示。Reif等人[13]提出一個可以處理帶有不同風格例子的模型，用於風格遷移；而 Tabasi 等人[14]使用語義相似性任務的相似性函數得到特殊符號[MASK]標記的詞嵌入。Narayan等人[15]則通過預測目標摘要之前的實體鏈來引導摘要模型（例如，「[ENTITYCHAIN] Frozen | Disney「），如下圖所示。Schick等人[16]用包含某個屬性的問題提示模型（例如，「上述文本是否包含威脅？」）以診斷模型生成的文本是否具有攻擊性。Ben-David等人[17]生成域名和域相關特徵作為域適配的提示。

圖註：Narayan等人[16]則通過預測目標摘要之前的實體鏈來引導摘要模型

在和視覺相關的多模態設定中進行提示學習也受到了一些關注。Jin等人[18]分析了多樣的提示在少樣本學習設定中的影響。Haoyu Song等人[19]使用CLIP探討了視覺-語言領域下的小樣本學習。他們使用T5模型根據視覺問答的問題生成提示，並使用語言模型過濾掉不可能的答案。然後將提示與目標影像配對，並使用 CLIP計算影像-文本對齊分數。如下圖所示。

圖註：Haoyu Song等人[19]使用T5模型產生prompt，並用CLIP得到影像文本匹配程度

最後，有幾篇論文試圖更好地理解提示學習。Mishra等人[20]探索重新構建指令的不同方法，例如將複雜任務分解為幾個更簡單的任務或逐條列出指令。Lu等人[21]分析模型對少樣本順序的敏感性。由於沒有額外的開發數據就無法確定最佳排列，因此他們使用語言模型本身生成合成開發集，並通過熵確定最佳示例順序。

以下論文是與作者合作的與少樣本學習有關的工作：

FewNLU：對少樣本自然語言理解的SOTA方法進行基準測試。

文章引入了一個評估框架，使小樣本評估更加可靠，包括新的數據拆分策略。我們在這個框架下重新評估了最先進的小樣本學習方法。我們觀察到某些方法的絕對和相對性能被高估了，並且某些方法的改進會隨著更大的預訓練模型而降低，等等。

文章鏈接：//aclanthology.org/2022.acl-long.38/

預訓練語言模型中的記憶與泛化。

我們研究最先進的預訓練模型的記憶和泛化行為。我們觀察到當前模型甚至可以抵抗高度的標籤雜訊，並且訓練可以分為三個不同的階段。我們還觀察到，預訓練模型的遺忘比非預訓練模型要少得多。最後，我們提出了一個擴展，以使模型對低頻模式更具魯棒性。

文章鏈接：//aclanthology.org/2022.acl-long.521/

下一個大熱點

圖註：「下一個大熱點」（Next Big Ideas）會談現場

作者專門提到了他最喜歡的會議之一是Next Big Ideas，這是會議組織者開創的一種新形式。該會議的特色是高級研究人員對重要的研究方向提出了有見地的看法。

對作者而言，本次會議中突出的兩個主題是：結構（structure）和模組化（modularity）。研究人員強調需要提取和表示結構化資訊，例如關係、事件和敘述。他們還強調了思考這些是如何表示的重要性——通過人類定義和適當模式的設計。許多主題需要處理多個相互依賴的任務，無論是故事理解、推理還是模式學習。這將需要多個模型或組件相互連接。（如果讀者想了解有關模組化方法的更多資訊，作者將在EMNLP 2022上介紹一個何NLP 模型的模組化和參數高效微調的教程。）總的來說，這些研究提案勾勒了一個令人信服的願景，即 NLP 模型以結構化、多智慧體的方式提取、表示和推理複雜的知識。

Heng Ji 在該會議開始時熱情地呼籲NLP模型有更多的結構表示。她強調（從當前的句子級和文檔級資訊提取）轉向語料庫級資訊提取，並注意到從其他類型的文本，例如科學文章以及低資源語言，中提取關係和結構。在多模態設定下，影像和影片可以轉換為視覺token，之後組織成結構，並使用結構化模板進行描述。提取的結構可以進一步泛化為模式和事件模式。我們可以通過將結構嵌入到預訓練模型中來表示結構，通過圖神經網路或通過全局約束對其進行編碼。

Mirella Lapata 討論了故事，以及我們為什麼應該關注它們。故事有形式、結構和反覆出現的主題，這是自然語言理解（NLU）的核心。它們還與許多實際應用相關，例如問答和摘要。為了處理故事，我們需要進行半監督學習和訓練模型，以便可以處理很長的輸入或者多個相互依賴的任務（例如建模角色、事件、時間性等）。這需要模組化的模型以及在閉環包括人類協作。

Dan Roth 強調了基於NLU做出決策推理的重要性。鑒於推理過程的多樣性，這需要多個相互依賴的模型和確定一個與哪些模組相關的規划過程。我們還需要能夠推理時間和其他物理量。為此，我們需要能夠提取、上下文化（contextualize）和搜尋相關資訊，並為推理過程提供解釋。為了監督模型，我們可以使用附帶監督，例如可比較的文本。

Thamar Solorio 討論了如何為世界上一半的多語言人口和經常使用語言轉換的人口提供服務。相比之下，當前的語言技術主要迎合單語使用者。通常使用語言轉換的非正式環境變得越來越重要，例如在聊天機器人、語音助手和社交媒體的背景下。她指出了諸如資源有限、對話數據中的「噪音」以及音譯數據問題等挑戰。我們還需要確定相關用途，因為語言轉換並非在所有 NLP 場景中都相關。最終，「我們需要能夠代表人們使用語言的實際方式的語言模型」。

Marco Baroni 專註於模組化。他提出了一個研究願景，即一個凍結的預訓練網路通過自主地相互交互來共同解決新任務。他建議模型應該通過一個易於推廣的學習介面協議進行通訊。

Eduard Hovy 敦促我們重新發現對錶征和知識的需求。當知識很少或從未出現在訓練數據中時，例如隱式知識，模型不會自動學習到它。為了填補這些空白，我們需要定義一組我們關心的人類目標以及捕捉未說或將要說的內容的模式。這需要將學習的流程發展為一組相互關聯的流程，例如在大流行背景下患者、流行病學家和病原體的流程。同樣，為了捕捉群體中人們的角色，我們需要人為的定義和指導。總體而言，他鼓勵社區構建可以被模型學習到的拓撲結構。

最後，李航強調了符號推理的必要性。他為NLU提出了一種神經符號架構，該架構結合了通過預訓練模型進行的類比推理和通過符號組件進行的邏輯推理。

除了 Next Big Ideas會議外，會議還包括早期職業研究人員的演講。作者有幸與Eunsol Choi、Diyi Yang、Ryan Cotterell 和 Swabha Swayamdipta等優秀的年輕研究人員一起發言。他希望未來的會議將繼續採用這些格式，並與其他人一起進行試驗，因為它們帶來了新的視角並為研究提供了更廣闊的視野。

語言和智慧的暗物質

圖註：Yejin Choi教授推測ACL 2082可能是什麼樣的

Yejin Choi教授發表了一個鼓舞人心的主題演講。除此之外，這是我看到的第一個使用DALL-E 2來繪製幻燈片的演講。她通過類比物理學強調了 NLP 的三個重要研究領域：模糊性、推理和隱含資訊。

在現代物理學中，更深入的理解往往會導致模糊性增加（例如，參見薛定諤的貓或波粒二象性）。Yejin同樣鼓勵ACL社區接受模糊性。過去，研究者往往不去做未達到高度注釋者間一致性的任務；同樣，在傳統的情感分析中，中性類經常被丟棄。理解不能僅僅局限於簡單的類別。帶有注釋者意見偏見的語言模型和模稜兩可的例子提高了泛化能力。

與時空的概念相似，Yejin認為語言、知識和推理也不是獨立的領域，而是存在於一個連續統一體上。maieutic提示等推理方法[22]允許我們通過遞歸生成解釋來研究模型知識的連續性。

最後，類似於暗物質在現代物理學中的核心作用，NLP 未來的研究應該關注語言的「暗物質」，即世界運作的潛規則，它影響人們使用語言的方式。我們應該立志嘗試教給模型，例如默認規則、價值觀和目標。

Yejin坦率地總結了導致她成功的因素：謙虛、向他人學習、冒險；但也很幸運並在一個包容的環境中工作。

關於本次會議的體驗

圖註：都柏林會議中心，ACL 2022 的舉辦地

作者直言他非常喜歡面對面的會議體驗。會議期間有嚴格的戴口罩要求。唯一的問題是在全體會議和主題演講中出現了一些技術問題。

另一方面，作者也發現很難將面對面的會議體驗與虛擬會議體驗相協調。虛擬的海報會議往往與早餐或晚餐時間重疊，這使得參加會議變得困難。據我所知，許多虛擬海報會議的觀眾幾乎是空的。看來我們需要重新考慮如何在混合環境中進行虛擬海報會議。作為替代方案，在rocket.chat 或類似平台中創建非同步的每張貼者聊天室可能更有效，並且能夠設置即興影片通話以進行更深入的對話。

作者對於有合理數量的虛擬參與者的口頭報告和研討會的體驗也很喜歡。他也特別感謝能夠多次觀看的主題演講和其他受邀演講的錄音和影片。

參考鏈接：

//ruder.io/acl2022/

參考文獻：

[1] Phone-ing it in: Towards Flexible Multi-Modal Language Model Training by Phonetic Representations of Data. //aclanthology.org/2022.acl-long.364/

[2] Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with Articulatory Features. //aclanthology.org/2022.acl-long.472/

[3] Searching for fingerspelled content in American Sign Language. //aclanthology.org/2022.acl-long.119/

[4] Automatic Song Translation for Tonal Languages. //aclanthology.org/2022.findings-acl.60/

[5] An Embarrassingly Simple Method to Mitigate Undesirable Properties of Pretrained Language Model Tokenizers. //aclanthology.org/2022.acl-short.43/

[6] Overlap-based Vocabulary Generation Improves Cross-lingual Transfer Among Related Languages. //aclanthology.org/2022.acl-long.18/

[7] Canine: Pre-training an Efficient Tokenization-Free Encoder for Language Representation. //direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00448/109284/Canine-Pre-training-an-Efficient-Tokenization-Free

[8] ByT5: Towards a Token-Free Future with Pre-trained Byte-to-Byte Models. //direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00461/110049/ByT5-Towards-a-Token-Free-Future-with-Pre-trained

[9] Challenges and Strategies in Cross-Cultural NLP. //aclanthology.org/2022.acl-long.482/

[10] Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification. //aclanthology.org/2022.acl-long.158/

[11] Generated Knowledge Prompting for Commonsense Reasoning. //aclanthology.org/2022.acl-long.225/

[12] Metadata Shaping: A Simple Approach for Knowledge-Enhanced Language Models. //aclanthology.org/2022.findings-acl.137/

[13] A Recipe for Arbitrary Text Style Transfer with Large Language Models. //aclanthology.org/2022.acl-short.94/

[14] Exploiting Language Model Prompts Using Similarity Measures: A Case Study on the Word-in-Context Task. //aclanthology.org/2022.acl-short.36/

[15] Planning with Learned Entity Prompts for Abstractive Summarization. //aclanthology.org/2021.tacl-1.88/

[16] Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP. //arxiv.org/abs/2103.00453

[17] PADA: Example-based Prompt Learning for on-the-fly Adaptation to Unseen Domains. //direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00468/110538/PADA-Example-based-Prompt-Learning-for-on-the-fly

[18] A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models. //aclanthology.org/2022.acl-long.197/

[19] CLIP Models are Few-Shot Learners: Empirical Studies on VQA and Visual Entailment. //aclanthology.org/2022.acl-long.421/

[20] Reframing Instructional Prompts to GPTk』s Language. //aclanthology.org/2022.findings-acl.50/

[21] Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity. //aclanthology.org/2022.acl-long.556/

[22] Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations. //arxiv.org/abs/2205.11822

雷峰網