這項最新調查勸退效果拉滿:67% 的 NLPer 懷疑自己的研究沒價值

  • 2022 年 8 月 31 日
  • AI
工業界壟斷資源,NLP 寒冬 30 年內到來,可解釋研究走錯方向,NLPer:我太難了。

作者 | 李梅

編輯 | 陳彩嫻

一味追求大模型是不是走錯了路?

未來最有影響力的進展是會來自工業界還是學術界?

語言模型到底有沒有理解語言?

我做的研究到底有沒有價值?

……

最近,一項針對 NLP 社區的調查反映了 NLPer 對所有這些重要問題的看法。來自華盛頓大學、紐約大學和約翰霍普金斯大學的組成的研究團隊,就 NLP 領域的一些爭議性問題徵求了廣大研究者的意見,包括研究者在大模型、AGI(通用人工智慧)、語言理解、未來方向等多個方面的看法。

論文地址://nlpsurvey.net/nlp-metasurvey-results.pdf

調查結果真是一看嚇一跳,竟有多達 67 % 的 NLP 研究者對自己所從事研究的科學價值抱有懷疑態度!

還有網友吐槽:連塔羅牌都比 NLP 靠譜。

其他受訪者同意比例相當高的觀點還有:

  • 被引用最多的研究成果將來自工業界而不是學術界,如今工業界在引領 NLP 領域發展進程方面的影響力過大;

  • 反對最大化規模可以解決一切問題的假設;

  • 「NLP 寒冬」將在未來 30 年內來臨;

  • NLP 研究人員應該關注 AGI;

  • NLP 研究人員應該更多考慮整合來自鄰近學科(如語言學、認知科學)的見解;

  • 過去 5 年發表的構建可解釋模型的大多數研究都走錯了方向;等等。

    首先簡單介紹一下本次調查的受訪者情況:

    共有 480 位 NLPer 參與了此次調查。其中 327 人在過去三年中至少發表過兩篇 ACL 論文,這部分人是調查的目標人群。

    在地區分布上,受訪者中的 58% 來自美國,23% 來自歐洲,8%來自亞洲。其中,來自中國的 NLP 研究者占 3%。

    73% 的受訪者來自學術界,22% 的受訪者來自工業界,4% 從事非營利組織或政府工作。其中,教師和高級管理人員占 41%,23% 是初級研究人員(包括博士後),33% 是博士生,2% 是碩士研究生或本科生。

    另外,受訪者的男女比例分別為 67% 和 25%。

    下面我們來看本次調查的詳細結果和分析:


    1

    NLP 領域的整體狀況
    圖註:對於每個問題,圖中底部顯示同意、弱同意、弱不同意和不同意的比例。垂直的綠線(綠色數字)表示同意或弱同意該陳述的總百分比。

    工業界的領域影響力

    Q1-1:私營企業在指導該領域的發展進程方面影響力過大。

    Q1-2:未來 10 年被引用最多的論文更有可能來自工業界,而不是學術界。

    調查結果顯示,絕大多數人(86 %)都認為,未來 10 年,被引用最多的研究成果將來自工業界而不是學術界;但也有 77 % 的人認為,如今的私營企業在引領 NLP 領域發展進程方面的影響力過大。

    在許多人看來,一項工作的被引用次數並不能很好地代表其價值或重要性,而且,工業界對該領域的持續主導地位將產生負面影響,比如在基礎系統方面的絕對控制地位,就像 GPT-3 和 PaLM。

    不過,受訪者對這兩個問題的回答分歧很大,在學術界人士中,認為工業界的影響力過大的人所佔比重為 82 %,而在工業界這一比例為 58%。

    NLP 寒冬何時到來?

    受訪者被詢問是否預計在不久的將來會出現一個「NLP 寒冬」,即資金和就業機會較峰值下降至少 50%。

    Q1-3:我預計未來 10 年內會出現「NLP 寒冬」。

    Q1-4:我預計未來 30 年內將出現「NLP 寒冬」。

    有 30 % 的人同意或弱同意寒冬將在未來 10 年內到來,其中僅有 7% 的人選擇「同意」;而相信寒冬將在未來 30 年內到來的人要多得多,比例為 62%。

    儘管 30 %不是一個大數字,但這也反映了這一部分 NLP 研究者的一種信念,即 NLP 研究將在不久的將來發生重大變化(至少在誰提供資金以及提供多少資金方面)。為什麼他們的態度會相對悲觀?背後有許多可能原因,比如由於工業界影響力過大而導致的創新停滯,工業界將憑藉少量資源充足的實驗室來壟斷行業,NLP 和其他 AI 子領域之間的界限將消失,等等。

    NLP 在科學上的價值

    Q1-5:在 NLP 領域發表的大部分工作在科學價值上值得懷疑。

    有 67% 的 NLP 研究者對這一領域研究工作的價值進行了反思,他們認為,大多數 NLP 工作在科學意義上是可疑的。

    受訪者對「可疑」的定義可能是多樣的,包括根本不具有完整性的工作、所研究問題不恰當、研究結果無意義,或者研究發現並不重要、不可靠等等。

    作者匿名制度的必要性

    Q1-6:評審期間,作者匿名可保證對研究的傳播進行限制。

    ACL 會議的匿名政策比許多其他會議(如 NeurIPS、ICLR 和 ICML)要嚴格得多。調查表明,儘管爭議很多,但 NLP 社區總體上是支援這一政策的, 63% 的人認為匿名可以保證限制預印本的傳播)。這個問題也顯示出了明顯的性別差異,有 77% 的女性表示同意,只有 58% 的男性表示同意。



    2

    規模化、歸納偏差和來自臨近領域的啟發

    規模最大化是終極方案嗎?

    Q2-1:規模化(scaling)實際上可以解決任何重要問題。

    強化學習之父 Richard Sutton 在其文章 「The Bitter Lesson」中曾發表一個廣為人知的觀點:利用計算的一般方法最終是最有效的,而且效率提升幅度會非常大。在這種觀點下,模型做得越來越大,研究者期望在有足夠訓練數據和模型容量的情況下,與引入語言結構或專家設計的歸納偏差相比,使用更少的、更通用的原則性學習機制是更優的方案。

    然而,這項調查的結果表明,NLP 研究者對 Sutton 這種觀點的認可程度實際上遠遠低於預期。僅有 17 % 的人同意或弱同意:鑒於本世紀算力和數據的可能發展程度,擴大現有技術的實施規模將足以解決 NLP 的所有重要問題。在人人似乎都對大模型趨之若鶩的當下,這個數字是極低的。

    語言理論和歸納偏差的價值

    Q2-2:以語言理論為基礎的語言結構的離散表示(如詞義、句法或語義圖)對於解決一些重要的現實世界問題或 NLP 中的應用是必要的。

    Q2-3:專家設計的強歸納偏差(如通用語法、符號系統或受認知啟發的計算原語)對於解決一些重要的現實世界問題或 NLP 中的應用是必要的。


    Q2-4:到 2030 年,被引用次數最多的五個系統中至少有一個可能會從過去 50 年語言學或認知科學研究結果中汲取明確的靈感。

    與規模化的觀點形成對比,受訪者對於語言理論、歸納偏差的支援度實際上不低。50% 的人認為,語言結構對於解決 NLP 問題是有必要的;51% 的人認為專家設計的歸納偏差也很重要。許多 NLP 研究者似乎認為,當前使用低歸納偏差的神經網路架構進行端到端建模的趨勢將會發生逆轉。

    此外,有 61% 的受訪者表示,2030 年被引用次數最多的五個系統很可能會從過去 50 年語言學或認知科學研究中獲取靈感。而事實上,當前系統對認知科學的借鑒還僅僅停留在對神經元、注意力、token 的粗略解釋上。



    3

    AGI 及其風險

    AGI 的爭議

    Q3-1:了解 AGI 的潛在發展及其利益/風險應該是 NLP 研究者的一個重要關注事項。

    Q3-2:大規模機器學習建模(例如語言建模和強化學習)的最新進展是 AGI 發展的重要表現。

    GPT-3 和 PaLM 等大型預訓練模型的多功能性和令人驚艷的語言輸出,引發了人們對通用人工智慧  (AGI) 的巨大爭議,包括預測 AGI 何時會到來,我們是否真的在朝著 AGI 前進,以及 AGI 的後果會是什麼,等等。

    在關於 AGI 的問題上,受訪者的意見分布比較均衡,58% 的人認為 AGI 應當是 NLP 研究者的一個重要關注點,57% 的人相信最近的研究顯著推動了我們向 AGI 方向發展。這兩種觀點具有高度正相關性。

    AGI 會帶來什麼?

    Q3-3:在本世紀,由 AI/ML 的進步引起的勞動力自動化可能會導致具有工業革命規模的經濟重組和社會變革。

    Q3-4:在本世紀,由 AI/ML 系統做出的決策可能會引發一場全面核戰爭級別的嚴重災難。

    73% 的受訪者認為,AI 的自動化可能很快會帶來革命性的社會變革,這也是有那麼多人認為 AGI 是一個重要問題的原因。值得注意的是,有 23% 的人儘管認同這種變革,但並不同意 AGI 的重要性,所以,關於 NLP 的討論或許沒有必要牽扯進關於 AGI 的辯論中。

    此外,大約三分之一(36%) 的人認為,AI 決策可能會導致核戰爭級別的災難。這表明,有相當一部分研究者都對 AGI 表示擔憂。



    4

    語言理解

    語言模型(LM)是否能理解語言?

    Q4-1:對於只在文本上訓練的生成模型而言,只要有足夠的數據和計算資源,就可以理解自然語言。

    Q4-2:對於多模態生成模型(如一個經過訓練可以訪問影像、感測器和執行器數據等的模型)而言,只要有足夠的數據和計算資源,就可以理解自然語言。

    有一半(51%) 的人同意 LM 理解語言,如果模型還可以訪問多模態數據(影像等),同意的人則佔比更多,為 67%。

    Q4-3:原則上,我們可以通過跟蹤模型在純文本分類或語言生成基準上的表現來評估模型對自然語言的理解程度。

    相比之下,只有 36% 的人認為,純文本評估可以衡量語言理解。這表明在很多人看來,評估是一個獨立的問題,理解可能是可學習的,但不可測量。



    5

    存在的問題及未來方向

    過於關注規模化和基準

    Q5-1:當前的 NLP 領域過於關注增大機器學習模型。

    Q5-2。當前的 NLP 領域過於關注優化基準性能。

    分別有 72% 和 88% 的 NLP 研究者認為,現在大家對規模化和優化基準性能的關注過多。

    NLP 方向走錯了嗎?

    Q5-3:過去 5 年發表的大多數模型架構研究都走錯了方向。

    Q5-4:過去 5 年發表的大多數開放式語言生成任務研究都走錯了方向。


    Q5-5:過去 5 年發表的構建可解釋模型的大多數研究都走錯了方向。


    Q5-6:過去 5 年發表的大多數可解釋黑盒模型的研究都走錯了方向。

    在模型架構、語言生成、可解釋的模型、黑盒可解釋性四個具體的研究方向上,受訪的 NLP 研究者對以上問題的同意率分別為 37%、41%、50%、42%,爭議較大。在可解釋性模型問題上,社區成員的批評態度比較顯著。

    跨學科的價值

    Q5-7:NLP 研究者應當更加重視整合相關領域科學(如社會語言學、認知科學、人機交互)的見解和方法。

    有高達 82% 的人認為 NLP 研究需要借鑒更多相關領域科學。問題是,雖然有這麼多的人嘴上都強調這一點,但實際上做得卻並不怎麼好,真正的問題可能不是 NLP 研究者沒有意識到跨學科的重要性,而是我們還缺乏能推動實施的知識和工具。

    更多內容,點擊下方關註:
    掃碼添加 AI 科技評論 微訊號,投稿&進群:
    雷峰網