OpenAI親談:我們眼中的GPT-3、大規模語言模型的局限性與出路在哪

  • 2021 年 2 月 21 日
  • AI

編譯 | 陳彩嫻、青暮

編輯 | 陳大鑫

近日,OpenAI政策研究主管Miles Brundage在推特上分享了一篇新論文,論文內容是對一個GPT-3研討會的總結。

2020年10月14日,來自OpenAI、斯坦福大學HAI研究所等機構的研究人員召集在一起,討論圍繞GPT-3的開放研究問題。

參與研討會的學者有各種研究背景,包括電腦科學、語言學、哲學、政治學、通訊、網路政策等。大致來講,本次研討會圍繞兩個主要問題:

  1. 大型語言模型的能力和局限性是什麼?討論涉及幾個關鍵領域,包括:規模型對模型功能的巨大影響;評估大型語言模型是否真正理解語言的困難;在多種數據模態下訓練模型的重要性;以及使模型目標與人類價值觀相一致的挑戰。

  2. 被廣泛使用的大型語言模型的社會影響是什麼?討論涉及了幾個關鍵領域,包括:難以確定通用語言模型的所有可能使用(或濫用)場景;機構在模型部署中可能面臨的挑戰;模型在演算法層面上泄露資訊的潛在可能;減少模型偏見(例如:種族、性別、宗教信仰等)存在的阻礙;以及基於語言模型的自動化應用對勞動力市場的影響。

在會後,來自斯坦福大學、OpenAI 與 AI Index 的數位參會者對討論內容進行了整理與概括,撰文如下:

論文鏈接://arxiv.org/abs/2102.02503

在開放性的討論中,作者等人希望給大家提供多角度觀點,引起思考,共同尋求解決方案。


1

技術能力和局限性

1)規模效應

GPT-3是最大的語言模型之一:它具有1,750億個參數,並且接受了570 GB的文本訓練。相比之下,其前身GPT-2(功能與GPT-3類似)具有15億個參數,並接受了40 GB的文本訓練。儘管GPT-2對下游任務展示了一定程度的零樣本泛化能力,但當上下文中給出示例時,GPT-3進一步展示了學習更多新穎任務的能力。參會者發現,令人稱奇的是,這種泛化能力僅來自於增加模型和訓練數據的規模。

有人指出,隨著模型規模增加而實現的能力擴展的現象,「就像物理學定律或熱力學定律」存在穩定性和可預測性。一些參會者樂觀地認為,即使對於比GPT-3大得多的模型,這些趨勢仍將繼續生效,以後將會出現越來越強大的模型,並能夠以更加先進的方式從少量訓練示例中學習新的能力。

一位參會者指出,像GPT-3這樣的模型規模讓人想起了大型粒子加速器實驗,構建這樣的加速器需要許多不同背景的研究人員。例如,當訓練如此大的模型時,具有不同專業知識的不同團隊必須協作以運行實驗、構建和維護計算基礎架構、開發演算法,並不斷測試模型的功能,以解決可能出現的問題(例如:偏見、濫用、安全性等等)。

2)理解

語言模型中的「理解」是什麼構成的?GPT-3是否滿足此定義?有些人傾向於基於強智慧的概念進行定義,這些概念要求模型具有意圖或對現實世界中的請求做出響應的能力。其他人則提出,GPT-3還有一些尚未滿足的更弱的智慧概念,包括對對抗樣本的魯棒性,這些示例很容易使AI系統感到困惑,而對人類卻沒有影響。參會者建議,如果模型在稀有但重要的輸入上表現不佳,則「基本正確」地解決問題可能不足以被視為理解。

理解的另一個定義圍繞因果關係的概念,因為真正理解的模型應該掌握數據特徵與所需行為之間的因果關係。一些人認為語言模型不可避免要利用數據中固有的「虛假關聯」或「捷徑特徵」,因此缺乏真正的潛在因果模型。但是,一位參會者提出了另一種觀點:語言模型如果具有足夠的數據,可能會形成「自然實驗」效應,從而使模型能夠以類似於人類的方式,從觀測數據中學習因果關係。

一些參會者反對理解的二元論,並強調了兒童和成人隨著時間逐漸掌握更強大技巧的現象。例如,一位參會者引述了一位著名的物理學家的話,「我第三次教熱力學時才了解熱力學。」另一位參會者反對單一的理解概念,強調了語言學家和哲學家之間關於意義的辯論,即「意義是從表達之間的關係,還是從某種外部基礎真理中衍生而來的?」

最後,一些參會者對理解的關注提出了質疑,認為人類能夠以平庸甚至缺乏理解的方式來完成許多任務,其中包括最近贏得了法國拼字遊戲冠軍的非法語選手。有人則表示,關於GPT-3是否以相關方式理解語言的判斷,或許與其是否能成功完成任務無關。

令人印象深刻的是,一位參會者還談到了一個反向問題,即人類對大型語言模型的能力的理解:「 GPT-3完全是陌生的。問它是否是AGI並不是一件愚蠢的事情。

3)多模態

大部分討論都涉及了多模態模型的重要性,多模態模型是對來自其他模態(例如影像、語音等)的數據進行訓練的語言模型。參會者大體上同意,大型多模態模型將變得更加普遍,並實現更多功能。實際上,在研討會之後不久,OpenAI就發布了DALL-E,它是GPT-3的多模態版本,接受了文本到影像轉換的訓練。

但是,有人認為GPT-3已經在多模態數據上進行了訓練,因為訓練數據包含散文、結構化數據表和電腦程式碼。其他人則認為,多模態訓練的主要好處可能是讓模型更快學習到有用的功能,因為不同數據模態之間的相互作用,可能會比單獨的數據模態提供更強的學習訊號。最後,一些人評論說,鑒於人類在所能使用的感覺模態範圍方面存在差異,因此沒有任何其他模態對語言使用至關重要。

4)價值匹配
參會者討論了模型的目標需要與人的價值更好地匹配。例如,一位參會者提到了一些語言模型對所有的語言符號(例如:名詞、介詞、數字等)一視同仁,但人類則不一樣。其他幾位參與者強調了更好地優化事實準確性和對抗魯棒性的挑戰。人的價值和模型的目標的匹配被認為非常重要,尤其是針對通過與環境積極互動學習的「嵌入式」 AI智慧體。參會者還強調開發更好的演算法使智慧體對人的價值「轉向」,以及促進跨學科的合作,更好地闡明什麼是「人的價值」,尤其是考慮到跨越個人和社區的多樣性,以及數據集中存在的偏見。

2

GPT-3 被廣泛使用的好處

1)功能

GPT-3 的功能非常強大,可以進行文本概括、機器人聊天、搜索、程式碼生成和文章生成。

在會上,有人提出:GPT-3 的功能如此震撼,既要仔細管控所有用途(因為 GPT-3 接受任意輸入,卻無法事先預測模型的所有可能表現),又要保證人類社會的安全不受 GPT-3 威脅,其實是極具挑戰性的。

會上的許多人也注意到,如果使用訪問受限的 API 對 GPT-3 進行延誤,那麼OpenAI 比開源更容易地控制模型的使用。

但這種方法也有許多亟待解決的問題,比如:誰可以訪問,為什麼可以訪問?要如何提供模型訪問許可權來支援大型社區進行大規模的團隊協作(檢查模型的潛在誤用和制定緩解策略)?

2)部署

參會者討論了部署大規模語言模型可能帶來的道德和社會挑戰,以及應對這些挑戰的方法。

一個建議是增加供學術界使用的計算資源,以便學者研究大規模語言模型的部署。有人提出,設立法律法規,要求使用者披露何時使用 AI 生成文本,可能有助於管理大規模語言模型的影響。另一位參會者則詢問:能不能通過某些標準來評估語言模型是否具有社會效益?大家都認為這是一項極具挑戰但十分重要的任務。

幾位參會者認為,OpenAI 和其他組織不會永遠壟斷大規模語言模型。他們提到,開發者可能只能壟斷 6-9個月,直到其他研究人員復現他們的結果。大家達成一個共識:最前沿的研究機構應利用其前沿地位,負責任地制定新興領域的標準規範。

此外,還有一些參與者指出,由於技術標準的進步,隨著時間的推移,複製 GPT-3 之類的模型會越來越容易。這也進一步表明了使用當前時間窗口的緊迫性。在該窗口中,極少行動者擁有非常大規模的語言模型,並難以制定恰當的規範和原則供其他人遵循。

3)假消息

會上討論的另一個主要話題是關於錯誤使用語言模型來生成虛假資訊。

具體來說,類似 GPT-3 之類的模型可以用於創造錯誤的、具有誤導性或公關性的文章、推文和新聞報道。

有人認為,此前的一些技術(比如攝影和PS)也會帶來相似的問題,社會大眾已經提高對此風險的防範意識,因此不必太擔心;此外,雖然 GPT-3 在原則上確實可能自動生成虛假消息,但相比用 GPT-3 製造假消息,人工傳播謠言似乎更節約成本。

另一些人不同意上述觀點。他們認為,語言模型自動生成虛假消息的成本,要遠低於培訓並支付人力去製造虛假消息的成本。

大家都認為:實際調查自動生成虛假資訊與人為製造虛假資訊的經濟學規律非常重要。

往前看,有人提議,我們不妨設想:在未來,語言模型生成的文本不僅與大家討論的話題相連貫,而且在任一話題上都具有很強的說服力。

另一位參會者指出,GPT-3或將來的其他語言模型可能會使虛假資訊難以或無法從內容上檢測出來,從而迫使通過在線平台依賴元數據。同樣地,有人建議,諸如 GPT-3之類的系統存在應該鼓勵大家更多地使用加密技術來認證媒體。

4)偏見

GPT-3 表現出多類種族偏見、性別偏見和宗教偏見。

一位討論者將解決語言模型偏見的難度類比為解決在線平台的內容審核難度。儘管兩者均存在制定規範的難度,但有些方面也存在緩解的共識與機會。比如,在線平台一致認為有必要解決兒童色情產品或嚴重的暴力威脅,歧視法中的「受保護階級」概念也為思考某些語言模型偏見提供了有用的初始框架。

幾位研討會的參與者指出,我們很難以通用的方式定義怎樣才算減輕大規模語言模型的偏見問題,因為恰當的語言使用在很大程度上取決於上下文語境。

一位與會者說到,所有數據集在某些方面都有偏見,因此我們面臨的挑戰不是消除所有偏見,而是根據某些規範和/或法律標準來解決有害的偏見。
一些人建議,類似 OpenAI 這樣的公司沒有恰當的立場來代表社會制定規範。還有一些人發現,我們很難通過更改訓練數據來減輕 GPT-3 等多功能系統的偏見,因為偏見通常是在特定的使用案例下進行分析的。

與會者討論了如何解決語言模型中有害偏見的多種可能方法,包括:

• 更改初始訓練數據,提前減少偏見

• 訓練一個單獨的模型來過濾語言模型所生成的內容

• 從必要數據上對大規模語言模型進行微調

• 標記數據,以便模型可以學習區分某些形式的內容(可以參見CTRL)

• 將模型訓練得更「了解事實」

• 使用人類回饋進行強化學習

• 利用模型本身的知識來改善輸出(例如,精心設計提示)

• 開發更多模型在部署前可以運行的「偏見測試」套件

• 與值得信賴的合作夥伴共同研究模型,提供一定的商業服務

這些方法都不是萬能的例如,使用人類回饋來操縱模型仍然會引發問題:人類標記者是誰?如何選擇人類標記者?此外,內容過濾器有時會破壞他們要保護的特定智慧體(例如,收回大多數人用於誹謗的單詞或片語,將這些群體邊緣化)。

一位與會者爭辯道,將人放置在文本生成的核心,對解決這些問題至關重要。還有一些參會者強調,鑒於現有技術的局限性,應避免使用語言模型的某些功能,且文本生成應用程式在開放性和風險性上的差異非常大。例如,檢測正則表達式比管理自殺電話熱線更容易處理。

5)經濟

另一個討論主題是關於 GPT-3 等模型的經濟意義。參會者觀察到,人們當前對涉及文本閱讀或分析的工作有不同程度的期望,有些工作令人滿意(例如創作寫作或閱讀與總結報告),而另一些工作則效果較差(例如內容審核)。這就提出一個問題:大型語言模型應該或不應該在什麼時候或什麼類型的工作上自動化?
一位與會者認為,如果讓公司來作這類決定,可能會產生不良後果。大會還討論到,教育也很可能受到較大語言模型的影響,這可能是論文寫作過程以及評估文本的方式變化所導致的。
還有一位與會者提到,向社會不同領域的群體提供 API 訪問許可權,可以幫助傳遞潛在的社會變革的早期訊號。

3

未來的研究方向

以下的研究問題受到了大會討論的啟發:

• 我們能否更好地理解為什麼語言模型的規模會變得這麼大?這能夠幫助我們建立更能有效擴展的模型嗎?

• 擴展的限制是什麼?規模擴大會帶來更強的因果推理,符號操控(symbolic manipulation),常識理解以及對更廣泛輸入類別的魯棒性嗎?還是需要用到不同的技術?

• 我們如何理解大型語言模型功能的局限性?我們是否可以讓模型在不確定時尋求幫助、解釋或棄權?

• 我們如何開發新的神經網路架構和演算法,從而使模型能高效學習文本以外的多模態數據?

• 使大型語言模型的輸出更符合人類價值觀的不同方法分別涉及到哪些機會和權衡?

• 應該如何分配諸如 GPT-3的模型的訪問權,並在安全性、可複製性和公平性等因素之間取得平衡?為了使 GPT-3 之類的語言模型在特定情況下安全或不安全使用,我們需要進行哪種測試?

• 學術界可以採取什麼措施來最好地定位自己,以建立這種模型的工業發展護欄,包括提倡獲得充足資金來複制訓練所需的計算資源?

• 我們如何能最好地促進跨學科合作,以理解和管理大型數據集和此類數據集的模型表示中的偏見?

• 我們如何才能最好地描述此類模型的潛在「威脅態勢」;例如,我們是否需要花費更多的時間來擔心一些利潤驅動的人使用這種模型來生成大量垃圾郵件,還是應該擔憂一些人使用模型來生成具有說服力的文本,並在虛假宣傳活動中使用?

• 與實現相同目標的替代方法相比,惡意者出於各種目的濫用語言模型的成本效益和技能密集度如何?


原文鏈接:
//arxiv.org/pdf/2102.02503.pdf

點擊閱讀原文,直達AAAI小組!
由於微信公眾號試行亂序推送,您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道, 請將「AI科技評論」設為星標帳號,以及常點文末右下角的「在看」。