EleutherAI 推出 200億參數的類 GPT 模型:不像 GPT-3,它免費開放

  • 2022 年 3 月 24 日
  • AI

獨立科學家有福了。

作者|鄭宇宏

編輯|陳彩嫻

近日,「黑客組織」EleutherAI 在打破 OpenAI 對 GPT-3 的壟斷上又邁出了關鍵的一步:

發佈全新 200 億參數模型,名曰「GPT-NeoX-20B」。

眾所周知,自 2020 年微軟與 OpenAI 在 GPT-3 源代碼獨家訪問權上達成協議以來,OpenAI 就不再向社會大眾開放 GPT-3 的模型代碼(儘管 GPT-1 和 GPT-2 仍是開源項目)。

出於對科技巨頭霸權的「反叛」,一個由各路研究人員、工程師與開發人員志願組成的計算機科學家協會成立,立志要打破微軟與 OpenAI 對大規模 NLP 模型的壟斷,且取得了不錯的成果。

這個協會,就是:EleutherAI。

它以古羅馬自由女神 Eleutheria 的名字命名,透露出對巨頭的不屑與反抗。

與 1750 億參數的 GPT-3 相比,GPT-NeoX-20B 的參數顯然是小巫見大巫。但 EleutherAI 對該成果十分自豪,為什麼?


1

EleutherAI 的由來

首先介紹一下 EleutherAI 的發展歷史。

人工智能威脅論是一個老生常談的問題。霍金曾在《獨立報》上這樣形容人工智能的威脅:「儘管人工智能的短期影響取決於控制它的人,但長期影響卻取決於它究竟能否被控制。」

EleutherAI 的成立始於 2020 年 7 月,主要發起人是一群號稱自學成才的黑客,主要領導人包括 Connor Leahy、Leo Gao 和 Sid Black。

當時,微軟與 OpenAI 達成對 GPT-3 的控制訪問協議。聽聞風聲,一群反叛極客就在 Discord(一個社交媒體平台 )上說:「讓我們給 OpenAI 一個教訓吧!」

於是,他們就基於 Discord 成立了 EleutherAI,希望建立一個能夠與 GPT-3 相媲美的機器學習模型。

創始人 Connor Leahy 在接受 IEEE Spectrum 的採訪時說道:

「起初這真的只是一個有趣的業餘愛好,但在疫情封城期間我們沒有更好的事情可做,它的吸引力很快就變得大起來。」

「我們認為自己是幾十年前經典黑客文化的後裔,只是在新的領域,出於好奇和對挑戰的熱愛而對技術進行試驗。」

Discord 服務器現在有大約 10,000 名成員,但只有大約 100 或 200 人經常活躍,由一個 10 到 20 人組成的團隊在開發新模型。

自成立以來,EleutherAI 的研究團隊首先開源了基於 GPT-3 的、包含 60 億參數的 NLP 模型 GPT-J,2021 年 3 月又發佈類 GPT 的27 億參數模型  GPT-Neo,可以說成長迅速。

今年2月9日,他們又與 CoreWeave 合作發佈了 GPT-Neo 的升級版——GPT-NeoX-20B,官方代碼地址如下,現可從 The Eye on the Eye 公開下載。

  • 代碼地址://mystic.the-eye.eu/public/AI/models/GPT-NeoX-20B/

它也是目前最大的可公開訪問的預訓練通用自回歸語言模型。

在發佈聲明中,Leahy 特別標註了「標準語言建模任務的準確性」和「由 HendrycksTest 評估衡量的按主題組劃分的事實知識的零樣本準確性」:


2

GPT-NeoX-20B 的優勢:免費開放

簡單來說,GPT-NeoX-20B 是一個包含 200 億參數、預訓練、通用、自回歸大規模語言模型。

如果你不知道是什麼,想想 OpenAI 的 GPT-3,它是近兩年前震驚世界的大型語言模型,語言能力神通廣大,包括編寫計算機代碼、創作詩歌、生成風格難以區分的帶有權威語氣的假新聞,甚至給它一個標題、一句話,它就可以生成一篇文章,因為它可以根據很少的輸入信息自行「創作」,而且創作出來的東西還可以文意皆通。(題外話:就像漫威低配版的賈維斯)

必須承認的是,OpenAI 的模型比 EleutherAI 更大,有 1750 億個參數(模型內部編碼信息的節點或數字)。參數越多,模型吸收的信息就越多、越細化,因此模型就越「聰明」。

但 EleutherAI 是世界上同類模型中最大、性能最好的模型,可免費公開獲得。

「我們希望更多的安全研究人員能夠使用這項技術。」Leahy 說。

此外,EleutherAI 與 OpenAI 在訓練大規模模型所需的計算能力上有所不同。

OpenAI 在數量不詳的 Nvidia V100 Tensor Core GPU 上訓練了 GPT-3。此後,OpenAI 的合作夥伴微軟開發了一個用於大型模型訓練的單一系統,該系統具有超過 285000 個 CPU 內核、10000 個 GPU,以及每個 GPU 服務器每秒 400 Gb 的網絡連接。

這並沒有阻止 EleutherAI 在反 GPT-3 壟斷上的努力。他們最初使用谷歌提供的硬件作為其 TPU 研究雲計劃的一部分,構建了一個具有 60 億個參數的大型語言模型 GPT-J。對於 GPT-NeoX-20B,該小組得到了 CoreWeave 的幫助,CoreWeave 是一家專門針對基於 GPU 的工作負載的雲服務提供商。

雖然 OpenAI 號稱是人工智能非盈利組織,但目前來看,其本質還是由科技公司主導開發的私有模型。

EleutherAI 的數學家和人工智能研究員 Stella Biderman 對 IEEE Spectrum 表示:

「這些私有模型限制了我們這種獨立的科研人員權限,如果我們不了解它的工作原理,科學家、倫理學家、整個社會就無法就這項技術應該如何融入我們的生活進行必要的對話。」

EleutherAI 的工作促進了對大型語言模型的可解釋性、安全性和倫理的研究,受到外界肯定。

機器學習安全領域的主要人物 Nicholas Carlini 在最近的一篇論文中表示:「如果沒有 EleutherAI 完全公開發佈 The Pile 數據集及其 GPT-Neo 系列模型,我們的研究是不可能實現的。」Pile 數據集是一個 825 GB 的英文文本語料庫,用於訓練大規模語言模型。


3

開放模型訪問權限是 AI 發展的必要條件

馬斯克不只一次發表人工智能比人類強這一觀點。他認為人是碳基生物自帶上限。而人類進化的速度很明顯比不上人工智能,所以人工智能遲早超過人類,這是AI最大的潛在威脅。OpenAI 也是他基於這個考量和其他科技大亨共同創立的。

Leahy 認為 AI 的最大風險不是有人利用它作惡,而是構建一個非常強大的 AI 系統,無人知道如何控制。

他說:「我們必須將人工智能視為不像我們思考的奇怪外星人。」他補充說,「人工智能擅長優化目標,但如果給定一個愚蠢的目標,結果可能是不可預測的。他擔心研究人員會在創造越來越強大的人工智能的競賽中過度自信,在這個過程中偷工減料。」

其實任何志同道合的計算機科學家都可以構建一個大型語言模型,但很難獲得合適的硬件來訓練大型語言模型,因為這需要非常高的資本投資,而如今只有幾百家公司擁有這種硬件。

「我們需要研究這些系統,以了解我們如何控制它們。」EleutherAI的創作初衷正是通過使這種規模的模型易於訪問,從而讓有興趣的人們進一步研究人工智能系統的安全使用。

反觀 OpenAI,「Open」怕不是只對金錢 Open 吧?

參考資料

1.//spectrum.ieee.org/eleutherai-openai-not-open-enough

2.//blog.eleuther.ai/announcing-20b/

3.//github.com/EleutherAI/The-Pile

4.//mystic.the-eye.eu/public/AI/models/GPT-NeoX-20B/

5.//www.caotama.com/1180119.html

雷峰網