開放程式碼又如何?成本昂貴、資源集中,大規模語言模型的民主化越來越難

  • 2022 年 5 月 18 日
  • AI

作者|Ben Dickson

編譯|李梅

編輯|陳彩嫻

5月初,Meta發布了一個可以執行多個不同任務的大型語言模型:Open pretraining Transformer (OPT-175B)。在過去幾年裡,大型語言模型(large language model,LLM)已經成為人工智慧研究的熱點之一。

在OpenAI發布包含1750億參數的深度神經網路GPT-3之後,就引發了一場LLM的「軍備競賽」,OPT-175B是這場競賽的一個最新參與者。GPT-3已經表明,LLM可以無需額外訓練就能執行許多任務。後來,微軟將GPT-3集成到它的幾個產品中,不僅展示了LLM在科學研究上的前景,也展示了LLM在商業上的應用潛力。

而OPT-175B的獨一無二性在於Meta對「開放」的承諾,正如這個模型的名字(OpenXX)所暗示的那樣。Meta已經向公眾提供了這個模型,並且公布了訓練和發展過程中的大量細節。在Meta AI部落格上發表的一篇文章中,Meta將OPT-175B的發布描述為「大規模語言模型的民主化訪問」(Democratizing access to large-scale language models)。

Meta這種朝著透明化方向的發展是值得稱讚的。然而,在大型語言模型的激烈競爭下,民主化已經變得難以實現。


1

1750億參數的OPT

Meta發布的OPT-175B有一些關鍵特徵。它包括了預訓練的模型以及需要訓練和使用LLM的程式碼。訓練神經網路比運行神經網路要消耗更多的計算資源,所以,對於沒有計算資源來訓練模型的組織來說,預訓練模型特別有用。通過減少訓練大型神經網路所需的計算資源,它還會有助於避免造成巨大的碳足跡。

與GPT-3一樣,OPT也有不同的規模,參數從1.25億到1750億不等,參數越多的模型學習能力越強。目前,所有300億參數及以下的版本都可以直接下載。完整的1750億參數版本的模型將提供給部分研究人員和機構,只需要填寫一張申請表。

Meta AI在部落格上表示:

「為了保證學術誠信和防止濫用,我們將在非商業許可下發布我們的模型,以專註於研究用例。該模型將授權學術研究人員使用,與政府、民間社會和學術界有關的組織,以及世界各地的行業研究實驗室。」

除了模型,Meta還發布了一個完整的日誌,提供了大型語言模型開發和訓練過程的詳細技術時間表。通常來說,經發表論文只包含關於最終版本模型的資訊。Meta表示,該日誌提供了一些有價值的資訊,包括「用於訓練OPT-175B的計算量,以及當底層基礎設施或訓練過程本身在規模上變得不穩定時所需的人力開銷」。



2

 Meta:GPT-3不夠透明

Meta在其部落格文章中還表示,大型語言模型大多可以通過「付費API」來訪問,對LLM的訪問進行約束「限制了研究人員去理解這些大型語言模型如何工作以及為什麼能工作,阻礙進一步提高模型的魯棒性和減少模型的偏見和有害性等已知問題」。

這是對OpenAI的一種抨擊,OpenAI發布GPT-3隻是提供了一種黑箱API服務,而不是將其模型的權重和源程式碼公開。OpenAI宣稱沒有公開GPT-3的原因之一,是為了控制有害應用程式的濫用和開發。

而Meta認為,通過將模型提供給更廣泛的受眾,會有利於研究和預防它們可能造成的任何傷害。

Meta這樣描述他們所做的工作:

我們希望OPT-175B將為大型語言模型創建的前沿領域帶來更多的聲音,幫助社區共同設計負責任的發布策略,並為該領域大型語言模型的開發增加前所未有的透明度和開放性。



3

大型語言模型的成本

然而,需要注意的是,大型語言模型的「透明和開放」並不等同於「民主化」。訓練、配置和運行大型語言模型的成本仍然很高,而且未來可能還會繼續增加。

根據Meta的部落格文章,研究人員已經成功地大大降低了訓練大型語言模型的成本。他們表示,該模型的碳足跡已減少到GPT-3的七分之一。之前也有專家估計,GPT-3的培訓成本高達2760萬美元。

這說明,OPT-175B的培訓成本仍然高達數百萬美元。幸運的是,預訓練的模型將避免訓練模型的需要,並且Meta表示,將提供「只用16塊NVIDIA V100 gpu」來進行訓練和部署完整模型的程式碼庫。這相當於一台Nvidia DGX-2,成本約為40萬美元,對於資金緊張的研究實驗室或單個的研究人員來說,這仍不是一筆小數目。根據一篇提供了更多關於OPT-175B細節的論文顯示,Meta使用了992塊 80GB A100 gpu訓練了自己的模型,比V100明顯更快。

Meta AI的日誌進一步證實,訓練大型語言模型是一項非常複雜的任務。OPT-175B的開發時間表上,充斥了諸如伺服器崩潰、硬體故障和其他需要高級技術人員來解決的併發症。研究人員還不得不多次重啟訓練過程,調整超參數,改變損失函數。所有這些產生的額外費用,都是小型實驗室所無法承擔的。



4

民主化的阻礙:權力集中在少數公司手中

語言模型如OPT和GPT都是基於transformer架構。transformer的關鍵特性之一,是它能夠並行和大規模地處理大型順序數據(如文本)。

近年來,研究人員已經證明,通過在transformer架構中添加更多的層和參數,可以提高語言任務的表現。一些研究人員認為,達到更高的智力水平只是一個規模問題。因此,資金充裕的研究實驗室,如Meta AI、DeepMind (Alphabet旗下)和OpenAI(微軟贊助),都在致力於創建越來越大的神經網路,比如DeepMind最新推出了多模態AI系統Gato。

去年,微軟和NVIDIA 創建了一個價值5300億參數的語言模型,名為Megatron-Turing (MT-NLG)。上個月,Google引入了語言模型 Pathways Language Model (PaLM),這是一個包含了5400億參數的大規模語言模型。更有傳言稱,OpenAI將在未來幾個月發布GPT-4。

然而,更大的神經網路也需要更多的財政和技術資源。雖然更大的語言模型會有更多新花哨(和新的失敗),但它們也會不可避免地把權力集中在少數富有的公司手中,這導致較小的研究實驗室和獨立的研究人員在大型語言模型的研究上更加艱難。

在商業方面,大型科技公司將擁有更大的優勢。運行大型語言模型是非常昂貴和具有挑戰性的。像Google和微軟這樣的公司都有專門的伺服器和處理器,所以他們能大規模運行這些模型並盈利。對於較小的公司來說,搞出一個自家版本的LLM(如GPT-3)的開銷太大了。正如大多數企業都使用雲託管服務而不是建立自己的伺服器和數據中心一樣,隨著大型語言模型變得越來越流行,像GPT-3 API這樣的開箱即用系統將會更具有吸引力。

而這反過來又會進一步地將AI集中在大型科技公司手中。更多的人工智慧研究實驗室將不得不與大型科技公司合作,以獲得研究資金。這將賦予大型科技公司更大的權力來決定AI未來的研究方向(與他們的經濟利益相一致的方向)。那些沒有短期投資回報的研究領域,可能就會成為這其中的代價。

一個底線是,當我們慶祝Meta為LLM帶來透明度的時候不要忘記,大型語言模型的本質仍是不民主的,它們只是更多地對宣傳它們的公司有利。

原文鏈接:
//bdtechtalks.com/2022/05/16/opt-175b-large-language-models/

雷峰網