大模型「研究源」告急:研究預測,2026年高品質語言數據將耗盡

  • 2022 年 11 月 21 日
  • AI
數據存量的增速遠低於大模型訓練數據集規模的增速。

作者 | 李梅

編輯 | 陳彩嫻

語言模型的縮放定律(Scaling law)表明,其規模大小取決於可用數據的數量,所以在過去幾年,大約有一半的語言模型是通過擴大數據量來改進性能的。

當前,在參數量上的角逐似乎已進入冷靜期,然而,當許多人還在討論模型要不要繼續做大的時候,模型能不能做大的問題已經出現了。

最近,一項來自 Epoch AI Research 團隊的研究向我們拋出了一個殘酷的事實:模型還要繼續做大,數據卻不夠用了。

論文地址://arxiv.org/pdf/2211.04325.pdf

研究人員預測了 2022 年至 2100 年間可用的影像和語言數據總量,並據此估計了未來大模型訓練數據集規模的增長趨勢。

結果表明:高品質的語言數據存量將在 2026 年耗盡,低品質的語言數據和影像數據的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

這意味著,如果數據效率沒有顯著提高或有新的數據源可用,那麼到 2040 年,模型的規模增長將放緩。

對數據端的建設該重視起來了。


1

數據存量是大模型數據集的規模上限

數據存量預測

數據量的多少會限制大模型訓練數據集的規模大小,所以要先對數據存量的增長趨勢進行預測。

在預測未來語言和影像數據存量方面,研究團隊開發了概率模型來預測數據累積率。

近年來無監督學習在基礎模型領域大為成功,它允許我們使用少量標註數據和大量未標註數據、針對多項任務進行微調,無監督模型也被證明能夠為未標註數據生成有價值的偽標籤。所以,這裡主要關注未標註數據的存量和累計率。

另外,要預測數據累積率,得先確定哪些因素會導致數據的增長。絕大多數數據是用戶生成的,存儲於社交媒體平台、部落格、論壇中。所以決定某一時期產生多少數據的因素有三個:人口數量、互聯網普及率和每個互聯網用戶產生的平均數據量。研究團隊據此開發了一個用戶生成內容累積率的模型。

訓練數據集規模增長預測

在數據存量的預測基礎上,研究人員進一步估測了未來大模型的訓練數據集規模的增長趨勢。

數據集規模(dataset size)在這裡被定義為訓練模型所依據的獨特數據點(datapoint)的數量。不同領域對數據點的定義不同,對於語言數據而言,數據點即一個詞,影像數據則定義為一張影像。

如果根據數據集規模的歷史變化來預測未來的趨勢,那結果會是「未來會繼續延續歷史」,這當然不夠準確,因為實際上可訓練模型的數據量是有限制的,最大的限制之一就是計算可用性(compute availability)。要對已有模型增加訓練數據量,當然需要更多額外的計算,而計算會受到硬體供應以及購買、租用硬體的成本的制約。

所以,預測數據集規模時要將計算可用性的限制考慮進去,為此作者團隊也根據計算可用性和計算優化(compute-optimal)的數據集規模做了預測。

關於模型的規模增長,有一個重要概念是 Scaling law(縮放定律),Scaling law 可用來預測給定計算預算(以 FLOP 衡量)下的模型規模和數據集規模之間的最優平衡。具體來說,最優的數據集規模與計算預算的平方根成正比。這項工作便預測了未來每年將會達到的最優訓練數據集規模。



2

語言數據將耗盡於 2026年

先來看語言模型

語言數據的品質有好壞,互聯網用戶生成的語言數據品質往往低於書籍、科學論文等更專業的語言數據,在後一種數據上訓練的模型性能也更好。所以,有必要區分開來,為了獲得更全面的結果,作者分別對低品質語言數據和高品質語言和數據的存量進行了估測,我們來看看結果。

對低品質語言數據的當前總存量進行估測,得到存量為 6.85e13 到 7.13e16 個單詞。如下圖。

其中,區間上的1e14 很可能是代表對於資金雄厚的大公司如Google可用的語言數據存量;1e15 是對於所有科技公司可用的量;1e16 則是全球人類多年間集體產生的量。當前每年語言數據增長率在 6.41% 到 17.49% 之間。

圖註:低品質語言數據存量

接著,以這裡的低品質語言數據存量作為數據集的規模上限來進行預測,結果發現,語言數據集規模會先經歷快速增長直到數據存量耗盡,之後增長速度會大幅放緩。如下圖,數據存量耗盡的時間節點在 2030 年之後。

圖註:低品質語言數據集規模增長趨勢

在高品質語言數據方面,作者估測了數字化書籍、公共 GitHub 存儲庫和科學論文中可用文本的全部數量,並假設其占高品質數據集的 30 %-50%,從而預測出當前高品質語言數據的總存量為 9e12 [4.6e12; 1.7e13] 個單詞,每年增長率為 4% 到 5%。如下圖。

圖註:高品質語言數據存量

這時,以高品質語言數據存量作為數據集規模上限,發現了相同的數據集規模放緩模式,但放緩會發生得更早,在 2026 年之前。如下圖。

圖註:高品質語言數據集規模增長趨勢

再來看視覺模型

對於視覺模型來說,什麼樣的影像數據算是高品質數據,這方面我們目前還了解不多,所以作者這裡未區分高低品質。

經估測,作者發現,當今互聯網上的影像總存量在 8.11e12 和 2.3e13 之間,年增長率約為 8 %。如下圖。

圖注:影像數據存量

以這一存量作為影像數據集規模的上限,根據歷史趨勢和計算最優來預測訓練數據集規模的增長,發現與語言模型類似,影像數據集的規模會呈指數增長,直到影像數據存量耗盡,之後增長率會下降。如下圖。

圖註:影像數據集規模增長趨勢

作者進一步計算了每種數據集規模每年會遭遇數據存量耗盡的概率,包括兩種預測,一是根據歷史趨勢的預測,二是根據計算可用性的預測。結果如下圖。

圖註:低品質語言數據存量、高品質語言數據存量和視覺數據存量每年發生耗盡的概率

對於語言模型而言,數據的枯竭將會在 2030 年到 2040 年之間到來;對視覺模型而言,則是 2030 年到 2060 年之間。

具體來說,低品質語言數據和視覺數據枯竭的日期存在較大的不確定性,但基本上不太可能發生在 2030 年之前或 2060 年之後。但高品質的語言數據幾乎肯定會在 2027 年之前耗盡。



3

大模型的數據瓶頸如何破除?

上述研究結果表明,數據存量的增長速度遠低於訓練數據集規模的增長速度,所以如果當下的趨勢繼續下去,我們的資料庫存一定會耗盡。而且,高品質的數據會更少。

或許更大的數據集能夠替代較低品質的數據集,但即使如此,數據集規模增長的放緩是不可避免的,因為擴大數據集同時也會受到計算可用性的制約。

如果這項工作的預測是正確的,那麼毫無疑問數據將成為做模型繼續做大的主要制約因素,AI 的進展也會隨著數據量的耗盡而放緩。

但大模型畢竟是數據驅動的。阿里巴巴達摩院基礎視覺團隊負責人趙德麗博士曾告訴 AI 科技評論,數據側的建設將會成為每一個做大模型工作的機構必須要考慮的問題,大模型有多少能力,往往取決於你有什麼樣的數據。

舉個例子,趙德麗博士在從事生成模型的研究中發現,與文生圖大模型相比,做文生影片大模型要難得多,原因就在於影片數據的數量遠比不上文本和影像,更不要談數據的品質了。相應地,目前已有的文生影片模型的效果都不盡如人意。

不過,事情或許還沒那麼糟。

這項工作的作者承認,當前的預測結果更多是基於理想條件下的假設,即目前的數據使用和生產的趨勢將保持不變,且數據效率不會有大的改進。

但是,如果未來數據效率得到提高,大模型有可能並不需要更多數據就能實現同等的性能;

如果目前看來正確的 Scaling law 被證明為錯誤,那也就是說在數據很少的情況下,即使數據效率沒有提高,也會有其他更好的擴大模型規模的辦法;

如果通過遷移學習,多模態模型被證明比單模型模型性能更好,那麼也可以增加數據存量從而擴大各種數據模態存量的組合;

就數據存量本身,如果對數據進行組合使用,甚至可以無限增加數據存量;如果社會經濟方面發生重大轉變,也可能會產生更多新的數據種類,例如等到自動駕駛汽車大規模普及,那麼道路影片的記錄數據將會大大增加。

以上這些「如果」或許正是大模型的未來所在。

更多內容,點擊下方關註:
掃碼添加 AI 科技評論 微訊號,投稿&進群:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

公眾號轉載請先在「AI科技評論」後台留言取得授權,轉載時需標註來源並插入本公眾號名片。

雷峰網