AI 大模型最新突破：幫科學家讀論文，小菜一碟

2022 年 11 月 17 日
AI

科研者的福音。

作者 | 施方圓

編輯 | 陳彩嫻

自人類邁入信息時代開始，信息資源總量越來越多，信息過載的現象非常嚴重。

英國學者帶姆·喬丹曾說：「擁有太多信息使信息的利用變得不可能。」美國工程師 Vannever Bush 也觀察到信息過載的情況，在上個世紀就提出通過計算機來解決日益龐大的信息量問題。

Meta AI 新近推出的語言大模型 Galactica，正是在這樣的背景下誕生。

由於語言模型可以潛在地儲存、組織和推理科學知識，所以語言模型可以作為一種工具幫人類處理大量的信息。例如，語言模型可以在一個文獻訓練中發現不同研究中潛在的聯繫，並讓這些見解浮出水面。Galactica 通過自動生成二次內容來整合知識，將論文與代碼連接起來，為科學研究提供動力。

目前，Meta AI 已開放了 Galactica 所有模型的源代碼。

論文地址：//galactica.org/static/paper.pdf

github地址：//github.com/paperswithcode/galai

精心設計的語料庫

近年來，大型語言模型在 NLP 任務上取得了突破性的進展。這些模型在大型通用語料庫上進行自我監督訓練，並在數百個任務中表現良好。

但自監督的一個缺點是傾向使用未經整理的數據，模型可能反映語料庫中的錯誤信息、刻板印象和偏見等。對於重視真理的科學任務來說，這是不可取的，未經整理的數據也意味着會浪費更多算力預算。

Galactica 用一個大型科學語料庫訓練一個單一的神經網絡，以學習不同的科學語言。Galactica 的語料庫包括了論文、參考資料、百科全書和其他學科資源的 1060 億個 token 組成，集合了自然語言來源，如論文、教科書和自然序列，如蛋白質序列和化學公式，能夠捕捉到 LATEX 並對其進行處理，同時還用學術代碼捕捉計算科學。

與其他規模更大、未經策劃的大型語言模型項目相比，Galactica 使用的數據集規模更小，而且是經過精心策劃的，這很關鍵，即我們能否在一個經過策劃和規範的語料庫上製造一個好的大型語言模型。如果可以，我們就能通過設置語料庫的內容，更有目的性地設計出大型語言模型。

研發者們主要通過專業化標記來設計數據集，這會形成不同的模態，例如：蛋白質序列是根據氨基酸殘基來寫的。研發團隊還對不同模態進行了專門的標籤化。在處理好了數據集後，研發者們在 Galactic 的解碼器設置中使用了 Transformer 架構，並進行了以下修改：

GeLU 激活——對所有模型的尺寸都使用了 GeLU 激活；

上下文窗口——對所有的模型尺寸都使用了 2048 長度的上下文窗口；

無偏差——遵循 PaLM ，不在任何密集核或層規範中使用偏差；

學習的位置嵌入——對模型使用學習的位置嵌入，在較小的尺度上試驗了 ALi Bi ，但沒有觀察到大的收益，所以研發者們沒有使用它；

詞語——使用 BPE 構建了一個包含 50k 個標記組成的詞彙表，詞彙量是由隨機選擇的 2% 的訓練數據子集中產生的。

實驗效果

研發者們還對大型語言模型作為科學模式和自然語言之間的橋樑的潛力進行了初步調查，展示了 Galactica 可以通過自監督來學習 IUPAC 命名等任務。他們發現，增加連接自然語言和自然序列的數據及數量和大小可能進一步提高模型的性能。

研發者們認為語言模型有更多潛力承擔目前人類所擅長的事情。

而且為了考察 Galactica 吸收知識的情況，研發者們還建立了幾個知識探針的基準，並用於確定語料庫內的知識差距，並告知如何確定語料庫內的知識差距和迭代語料庫。

另外，Galactica 在推理方面表現十分出色，在數學 MMLU 上的表現優於 Chinchilla 41.3% 至 35.7%，在 MATH 上的 PaLM 540B 得分分別為 20.4% 和 8.8%。