轉載 | 全球最大中文單體模型來了！2600億參數，AI產業規模化應用可期

2022 年 7 月 8 日
AI
其他

上學時候，有的同學花費大量時間去死記硬背，成績卻不一定好。
而學霸們往往有這樣的心得：在刷題之外還要總結知識體系，事半功倍。
人學習過程中的這一現象，在機器學習領域似乎同樣得到應驗。
以巨頭們競爭的熱點NLP大模型為例，一味增加參數規模就相當於給AI更多的背誦資料。費時費力不說，有些只能從訓練數據的海量文本中學到一些詞句之間表面的關聯。
強如GPT-3也無法用常識判斷出問題本身是否成立，只要提問的時候使壞設個套，它就真的往裡鑽。

有網友提問「長頸鹿有幾隻眼睛？」，GPT-3能從文本中能學到，正確回答出兩隻，這很厲害。
再問「我的腳有幾隻眼睛？」這樣沒頭腦的問題，GPT-3也不會拒絕回答，而是根據概率猜測出最大可能性也是兩隻。
△像極了考試沒讀懂題目還要硬猜的學渣

如果用上知識增強技術，讓AI同時從大規模知識和海量多元數據中持續學習會如何？
其實知識增強大模型的威力，業界在7月份已經見證了一次。
ERNIE 3.0一舉刷新54個中文 NLP 任務基準，其英文模型在國際權威的複雜語言理解任務評測 SuperGLUE 上，以超越人類水平0.8個百分點的成績登頂全球榜首。
ERNIE 3.0具備超強語言理解能力以及寫小說、歌詞、詩歌、對聯等文學創作能力。

不到半年時間，知識增強大模型這一方向上又傳來新消息。
這一次，知識增強大模型參數達到2600億，既是全球首個千億級知識增強大模型，也是目前全球最大的中文單體模型。
有這樣豪華的配置，實際表現如何？
新模型在機器閱讀理解、文本分類、語義相似度計算等60多項任務中都取得了最好效果。
在30多項小樣本和零樣本任務上，也刷新了基準。
△小樣本學習效果

△零樣本學習效果
究其原因，是大規模知識+海量無結構數據，讓AI在知識的指導下學習效率更高，能夠更快地學習到海量數據中蘊含的規律。
所表現出來的也就是更加智能。
僅僅說刷榜、跑分等乾巴巴的數據可能無法激發你的想像力，如果說這給大模型產業化規模應用打開了新窗口呢？
突破小樣本、零樣本學習問題，一方面能節省人工標註數據的昂貴成本，另一方面更是為本身就缺少足夠數據的新場景帶來希望。
試想醫療領域，有些罕見病歷史上所有病曆數據都收集起來，也不足以支撐傳統預訓練大模型。
像突發新型傳染病這種爭分奪秒的事件，如果AI可以在初期數據不足時也參與進來，病毒的破解研究和防治工作或許也能提速不少。
說了這麼多，是時候正式介紹一下這次的知識增強千億大模型了：鵬城-百度·文心大模型，由百度聯合鵬城實驗室共同研發。
△中國工程院院士、鵬城實驗室主任高文(左)、百度首席技術官王海峰(右)聯合發佈鵬城-百度·文心

5個月時間從百億到千億的突破，百度做了什麼？
知識增強千億大模型，會帶來哪些改變？
下面就來一探究竟。
知識增強千億大模型是怎樣煉成的？
千億參數，要想「煉」動這種體量的大模型，一個強勁的「馬達」是必不可少的。
說的直白一些，就是硬件層面上，需要提供一個強大的算力。
在這一方面，正如其名「鵬城-百度·文心」，它所採用的便是其前者——鵬城雲腦Ⅱ。
鵬城雲腦Ⅱ是一個算力集群，同時也是第一個國產自主的E級AI算力平台。或許這樣說還感受不到其算力的強大，但換個角度來比較便可一目了然了。
例如在全球高性能計算領域最權威榜單——IO500中，鵬城雲腦Ⅱ便曾以7043.99分和1129.75分「技壓群雄」，獲得了總榜第一名和10節點榜單第一名。

但除了算力這種「硬」功夫之外，與之相輔相成的還有其「軟」的一面。
就好比煉丹過程中，不僅需要旺盛的火力，煉丹師的技藝、手法也是至關重要。
而煉就千億大模型背後的這位「技巧型選手」，正是大家所熟知的百度飛槳。
不過這一次，飛槳這個深度學習開源開放平台，倒是展現出了它新煉成的核心技巧。
端到端自適應分佈式訓練框架。
值得一提的是，這框架是目前世界上為數不多的超大規模模型訓練框架。
與傳統的分佈式訓練方法相比，性能能夠提升2.1倍，並行效率可以高達90%。
這個框架在面對不同的模型和硬件的時候，可以把它們「看做」統一的分佈式計算視圖和資源視圖，並通過硬件感知細粒度切分和映射功能，搜索出最優的模型切分和硬件組合策略。
如此一來，諸如數據、模型參數、梯度、優化器狀態等，便會按照最優的策略分配到不同的計算卡上了。
除此之外，飛槳在訓練千億大模型時為了加強模型訓練的魯棒性和穩定性，還增加了彈性資源管理模塊。
通過分佈式訓練框架和平台調度器之間更好的交互，來實現容錯和彈性的分佈式訓練，從而提高整體資源利用率。
彈性資源管理模塊能感知硬件資源變化，如故障、擴容、縮容，來自動重新構建資源視圖，並觸發飛槳框架的各個模塊來自動的做出反應，如模型切分、硬件映射、流水執行，在不中斷訓練的情況下，彈性調度集群可用資源，來進一步提升整體的訓練的性能。
而且為了能夠在鵬城集群上高效訓練，飛槳還加入了支持多種AI芯片下硬件感知的訓練技巧。
除了軟硬結合之外，為了能更好地理解語言並生成內容，這次鵬城-百度·文心大模型在算法層面上也有創新之處：
可控學習和可信學習算法。

可控的意思，簡單來說就是不需要任何的標註樣本，就可以生成不同類型的文本。
甚至可以把指定的體裁、情感、長度、主題、關鍵詞等做自由組合。
具體而言，通過可控學習，可以把模型預測出來的文本，和原始文本做拼接，並構造從指定屬性生成對應文本的預訓練數據。
有了這樣的數據之後，模型就通過對它的學習，做到即使面對不同類型的文本，也能煉就零樣本生成的「功夫」。
至於可信學習，就是生成出來的內容是「符合事實」的。
在這一點上，就有點像GAN了，主要的方式是通過自監督的對抗訓練，來讓模型學會區分數據的真偽。
模型在學會了這項技能之後，就可以在眾多生成的候選內容中，挑出來最可靠的那個了。
最後，煉成鵬城-百度·文心大模型的背後，還有一個首創的大模型在線蒸餾技術。

這個技術要解決的，便是應用難落地的老大難問題。
因為大模型不論是訓練還是推理，需要消耗的資源都是非常密集且昂貴。
而在「在線蒸餾技術」的加持之下，模型參數壓縮率可達99.98%！
換言之，在幾乎相同的效果之下，壓縮版的參數量僅為原來的0.02%。
而相比於傳統的蒸餾技術，它可以在大模型學習的過程中，周期性地將知識信號傳遞給若干個學生模型同時訓練。
如此以來，就可以達到在蒸餾階段一次性產出多種尺寸的學生模型的目的。
就好比老師也需要學習，學成之後再將自己總結的筆記拿給學生們去學習。
而有了這項技術之後，就可以做到「老師學習的同時還能教學生」的作用。
再打個比方就是，如果大模型去參加一個考試能拿100分，那通過在線蒸餾技術後，壓縮5000倍的小模型也能考出96分的高分成績。
但更為重要的是，算力僅需原來的1/5000。
……
這，便是鵬城-百度·文心千億大模型的煉就過程。
那麼在具體應用場景上，知識增強大模型與其他模型相比有什麼優勢？
打10010就能體驗的大模型
其實，百度這次除了發佈鵬城-百度·文心千億大模型，還讓百度產業級知識增強大模型「文心」全景圖亮了相。
沒想到吧，這樣學霸級別的大模型不止一個，還有一整個大模型家族。
文心大模型中，既包含基礎通用的大模型，也包含面向重點領域、重點任務的大模型，以及豐富的工具與平台，能夠促進技術創新和產業發展。

知識增強跨語言大模型ERNIE-M，同時從多種語言中學習，讓機器有了同時學習和理解多種語言的能力，權威跨語言理解榜單第一名；
知識增強跨模態理解大模型ERNIE-ViL，將場景圖的結構化知識融入預訓練，在視覺常識推理任務榜單獲得第一名；
知識增強跨模態生成大模型ERNIE-ViLG，實現圖文雙向生成，也是全球規模最大中文跨模態生成模型。
……
不過說了這麼多，效果好不好，只有用起來才知道。
而大模型「出山」下場的地方之一，是與許多人的日常所息息相關的場景——中國聯通。

對於中國聯通來說，每天都會面臨來自用戶的海量需求，包括業務諮詢、業務辦理、問題解答等等。
對於諸如此類的業務需求，又需要馬上作出回應，而且要理解用戶的問題並給予滿意的答覆。
培訓大量的業務員所需要投入的人力、物力之大，基於中國聯通的客戶體量也就可想而知了。
於是，針對這樣的一種現實情況，聯通便和百度攜手，基於百度文心大模型打造了一款可定製的對話技術。
具體而言，這項技術採用了百度文心大模型的語義表示能力，建立了面向對話理解問題的專用預訓練模型。
換言之，現在你打「10010」諮詢業務問題，作出絲滑解釋的背後，正是大模型在發力。
或許你會說，類似這種功效的智能客服AI在電商等場景中經常也能看到。
但也正如剛才我們提到的，百度文心大模型一個非常顯著的特點，就是降本增效。
在聯通的這個場景中，模型對於數據標註量的需求降低了45%，如此一來便做到了在人力和物力上的「雙重釋放」。
而不僅僅是在聯通這個案例，百度文心大模型在金融領域也在發揮着它的作用，例如保險合同業務處理，就是其中一個。

一般來說，一份保險合同需要完成近40個類目的條款解析分類，如果採用人工的方式去處理，那麼一份合同大概需要小半天的時間。
再細分到每個員工，那麼一個人每天至多僅能處理20份左右的保險合同。
那麼如果面對海量的合同需求，隨即而來的便是人工的成本、處理的效率等一系列問題。
而基於文心大模型，百度與金融領域的客戶便打造了保險合同條款智能解析模型。
這個模型可以對合同作出智能分類，由它做「輔助」，一個業務員處理一份合同的時間就驟減到了1分鐘，速度是此前的幾十倍了。
據了解，目前這款模型已經覆蓋百餘份合同模板，完成了上億份合同條款的智能分類，而且還是一天之內就能上線的那種。
……
由此可見，諸如百度文心大模型的能力，已經不單單是科研上的大勢所趨，更是行業眾多領域實打實所需要的需求。
其能夠體現的核心價值便是降本增效，而這也是與當今數字化轉型大浪潮的目標相契合。
那麼接下來一個問題便是，大模型的能力該如何鋪開來大規模的用起來。
對外開放，開發者不必重複造輪子
雖說知識增強大模型有千般好，如何把AI能力向外輸出，讓大家都能用上也是產業化大規模應用的關鍵。