轉載 | 全球最大中文單體模型來了!2600億參數,AI產業規模化應用可期

上學時候,有的同學花費大量時間去死記硬背,成績卻不一定好。
而學霸們往往有這樣的心得:在刷題之外還要總結知識體系,事半功倍。
人學習過程中的這一現象,在機器學習領域似乎同樣得到應驗。
以巨頭們競爭的熱點NLP大模型為例,一味增加參數規模就相當於給AI更多的背誦資料。費時費力不說,有些只能從訓練數據的海量文本中學到一些詞句之間表面的關聯。
強如GPT-3也無法用常識判斷出問題本身是否成立,只要提問的時候使壞設個套,它就真的往裡鑽。

有網友提問「長頸鹿有幾隻眼睛?」,GPT-3能從文本中能學到,正確回答出兩隻,這很厲害。
再問「我的腳有幾隻眼睛?」這樣沒頭腦的問題,GPT-3也不會拒絕回答,而是根據概率猜測出最大可能性也是兩隻。
image.png△像極了考試沒讀懂題目還要硬猜的學渣

如果用上知識增強技術,讓AI同時從大規模知識和海量多元數據中持續學習會如何?
其實知識增強大模型的威力,業界在7月份已經見證了一次。
ERNIE 3.0一舉刷新54個中文 NLP 任務基準,其英文模型在國際權威的複雜語言理解任務評測 SuperGLUE 上,以超越人類水平0.8個百分點的成績登頂全球榜首。
ERNIE 3.0具備超強語言理解能力以及寫小說、歌詞、詩歌、對聯等文學創作能力。
image.png

不到半年時間,知識增強大模型這一方向上又傳來新消息。
這一次,知識增強大模型參數達到2600億,既是全球首個千億級知識增強大模型,也是目前全球最大的中文單體模型。
有這樣豪華的配置,實際表現如何?
新模型在機器閱讀理解、文本分類、語義相似度計算等60多項任務中都取得了最好效果。
在30多項小樣本和零樣本任務上,也刷新了基準。
image.png△小樣本學習效果

image.png△零樣本學習效果
究其原因,是大規模知識+海量無結構數據,讓AI在知識的指導下學習效率更高,能夠更快地學習到海量數據中蘊含的規律。
所表現出來的也就是更加智能。
僅僅說刷榜、跑分等乾巴巴的數據可能無法激發你的想像力,如果說這給大模型產業化規模應用打開了新窗口呢?
突破小樣本、零樣本學習問題,一方面能節省人工標註數據的昂貴成本,另一方面更是為本身就缺少足夠數據的新場景帶來希望。
試想醫療領域,有些罕見病歷史上所有病曆數據都收集起來,也不足以支撐傳統預訓練大模型。
像突發新型傳染病這種爭分奪秒的事件,如果AI可以在初期數據不足時也參與進來,病毒的破解研究和防治工作或許也能提速不少。
說了這麼多,是時候正式介紹一下這次的知識增強千億大模型了:鵬城-百度·文心大模型,由百度聯合鵬城實驗室共同研發。
image.png△中國工程院院士、鵬城實驗室主任高文(左)、百度首席技術官王海峰(右)聯合發佈鵬城-百度·文心

5個月時間從百億到千億的突破,百度做了什麼?
知識增強千億大模型,會帶來哪些改變?
下面就來一探究竟。
知識增強千億大模型是怎樣煉成的?
千億參數,要想「煉」動這種體量的大模型,一個強勁的「馬達」是必不可少的。
說的直白一些,就是硬件層面上,需要提供一個強大的算力。
在這一方面,正如其名「鵬城-百度·文心」,它所採用的便是其前者——鵬城雲腦Ⅱ。
鵬城雲腦Ⅱ是一個算力集群,同時也是第一個國產自主的E級AI算力平台。或許這樣說還感受不到其算力的強大,但換個角度來比較便可一目了然了。
例如在全球高性能計算領域最權威榜單——IO500中,鵬城雲腦Ⅱ便曾以7043.99分和1129.75分「技壓群雄」,獲得了總榜第一名和10節點榜單第一名。
image.png
但除了算力這種「硬」功夫之外,與之相輔相成的還有其「軟」的一面。
就好比煉丹過程中,不僅需要旺盛的火力,煉丹師的技藝、手法也是至關重要。
而煉就千億大模型背後的這位「技巧型選手」,正是大家所熟知的百度飛槳。
不過這一次,飛槳這個深度學習開源開放平台,倒是展現出了它新煉成的核心技巧。
端到端自適應分佈式訓練框架。
值得一提的是,這框架是目前世界上為數不多的超大規模模型訓練框架。
與傳統的分佈式訓練方法相比,性能能夠提升2.1倍,並行效率可以高達90%。
這個框架在面對不同的模型和硬件的時候,可以把它們「看做」統一的分佈式計算視圖和資源視圖,並通過硬件感知細粒度切分和映射功能,搜索出最優的模型切分和硬件組合策略。
如此一來,諸如數據、模型參數、梯度、優化器狀態等,便會按照最優的策略分配到不同的計算卡上了。
除此之外,飛槳在訓練千億大模型時為了加強模型訓練的魯棒性和穩定性,還增加了 彈性資源管理模塊。
通過分佈式訓練框架和平台調度器之間更好的交互,來實現容錯和彈性的分佈式訓練,從而提高整體資源利用率。
彈性資源管理模塊能感知硬件資源變化,如故障、擴容、縮容,來自動重新構建資源視圖,並觸發飛槳框架的各個模塊來自動的做出反應,如模型切分、硬件映射、流水執行,在不中斷訓練的情況下,彈性調度集群可用資源,來進一步提升整體的訓練的性能。
而且為了能夠在鵬城集群上高效訓練,飛槳還加入了支持多種AI芯片下硬件感知的訓練技巧。
除了軟硬結合之外,為了能更好地理解語言並生成內容,這次鵬城-百度·文心大模型在算法層面上也有創新之處:
可控學習和可信學習算法。
image.png
可控的意思,簡單來說就是不需要任何的標註樣本,就可以生成不同類型的文本。
甚至可以把指定的體裁、情感、長度、主題、關鍵詞等做自由組合。
具體而言,通過可控學習,可以把模型預測出來的文本,和原始文本做拼接,並構造從指定屬性生成對應文本的預訓練數據。
有了這樣的數據之後,模型就通過對它的學習,做到即使面對不同類型的文本,也能煉就零樣本生成的「功夫」。
至於可信學習,就是生成出來的內容是「符合事實」的。
在這一點上,就有點像GAN了,主要的方式是通過自監督的對抗訓練,來讓模型學會區分數據的真偽。
模型在學會了這項技能之後,就可以在眾多生成的候選內容中,挑出來最可靠的那個了。
最後,煉成鵬城-百度·文心大模型的背後,還有一個首創的 大模型在線蒸餾技術。
image.png
這個技術要解決的,便是應用難落地的老大難問題。
因為大模型不論是訓練還是推理,需要消耗的資源都是非常密集且昂貴。
而在「在線蒸餾技術」的加持之下,模型參數壓縮率可達99.98%!
換言之,在幾乎相同的效果之下,壓縮版的參數量僅為原來的0.02%。
而相比於傳統的蒸餾技術,它可以在大模型學習的過程中,周期性地將知識信號傳遞給若干個學生模型同時訓練。
如此以來,就可以達到在蒸餾階段一次性產出多種尺寸的學生模型的目的。
就好比老師也需要學習,學成之後再將自己總結的筆記拿給學生們去學習。
而有了這項技術之後,就可以做到「老師學習的同時還能教學生」的作用。
再打個比方就是,如果大模型去參加一個考試能拿100分,那通過在線蒸餾技術後,壓縮5000倍的小模型也能考出96分的高分成績。
但更為重要的是,算力僅需原來的1/5000。
……
這,便是鵬城-百度·文心千億大模型的煉就過程。
那麼在具體應用場景上,知識增強大模型與其他模型相比有什麼優勢?
打10010就能體驗的大模型
其實,百度這次除了發佈鵬城-百度·文心千億大模型,還讓百度產業級知識增強大模型「文心」全景圖亮了相。
沒想到吧,這樣學霸級別的大模型不止一個,還有一整個大模型家族。
文心大模型中,既包含基礎通用的大模型,也包含面向重點領域、重點任務的大模型,以及豐富的工具與平台,能夠促進技術創新和產業發展。
image.png
知識增強跨語言大模型ERNIE-M,同時從多種語言中學習,讓機器有了同時學習和理解多種語言的能力,權威跨語言理解榜單第一名;
知識增強跨模態理解大模型ERNIE-ViL,將場景圖的結構化知識融入預訓練,在視覺常識推理任務榜單獲得第一名;
知識增強跨模態生成大模型ERNIE-ViLG,實現圖文雙向生成,也是全球規模最大中文跨模態生成模型。
……
不過說了這麼多,效果好不好,只有用起來才知道。
而大模型「出山」下場的地方之一,是與許多人的日常所息息相關的場景——中國聯通。
image.png
對於中國聯通來說,每天都會面臨來自用戶的海量需求,包括業務諮詢、業務辦理、問題解答等等。
對於諸如此類的業務需求,又需要馬上作出回應,而且要理解用戶的問題並給予滿意的答覆。
培訓大量的業務員所需要投入的人力、物力之大,基於中國聯通的客戶體量也就可想而知了。
於是,針對這樣的一種現實情況,聯通便和百度攜手,基於百度文心大模型打造了一款可定製的對話技術。
具體而言,這項技術採用了百度文心大模型的語義表示能力,建立了面向對話理解問題的專用預訓練模型。
換言之,現在你打「10010」諮詢業務問題,作出絲滑解釋的背後,正是大模型在發力。
或許你會說,類似這種功效的智能客服AI在電商等場景中經常也能看到。
但也正如剛才我們提到的,百度文心大模型一個非常顯著的特點,就是降本增效。
在聯通的這個場景中,模型對於數據標註量的需求降低了45%,如此一來便做到了在人力和物力上的「雙重釋放」。
而不僅僅是在聯通這個案例,百度文心大模型在金融領域也在發揮着它的作用,例如保險合同業務處理,就是其中一個。
image.png
一般來說,一份保險合同需要完成近40個類目的條款解析分類,如果採用人工的方式去處理,那麼一份合同大概需要小半天的時間。
再細分到每個員工,那麼一個人每天至多僅能處理20份左右的保險合同。
那麼如果面對海量的合同需求,隨即而來的便是人工的成本、處理的效率等一系列問題。
而基於文心大模型,百度與金融領域的客戶便打造了保險合同條款智能解析模型。
這個模型可以對合同作出智能分類,由它做「輔助」,一個業務員處理一份合同的時間就驟減到了1分鐘,速度是此前的幾十倍了。
據了解,目前這款模型已經覆蓋百餘份合同模板,完成了上億份合同條款的智能分類,而且還是一天之內就能上線的那種。
……
由此可見,諸如百度文心大模型的能力,已經不單單是科研上的大勢所趨,更是行業眾多領域實打實所需要的需求。
其能夠體現的核心價值便是降本增效,而這也是與當今數字化轉型大浪潮的目標相契合。
那麼接下來一個問題便是,大模型的能力該如何鋪開來大規模的用起來。
對外開放,開發者不必重複造輪子
雖說知識增強大模型有千般好,如何把AI能力向外輸出,讓大家都能用上也是產業化大規模應用的關鍵。

而百度表示,百度文心大模型都會通過百度自研的深度學習平台飛槳上逐步對外開源開放。

近年來,百度AI反覆強調的兩個關鍵詞是「融合創新」與「降低門檻」。

這次的鵬城-百度·文心以及文心知識增強大模型,就是多項融合創新積累起來的一次爆發。

技術研發上,知識與深度學習融合,改變了從神經網絡技術單點突破的局面。

降低模型的研發和使用成本,解決數據標註困難、模型可控可信度差等難題,增加在各個場景的泛化能力。

應用場景上,跨模態多技術融合,讓AI面對複雜的真實業務場景有了更多實用價值。

金融上的合同與報表、醫療影像與病例分析都是僅靠NLP或CV技術無法單獨完成的,而AI與人直接交流的場合更是需要視覺、語言、語音、知識共同參與。

落地部署上,百度飛槳深度學習框架、鵬城雲腦II的軟硬件融合釋放AI能力,首創大模型在線蒸餾技術更是節省千倍算力……

以上種種技術創新的積累終於產生質變,在傳統的定製化模型開發之上,開闢出基於通用大模型的個性化微調的新模式。

新技術、新模式通過算力中心和開放社區向全行業輸出AI能力,真正做到降低門檻。

通用大模型通過少量數據甚至無需數據就能訓練出特定業務場景的AI模型,讓開發模式變得可以複製,AI模型可輕鬆跨場景遷移。

以開源平台、算力中心為基礎構建產業生態,為醫療、金融、法律等垂直領域的中小企業降低創新成本,提高社會運行效率。

未來,學校、科研機構和企業也計劃參與到合作研發之中,這個過程中積累的數據、實現的應用場景、匯聚的開發者又能回過頭來反哺整個技術生態和產業生態。

在這條路上積累十年的百度看來,下一步,就是形成以社會化協作為特徵的AI大生產了。

Tags: