512 GPU！10萬億！阿里AI創全球最大記錄

11月8日，阿里巴巴達摩院公布了多模態大模型「M6」的最新進展，其參數已從萬億躍遷至10萬億，成為全球最大的AI預訓練模型。

作為通用性AI大模型，M6擁有多模態、多任務能力，尤其擅長設計、寫作、問答，在電商、製造業、文學藝術、科學研究等領域有廣泛應用前景。

與傳統AI相比，大模型擁有成百上千倍「神經元」數量，認知和創造能力也更勝一籌，被普遍認為是未來的「基礎模型」。

但是，大模型的算力成本相當高昂，比如訓練1750億參數語言大模型GPT-3所需能耗，能讓一輛汽車在地月之間往返一趟。

今年5月，通過專家並行策略及優化技術，達摩院M6團隊將萬億模型能耗降低超過80％，效率提升近11倍。

10月，M6再次突破業界極限，使用512顆GPU，在10天內就訓練出了具有可用水平的10萬億模型，相比去年發布的大模型GPT-3，M6實現了同等參數規模，能耗卻只有1％。

另一方面，AI大模型擴展到千億及以上參數的超大規模時，很難放在一台機器上，為此達摩院在阿里雲PAI自研Whale框架上搭建了MoE模型，並通過更細粒度的CPU offload技術，最終實現將10萬億參數放進512張GPU：

自研Whale框架：

自研Whale分散式深度學習訓練框架，針對數據並行、模型並行、流水並行、混合併行等多種並行模型進行了統一架構設計，讓用戶在僅僅添加幾行API調用的情況下就可以實現豐富的分散式並行策略。

MoE專家並行策略：

在Whale架構中實現Mixture-of-Experts（MoE）專家並行策略，在擴展模型容量、提升模型效果的基礎上，不顯著增加運算FLOPs（每秒所執行的浮點運算次數），從而實現高效訓練大規模模型的目的。

CPU offload創新技術：

在自研的分散式框架Whale中通過更細粒度的CPU offload，解決了有限資源放下極限規模的難題，並通過靈活地選擇offload的模型層，進一步地提高GPU利用率。

此外，針對訓練效率問題，M6團隊設計了Pseudo-to-Real（共享解除）機制，即利用訓練好的共享參數模型初始化大模型，讓收斂效率進一步提升7倍，解決大模型訓練速度慢的問題。

對比不使用該機制，預訓練達到同樣loss用時僅需6％；和此前萬億模型相比，訓練樣本量僅需40％。

作為中國首個商業化落地的多模態大模型，M6已在超40個場景中應用，日調用量上億。

今年，大模型首次支援雙11，應用包括但不限於：

－ M6在犀牛智造為品牌設計的服飾已在淘寶上線；

－憑藉流暢的寫作能力，M6正為天貓虛擬主播創作劇本；

－依靠多模態理解能力，M6正在增進淘寶、支付寶等平台的搜索及內容認知精度。

M6設計的飛行汽車

未來，M6將積極探索與科學應用的結合，通過AI for science讓大模型的潛力充分發揮，並加強M6與國產晶片的軟硬一體化研究。

目前，達摩院聯合阿里雲已推出M6服務化平台，為大模型訓練及應用提供完備工具，首次讓大模型實現「開箱即用」，演算法人員及普通用戶均可方便地使用平台。