突破10萬億!中國實現全球最大AI預訓練模型
在人工智慧前沿領域,中國AI實現突破。
11月8日,阿里巴巴達摩院公布多模態大模型M6最新進展,其參數已從萬億躍遷至10萬億,規模遠超Google、微軟此前發布的萬億級模型,成為全球最大的AI預訓練模型。
同時,M6做到了業內極致的低碳高效,使用512 GPU在10天內即訓練出具有可用水平的10萬億模型。
相比去年發布的大模型GPT-3,M6實現同等參數規模,能耗僅為其1%。
M6是達摩院研發的通用性人工智慧大模型,擁有多模態、多任務能力,其認知和創造能力超越傳統AI,尤其擅長設計、寫作、問答,在電商、製造業、文學藝術、科學研究等領域有廣泛應用前景。
與傳統AI相比,大模型擁有成百上千倍「神經元」數量,且預先學習過海量知識,表現出像人類一樣「舉一反三」的學習能力。
因此,大模型被普遍認為是未來的「基礎模型」,將成下一代AI基礎設施。然而,其算力成本相當高昂,訓練1750億參數語言大模型GPT-3所需能耗,相當於汽車行駛地月往返距離。
今年5月,通過專家並行策略及優化技術,達摩院M6團隊將萬億模型能耗降低超八成、效率提升近11倍。
10月,M6再次突破業界極限,通過更細粒度的CPU offload、共享-解除演算法等創新技術,讓收斂效率進一步提升7倍,這使得模型規模擴大10倍的情況下,能耗未顯著增加。
這一系列突破極大降低了大模型研究門檻,讓一台機器訓練出一個千億模型成為可能。
同時,達摩院聯合阿里雲推出了M6服務化平台,為大模型訓練及應用提供完備工具,首次讓大模型實現「開箱即用」,演算法人員及普通用戶均可方便地使用平台。
達摩院還推出了當前最大規模的中文多模態評測數據集MUGE,覆蓋圖文描述、文本生成影像、跨模態檢索任務,填補了缺少中文多模態權威評測基準的空白。
作為中國首個商業化落地的多模態大模型,M6已在超40個場景中應用,日調用量上億。
今年,大模型首次支援雙11。M6在犀牛智造為品牌設計的服飾已在淘寶上線;憑藉流暢的寫作能力,M6正為天貓虛擬主播創作劇本;依靠多模態理解能力,M6正在增進淘寶、支付寶等平台的搜索及內容認知精度。
達摩院智慧計算實驗室負責人周靖人表示,「接下來,我們將深入研究大腦認知機理,致力於將M6的認知力提升至接近人類的水平,比如,通過模擬人類跨模態的知識抽取和理解方式,構建通用的人工智慧演算法底層框架;另一方面,不斷增強M6在不同場景中的創造力,產生出色的應用價值。」
據了解,達摩院語言大模型PLUG近期也已升級至2萬億參數,成為全球最大中文語言模型,其所屬AliceMind語言模型體系同樣推出了服務化平台。