90TB顯示記憶體!NVIDIA 發布新一代SuperPOD超頻,AI算力新巔峰!
- 2021 年 4 月 19 日
- AI
周一,黃教主又很淡定的在自家廚房裡開完了GTC發布會

眾所周知,NLP領域的模型一個比一個大,自從百億參數的Google T5出來後,大部分AI研究者只能望著手裡的蹩腳算力興嘆。如今動輒就是千億、萬億參數模型,目前比較流行的V100主機顯然已經無法滿足需求。而本周剛落幕的GTC發布會,則為如今的萬億模型想像力的時代提供了一份極其重要的保障,不僅使得造萬億模型都成為了可能,甚至打開了通往十萬億乃至更大想像力算力密集型AI模型之路的潘多拉魔盒。 這其中的關鍵,就是在本屆GTC大會上全新升級的DGX SuperPOD。
為AI而生的超頻
首先用一張圖來類比DGX SuperPOD、DGX A100以及A100計算卡之間的關係:

DGX SuperPOD 是專門為AI量身訂製的大規模、安全、可擴展的超級電腦,不僅在整個企業範圍內保護和擴展AI算力,並且還提供相關的配套軟體來完成集群操作,幫助企業開發者更好的調度和管理算力。
如今人工智慧已經幾乎滲透到現代商業的方方面面,相應的,模型訓練對算力的渴求也以持續呈指數級增長,並且遠遠未到邊界。尤其是在自然語言處理、推薦系統和生物計算等AI核心業務應用上,動輒千億、甚至萬億級別參數量的模型已經成為了當下的熱門研究方向。

另一方面,隨著AI對全領域的滲透,互聯網公司也在謀求一種更加安全、便捷、大規模、可擴展、數據可隔離的集群式解決方案,從而為全公司的諸多業務和研究團隊提供服務,以支援不斷變化的項目需求和算力需求。
而DGX SuperPOD 恰到好處的滿足了這份想像力。
2019年,NVIDIA 基於多台DGX系統構建了第一代SuperPod系統,該超頻以遠低於一般超頻的成本和能耗躋身性能世界前20之列。
2020年,NVIDIA揭開了第二代SuperPOD的帷幕。該產品不但具有創紀錄的性能,而且能夠在短短三周內完成部署。它的出現使得構建世界一流AI超級計算集群所需的時間不再需要花費漫長的數個月。第二代SuperPOD基於DGX A100系統和Mellanox網路架構構建,其證明了可以憑藉單個平台將全球最複雜語言理解模型的處理時間從數周縮短至一個小時之內。
而在本屆GTC大會上,我們看到DGX SuperPOD 又迎來了一波全面的升級。此外,新一代SuperPOD 極大的解放了部署效率,大幅降低了AI算力集群的購置成本,並且具備算力線性擴展能力和完備的技術支援,使得這份AI巔峰算力具備切實的企業內落地能力。
算力巔峰,成本可期,撐起百萬億參數模型
相比上一代SuperPOD系統,本次新發布的SuperPOD 配備了目前最先進的80GB顯示記憶體的加強版A100,為SuperPOD 帶來可達90TB的HBM2顯示記憶體,以及高達2.2EB/s的總頻寬!
這是什麼概念呢?

以上圖NLP發展軌跡為例,自2018年ELMo誕生之日起,NLP預訓練語言模型的參數量就迎來了持續的指數爆炸級增長,如今語言模型參數量已經從三年前的不足1億,爆炸式增長至1750億。可以預見的是,按照這份增長速度,到2023年時,語言模型達到 100萬億 的參數量規模都是值得想像的。而SuperPOD高達90TB的HBM2顯示記憶體容量,甚至可以撐起這份百萬億模型參數的想像力!
而在頻寬方面,要知道,在傳統的高性能計算解決方案中,若實現2.2EB/s的總頻寬,需要多達11,000台CPU伺服器,大約相當於有250個機櫃的數據中心,比SuperPOD整整多了15倍!這意味著我們的數據中心僅需要很少的物理空間,就能裝得下這份頂級算力。

這個代表如今AI算力巔峰的超頻在價格上卻離我們並不遙遠,DGX SuperPOD的報價自 700萬美元 起,並且6000萬美元即可擴展至完整版的系統,實現高達 700 PetaFLOPs 的恐怖算力。
BlueField-2 DPU
值得注意的是,藉助NVIDIA BlueField-2,新發布的SuperPOD成為了世界上首台雲原生超級電腦,支援多租戶共享,具備完全的數據隔離和裸機性能。
雲原生超級計算(Cloud-Native Supercomputing)是下一代超級計算的重要組成部分。雲原生超級電腦將高性能計算與雲計算服務的安全性和易用性相結合,換句話說,雲原生超級計算為HPC雲提供了一個與TOP500超級電腦一樣強大的系統,多個用戶可以安全地共享該系統,而不會犧牲其應用程式的性能。

NVIDIA以其最新的DGX SuperPOD形式向全球用戶提供雲原生超級電腦,其中就包括現已投入生產的NVIDIA BlueField-2數據處理單元DPU(Data Processing Unit)。
越來越多的企業需要將高性能AI計算推進到實操模式,在這種模式下,許多開發人員可以確保他們的工作像在雲中一樣安全且隔離。
NVIDIA BlueField-2 DPU 是針對企業級部署和支撐200 Gbps網路連接進行研發優化的計算模組。不僅企業獲得了加速的,完全可編程的網路,同時該網路實現了零信任安全性以防止數據泄露,完美地隔離用戶和數據,擁有和裸機同樣的性能表現。
現在,每個DGX SuperPOD都具有此功能,在其中的每個DGX A100節點中集成了兩個NVIDIA BlueField-2 DPU。 IT管理員可以使用NVIDIA BlueField DPU的卸載,加速和隔離功能為共享的AI基礎架構實施安全的多租戶,而不會影響DGX SuperPOD的AI性能。
Base Command
Base Command Manager是為DGX SuperPOD配備的專用管理軟體,負責協調 DGX SuperPOD 基礎架構上的 AI 模型訓練和相關操作,讓世界各地的開發團隊能夠順利開展工作。值得一提的是,Base Command也是NVIDIA 內部使用的DGX管理和操作工具,其可以讓多個用戶和 IT 團隊安全地訪問、共享和操作 DGX SuperPOD 基礎架構。

目前,NVIDIA 正在使用Base Command為數千名工程師和200多個團隊提供支援,每周使用超過100萬個GPU小時。
Base Command Manager由用於大規模、多用戶和多團隊AI開發工作流的NVIDIA基本命令平台和用於集群管理的NVIDIA基本命令管理器組成。其中,基本命令平台提供了一個圖形用戶介面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。團隊leader也可以通過它設置項目優先順序,評估、預測算力需求。
用戶通過命令平台可以非常方便的管理自己的訓練任務、計算環境、數據集和工作空間等,以及配置任務需要的計算量(GPU節點數)等。如下圖所示,圖形化介面非常直觀友好。

此外,在基本命令平台上,我們可以非常清晰的看到所提交任務的運行時長、GPU利用率甚至更深層次的Tensor Core活躍度、顯示記憶體活躍度、通訊負載等實時參數變化,幫助我們深入的監控、監測和調試模型訓練。如下圖所示。

小時級超頻部署效率
在傳統的搭建流程中,一項關鍵性的工作就是要預先規劃好你需要將你的基礎設施擴展到多大的規模,然後開始構建網路架構,直至達到最終目標。雖然這種方法能夠實現增長,但會產生大量前期成本。搭建一個傳統的數據中心,不僅需要一個大型的專業技術團隊,而且往往要耗費數個月才能完成,時間、空間和金錢成本高昂。
而新一代DGX SuperPOD不僅有著恐怖的計算性能,而且部署效率方面也有了極大的提升。實際證明,4名由NVIDIA 專業調配的操作人員僅需不到1個小時,就能組裝起一套由20台系統組成的DGX A100集群,並且憑藉Mellanox的交換功能可以輕鬆地將多個系統互連在一起,以至最終達到SuperPOD的規模。此外,如前文所述,同等頻寬下,新一代SuperPOD相比傳統CPU集群更是可以節約高達15倍的數據中心物理空間。

憑藉這種新的拓展方式,不僅超頻的部署效率和成本控制有了極大的改善和保障,企業機構還可以實現近乎線性的算力擴展,而且每次增加這一個這種由20台DGX系統構成的SuperPOD 模組時所產生的支出也將變得更少。
最後,貼一張GTC大會後的NVIDIA 股價走勢圖
