為何全球TOP10超級電腦8台都選NVIDIA ?三大原因

本周,又是一年一度的高性能計算大會ISC。6月23日,又逢超級電腦TOP500榜單更新的時間。根據TOP500剛剛發布的超頻TOP500榜單,中國部署了226台位列第一,美國部署了114台名列第二,日本以30台位居第三。

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因
2020年6月更新的TOP500超頻系統排名

細看這份最新的榜單,可以發現TOP10的超級電腦中有8台採用了NVIDIA GPU、InfiniBand網路技術,或同時採用了兩種技術。TOP500榜單的系統中,有333套(三分之二)採用了NVIDIA 的技術。

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因
TOP500超頻系統採用NVIDIA GPU、Mellanox網路技術,或同時採用了這兩種技術數量

三年前的2017年6月,TOP500榜單使用NVIDIA 和Mellanox(被NVIDIA 以69億美元收購)的系統為203套,不到TOP500個超頻系統的一半。為什麼在超頻領域NVIDIA 能進展如此迅猛?TOP100超頻為何要選NVIDIA ?

高速數據互聯技術普及

NVIDIA 願意以高價收購Mellanox的重要原因是高速數據互聯在大數據時代變得越來越重要,在超頻系統里尤為明顯。自2019年11月以來,TOP500榜單上使用HDR InfiniBand的系統數量幾乎增加了一倍。共有141台超級電腦使用了InfiniBand,自2019年6月以來增長了12%。

如今,TOP500榜單上有將近四分之三(74%)的全新InfiniBand系統採用了NVIDIA Mellanox HDR 200G InfiniBand,這是智慧高速數據互聯技術迅速普及的一個體現。另外,在TOP500超級電腦中,有305套系統使用了NVIDIA Mellanox InfiniBand和Ethernet網路(佔61%)。

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因
InfiniBand為排名前10的超級電腦中的7台提速

ISC期間,NVIDIA 又宣布推出Mellanox UFM Cyber-AI平台,新的平台運用AI分析技術檢測安全威脅和運行問題並預測網路故障,能夠大幅減少InfiniBand數據中心的停機時間。

收購Mellanox和智慧高速數據互聯迅速普及是讓NVIDIA 的產品在TOP500榜單中比例迅速提升的一個關鍵,但作為超頻系統,性能更為關鍵。

超高性能系統像積木一樣搭建

特別是,當下AI和分析已成為科學計算中的新需求,全球各地的研究者都正在使用深度學習和數據分析預測各種最具潛力的領域,進而開展實驗。GTC2020上,NVIDIA 就表示位於美國阿貢國家實驗室的研究者使用24台NVIDIA DGX A100系統組成的集群對數十億種藥物進行掃描,以尋找COVID-19的治療方法。

NVIDIA 最新發布的安培(Ampere)架構GPU A100正是推動超頻系統選用NVIDIA 產品的關鍵之一。在一台6U伺服器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網路技術的NVIDIA DGX A100 AI系統單節點性能達到了創紀錄的5 petaflops。由140台 DGXA100系統組成的新一代DGX SuperPOD的AI算力更是高達700 Petaflop。

這對於競爭已經到了百萬兆級超頻而言,意義重大,並且,這個系統具有很好的擴展性。NVIDIA 表示, DGX SuperPOD架構設計展示了如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機連接20台DGX A100系統。4名操作人員僅需不到1個小時,就能組裝起一套由20台系統組成的DGX A100集群,創建出一套性能可以達到2-petaflops的系統。

據悉,通過添加NVIDIA Mellanox InfiniBand交換機層,NVIDIA 工程師將14套分別配置有20台DGX A100系統的模組組的相連接,打造出了Selene。Selene系統具有:

280台 DGX A100系統

2240顆NVIDIA A100 GPU

494台NVIDIA Mellanox Quantum 200G InfiniBand交換機

56 TB/s的網路架構

7PB的高性能全快閃記憶體

Selene最重要的性能規格之一是可以提供超過1 exaflops的AI性能。並且,在TPCx-BB關鍵數據分析基準測試中,使用了16台DGX A100系統就創造了新紀錄,性能表現高出其他系統20倍。

在ISC 2020期間,NVIDIA 還宣布推出PCIe版本的A100,為的是補充上月發布的四卡和八卡NVIDIA HGX A100配置,這樣,伺服器製造商就能夠提供從內置單個A100 GPU的系統到內置10個或10個以上GPU的伺服器,進一步更好地滿足超頻系統構建需求。

除了性能,TOP500超頻系統也非常關注能耗,這也是NVIDIA 能吸引超頻系統製造商的另一大原因。

能效平均提升2.8倍

根據NVIDIA 的說法,在能效方面,TOP500超頻使用NVIDIA GPU的系統與不使用的相比,能效(以gigaflops/watt為單位)平均高出2.8倍。最能證明這個優勢的是上面提到的NVIDIA 內部研究集群新成員Selene。

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因

據悉,Selene在Linpack基準測試中以27.5 petaflops的性能表現,在最新Green500榜單中排名第二,TOP500榜單中排名第七。Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差不大,但排名第一的MN-3系統體積更小,性能表現排在第394位。

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因
NVIDIA GPU平均提高TOP500超級電腦能效2.8倍

值得一提的是,Selene是TOP100系統中唯一突破20 20 gigaflops/watt能效表現大關的系統,也是全球性能排名第二的工業超級電腦,僅次於義大利能源巨頭Eni S.p.A.的No. 6 系統。

而Selene的能效比TOP500系統的平均表現比未使用NVIDIA GPU的超頻系統高出了6.8倍。這種性能和能效是歸功於A100 GPU中的第三代Tensor Core核心,最新一代Tensor Core可以為傳統的64位數學模擬及精度較低的AI工作提供加速。

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因

雷鋒網小結

高性能計算處理器是一家公司產品性能領導力的體現,更是生態實力的體現。NVIDIA 在ISC 2020期間宣布,今年夏天預計有30款搭載A100的伺服器上市,年底還會有20多款系統上市。包括華碩、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、聯想、One Stop Systems、Quanta/QCT和Supermicro。

黃仁勛在GTC2020上強調,DGX A100系統可以實現高利用率和低總擁有成本。當以高售價廣為人知的NVIDIA 高性能GPU開始強調總體擁有成本和能效時,對於市場時的其他競爭者而言無疑是一個壞消息,這也正是吸引更多超頻系統使用NVIDIA 產品的關鍵因素。

並且,NVIDIA 也推出了為安培架構和A100優化的軟體支援,包括CUDA 11、50多個CUDA-X庫的新版本; 多模式對話式AI服務框架NVIDIA Jarvis;深度推薦應用框架 NVIDIA Merlin; RAPIDS開源數據科學軟體庫套件;NVIDIA HPC SDK。

正在通過軟硬體產品幫助開發者構建並加速HPC、基因組學、5G、數據科學、機器人學等領域的應用的NVIDIA ,未來重點的提升方向會在哪?

為何全球TOP10超級電腦8台都選NVIDIA ?三大原因

特惠商品推薦>>

美團外賣紅包天天領取
騰訊影片會員年費99元/京東plus聯合年卡128元
葵花50隻一次性兒童醫用口罩小孩專用非外科 券後49.9元
手持迷你usb小風扇 券後價7.9元
南極人充電式聲波電動牙刷 券後價7.9元
超輕透氣減震跑步運動鞋 券後價79元
8H舒適凝膠坐墊發布:高彈似果凍 透氣清涼