全球超頻TOP500:美國史詩級突破、中國笑而不語

2022年5月30日,在德國漢堡舉行的 ISC 2022公布了第59屆的全球超頻TOP500榜單,位於美國橡樹嶺國家實驗室 (ORNL) 的新型超級電腦Frontier以絕對優勢,成功超越日本的Fugaku,成為了全球最強超級電腦,同時也是全球首個真正的百億億次超級電腦。中國的神威·太湖之光和天河二號排名下滑至第六和第九。

百億億次超級電腦Frontier:性能最強,能效最高

據介紹,Frontier 在美國橡樹嶺國家實驗室的計算設施 (OLCF) 佔地 372 平方米,由 74 個 Cray EX 機櫃組成,擁有 9,408 個節點,每個節點配備一個 AMD Milan 「Trento」 7A53 Epyc CPU 和 四個AMD Instinct MI250X GPU(GPU核心總數達到了37,632)。

每個節點通過 Hewlett Packard Enterprise(HPE)的 200 Gbit/秒的Slingshot-11 互連連接。

每個節點在 CPU 上運行 512GiB DDR4 記憶體,在整個節點上運行了 512GiB HMB2e(每個 GPU 128GiB)以及一致的記憶體。

[備註:1GiB=(1024*1024*1024)B=1073741824B

1GB(1000*1000*1000)B=1000000000B)]

全球超頻TOP500:美國突破百億億次、中國笑而不語

全球超頻TOP500:美國突破百億億次、中國笑而不語

全球超頻TOP500:美國突破百億億次、中國笑而不語

整個Frontier 系統聚合了8730112個計算核心,9.2 PB 的記憶體(包括4.6 PB 的 DDR4 和 4.6 PB 的 HBM2e),37 PB 的節點本地存儲,並可訪問 716 PB 的中心範圍存儲。

憑藉強大的硬體配置,Frontier在 Linpack 基準測試下達到了1.102 exaflops 的峰值實測性能,是排名第二的日本Fugaku性能(442 petaflops)的兩倍,比TOP500榜單上第2至8名性能的總和還要高。

全球超頻TOP500:美國突破百億億次、中國笑而不語

美國橡樹嶺國家實驗室主任Thomas Zacharia 在昨天舉行的媒體預先簡報會上說:「1.1 exaflops的性能,很容易四捨五入而忽視這個0.1,但這個 0.1 代表了 100 petaflops的巨大性能。」

此外,TOP500榜單上還列出了Frontier的理論最大峰值速度 (rPeak),但 HPE 和 美國橡樹嶺國家實驗室 及其他相關者,希望進一步的進行優化,以將Frontier的理論峰值速度提高到 2 petaflops 的項目目標。

在這種情況下,Linpack 得分也將得到提高(Linpack 效率也可能提高,目前僅為 65.4%)在昨天舉行的媒體簡報會上,Thomas Zacharia也證實了這一消息。

更為值得一提的是,Frontier功耗僅為21,100KW,比排名第二的Fugaku的29,899KW功耗還要更低。同時,Frontier還以每瓦 52.23 gigaflops 的極高能效比,超過了日本的 Preferred Networks MN-3 系統,在 Green500 中也位居榜首。

「世界上最快的超頻也是最節能的,這一事實簡直令人驚嘆。」Thomas Zacharia說到。

美國優勢擴大,歐洲開始崛起,中國仍有望逆襲

在2021年5月底公布的全球TOP500超頻榜單上,美國當時僅有四個超頻系統位居前十榜單,分別排在第二、第三、第六和第七的位置。當時中國的神威·太湖之光和天河2號還佔據了第四和第五名。

但是,時隔一年,隨著美國百億億次超頻Frontier的登頂,全球超頻格局發生巨變,美國在超頻領域的優勢擴大,在前十榜單當中也已佔據了一半。

全球超頻TOP500:美國突破百億億次、中國笑而不語
△2021年5月底公布的全球TOP500超頻前十榜單(圖源:快科技)

全球超頻TOP500:美國突破百億億次、中國笑而不語
最新的全球TOP500超頻前十榜單(圖源:快科技)

在最新的全球TOP500超頻前十榜單上,除了排名第一的Frontier之外,美國橡樹嶺國家實驗室Summit 在HPL 基準測試中,以 148.8 Pflop/s 的性能排名全球第四。

Summit 有 4,356 個節點,每個節點包含兩個具有 22 個內核的IBM Power9 CPU內核和六個NVIDIA Tesla V100 GPU,每個都具有 80 個流式多處理器 (SM)。這些節點通過 Mellanox 雙軌 EDR InfiniBand 網路鏈接在一起。

位於美國加利福尼亞州勞倫斯利弗莫爾國家實驗室的Sierra以94.6 Pflop/s的性能排名第 5。它的架構與Summit 非常相似。它由 4,320 個節點,每個節點兩個IBM Power9 CPU 和四個 NVIDIA Tesla V100 GPU 構建而成。

此外,美國的超級電腦Perlmutter和Selene分別以64.6 Pflop/s和63.4 Pflop/s的性能,排名第7和第8。其中,Perlmutter基於 HPE Cray「Shasta」平台,以及一個具有基於 AMD EPYC 的節點和 1536 個 NVIDIA A100 加速節點的異構系統;Selene同樣是基於AMD EPYC 處理器和NVIDIA A100節點。

全球超頻TOP500:美國突破百億億次、中國笑而不語

全球超頻TOP500:美國突破百億億次、中國笑而不語

TOP10超頻當中的另一個新變化是——芬蘭的 EUROHPC/CSC 的LUMI系統以152 PFlop/s的成績登上了第三名。這個新的超頻系統擁有 1,110,144 個內核。此外,法國 GENCI-CINES 的超頻系統Adastra也以 46.1 Pflop/s進入了第10名。

中國的超級電腦神威·太湖之光和天河2號,則分別以 93 Pflop/s 和61.4 Pflop/s的成績分別排名第6和第9,相比之前排名均有所下滑。

不可否認的是,美國對於中國的先進技術的禁運,以及對於中國超頻相關企業的制裁(去年將神威·太湖之光的處理器供應商申威列入了實體清單),在一定程度上阻礙了中國在超頻領域前進的步伐。

不過,據可靠消息顯示,中國的超級電腦神威·太湖之光和天河2號的繼任者,Sunway Oceanlite和天河3號在 Linpack 基準測試中都實現了1.3 exaflops 的性能。如果這兩個新系統進入排名,那麼今年秋季的 TOPO500 榜單格局將會重新改寫。

但是,需要指出的是,在今年5月10日晚間,在英特爾On產業創新峰會上,Intel聯合阿貢國家實驗室的計算、環境和生命科學實驗室,首次展示了支援超過兩百億億次計算(≥2 exaflops)的極光(Aurora)超級電腦。

全球超頻TOP500:美國突破百億億次、中國笑而不語

全球超頻TOP500:美國突破百億億次、中國笑而不語

據介紹,極光(Aurora)超級電腦之所以能夠提供每秒超過兩百億億次的雙精度峰值計算性能,主要是因為其採用了內置高頻寬記憶體(HBM)的代號為Sapphire Rapids的英特爾至強處理器和代號為Ponte Vecchio的英特爾數據中心顯示卡。

目前Aurora超級電腦正在安裝當中,或許也將會出現在今年秋季的全球超頻TOPO500榜單當中。