超頻晶片霸主之爭!終於有了新變數

2020年4月,以近70億美元被NVIDIA 最終收購的以色列頂級數據中心網路技術公司Mellanox,在長達半年多的「沉默」後,在11月迎來了兩件足以引起業內轟動的大事。

首先,陪Mellanox走了21年,並一手促成這筆交易的創始人兼首席執行官Eyal Waldman宣布離職,並留下了一句頗為瀟洒的話:

「在達成這筆交易時,我就知道我要離開了。你知道我用幾十年創建一家公司並做出所有決策,不是用來做第二名的。」

其次,就在今天,Mellanox作為NVIDIA GPU家族的一部分,被NVIDIA 融入了新的網路連接架構產品——NVIDIA Mellanox 400G InfiniBand。

此後,它將以「GPU伴侶」的身份,率先打入數據中心市場的最精銳部隊——超級電腦市場。

超頻晶片霸主之爭!終於有了新變數
NVIDIA Mellanox 400G InfiniBand產品的架構組成。簡單來說,就是一個用以連接其他伺服器與NVIDIA 產品的組件

NVIDIA 在今天的全球超級計算大會上,再次刷新了自己最強大GPU產品線——企業級加速器A100的 性能紀錄。

新一代的A100 GPU將高頻寬記憶體提升至80GB,比上一代擴大一倍。這意味著,每秒超過2TB的記憶體頻寬,會讓數據在記憶體與GPU之間流通得更加迅速,以便「承受」研究人員建立更大規模人工智慧模型和數據集帶來的壓力。

「現在要在AI和高性能計算(HPC)的研究成果上繼續突破上限,科學家們必須要構建更大更複雜的模型,那麼便需要比以往更大的記憶體容量與更高的頻寬。」 NVIDIA 應用深度學習研究副總裁Bryan Catanzaro指出。

超頻晶片霸主之爭!終於有了新變數
NVIDIA 在英國劍橋的超頻中心部署了由若干塊A100 80GB組成的DGX系統

實際上,除了改變晶片產品的架構,把成百上千塊晶片用最高效的形式「連」起來,當然也能解決科學家們每秒/百億億次的超大計算需求,而收購的Mellanox的用意便在於此。

如果你見過位於無錫的中國超級電腦「太湖之光」,就會發現「這台電腦」其實是一個由成百上千台黑色機櫃組成的電腦集群,可以填滿一間約1000平米的屋子。

它既可以被稱為「高性能電腦群」,也可以被看做是一個不小規模的數據中心。

當然,這些黑色機櫃的性能,要比普通伺服器強大太多,由4萬多塊不同種類的國產晶片組成,僅集成它們就是一項極為艱巨的任務,用時兩年,總投入超過了18億人民幣。

超頻晶片霸主之爭!終於有了新變數
位於無錫超頻中心的太湖之光

而NVIDIA Mellanox 400G InfiniBand的作用,便是將超級電腦中上萬塊CPU、GPU以及其他種類晶片「連接」在一起。在發揮性能最大化的同時,每塊晶片的數據傳輸效率也不能有太多損耗。

「之前CPU與GPU之間的互聯,都是通過NVIDIA 的NVlinks(一種匯流排及其通訊協議),但這個東西互聯的效率沒有特別好,不能簡單擴展到上千塊晶片互聯的超頻場景。」參與研發過TPU,芯英科技聯合創始人楊龔軼凡告訴虎嗅,Mellanox擅長的便是此前NVIDIA 最大的短板之一,

「一台超級電腦,各品牌晶片之間的高效配合,極為重要。之前NVIDIA 的NVlinks只能和IBM的CPU互聯。而收購Mellanox後,NVIDIA 增強了用晶片構建超頻系統的可擴展性,可以讓GPU與其他品牌和種類的晶片進行連接。」

換句話說,NVIDIA 找到了「讓自己產品輕鬆插進包括英特爾在內,所有伺服器晶片介面」的方法。

超頻市場,不可忽視的晶片掘金地

NVIDIA 的這次全系列產品,無一例外面向的都是「燒錢魔窟」——超級電腦市場。

舉個例子,在2020年6月頒布的全球超級電腦Top500榜單上,排名第二的美國橡樹嶺國家實驗室超級電腦Summit,在每個節點配備了2個IBM的 Power9 CPU和 6個NVIDIA 的Tesla V100。這樣的節點有4356個,總耗資2億美元。

而在2019年3月,美國能源部阿貢實驗室公開宣布,將耗資5億美元搭建新一代超級電腦 Aurora 。這台將在2021年實現交付的超級電腦,並非追求一味追求計算速度,而是需要針對人工智慧等新技術應用採用新的設計思路。

那麼這筆巨額政府合約的主要受益者是誰?外界猜測是美國最大的CPU生產商英特爾與著名超頻系統集成商Cray。

但不可忽視的是,隨著超頻系統被用在人工智慧研究領域的次數越來越多,額外裝載的加速晶片GPU,逐漸成為搭建超級電腦的必選品。

因此,NVIDIA 也在全球許多超頻項目中獲得了頗為豐厚的收益,包括美國技術最強大的國家實驗室——橡樹嶺實驗室、阿貢實驗室,都是NVIDIA 最好性能產品的首批嘗鮮者。

超頻晶片霸主之爭!終於有了新變數
美國迄今最強的超級電腦Summit(巔峰),在最新的Top500榜單中排名第2。

超級電腦之間的競爭,從來都被看作是國家之間技術實力的競爭。

儘管這是一個狹隘的衡量標準,但這些超級電腦群的確在很多軍事與科學任務中發揮著極為重要的作用,譬如武器設計與密碼破譯,再譬如模擬氣候變化,研究與診斷新冠病毒。

很多前所未有的材料與化學實驗,不太可能在雲端執行,因此部署高性能伺服器便顯得格外重要。

「沒有人願意燒很多錢去做一些幾十年沒成果的新技術研究,但是這些研究卻很有必要,那麼這些新技術的運算就需要超級電腦來支援。」一位業內人士告訴虎嗅。

而這場競爭中,中國與美國理所當然是最為強勁的參賽選手,也是最願意砸錢做超頻系統的兩個科技大國。

2020年6月,儘管Top500的榜首之位,被日本神戶理研計算中心耗資10億美元的超頻系統Fugaku奪走,但在這500個超級電腦中,中國擁有其中226個系統,而美國則佔據114個。

超頻晶片霸主之爭!終於有了新變數

2020年6月最新榜單的前10名。在2016年~2017年蟬聯4次冠軍的中國超級電腦太湖之光位於第四名,天河二號第五名。

因此,如果按照每台超級電腦單價上億美元來計算,這是一個令人垂涎的市場。而政府一次又一次創下記錄的巨額訂單,對商業公司產生著越來越大的吸引力;

此外,毫無疑問,由於超級電腦運行的都是難度最高的技術研發任務,它們的存在,是未來技術下沉到工業和消費級市場的源動力。

國家之間的超級電腦之戰從幾十年前就已打響。一開始,大多數超級電腦使用的微處理器都是從英特爾和AMD的PC晶片演變而來,然而,就是在過去5年里,數據量開始如爆炸般增長,新技術應用層出不窮,因此最強大的超級電腦已經開始加大專業晶片的使用力度,而NVIDIA ,便是最大的受益者之一。

超頻晶片霸主之爭!終於有了新變數
從圖中可以看出,2020年~2025年產生的數據量,是2010~2020年數據量的三倍。圖片來自NVIDIA 。

不過有意思的是,日本Fugaku打敗中國和美國最強電腦的「源動力」,竟然是富士通的48核 A64FX SoC,這應該是榜單上第一個由ARM處理器提供動力的超頻系統(雖然不想把NVIDIA 和ARM的收購聯繫起來,但這好歹是個開始)。

「未來超頻市場,目前現在的共識是HPC+AI。也就是說,未來AI是超頻的典型應用,而且量級很大。所以NVIDIA ,想要作為未來霸主,保持在這個市場的領先地位。

當然,高性能計算市場,一切都沒那麼容易。」

超頻晶片霸主之爭!終於有了新變數

Tags: