中國廠商三年造出首款7nm GPU:性能對打NV 4nm
雷峰網(公眾號:雷峰網)消息,GPU明星初創公司壁仞科技,選在公司創立即將三年之際正式發布首款通用GPU晶片BR100。BR100採用7nm製程,集成770億電晶體,使用Chiplet(芯粒)技術,2.5D CoWos封裝技術,晶片面積達到1000平方毫米。
BR 100 通用GPU 16位浮點算力達到1000T以上、8位定點算力達到2000T以上,單晶片峰值算力達到PFLOPS級別,FP32算力超越NVIDIA 在售旗艦GPU一個數量級。
壁仞科技創始人、董事長、CEO張文
壁仞科技2019年9月9日註冊成立,在成立後的短短18個月,融資額超過47億元,創下了中國晶片創業公司融資的記錄,也成為了業界關注的焦點。
今天的發布會上,壁仞科技創始人、董事長、CEO張文也談到,大算力晶片創業至少要15億元起。
而且,晶片行業本來就是資金密集、人才密集和資源密集的行業,壁仞科技經過了1065天研發,正式發布的首款GPU,打破了全球通用GPU算力記錄,這是該記錄第一次由中國企業創造,中國的通用GPU晶片正式邁入「每秒千萬億次計算」新時代。
喊出響亮的口號顯然不能回應業界的一些質疑,只有真正強大的產品可以。
壁仞科技給出的數據顯示,其首款旗艦產品BR100對比NVIDIA 在售的旗艦GPU峰值算力在Int8、BF16、TF32/TF32+、FP32數據格式下最少有3.3倍的峰值性能優勢,在FP32數據格式下性能優勢更是達到了13.1倍。
如果與國際廠商最新旗艦峰值算力對比,各種數據格式下也有性能優勢。
對於一家初創公司來說,想要超越NVIDIA 最新的H100 GPU,挑戰十分巨大,拋開其它因素,僅看一些關鍵參數,就能看到兩者之間的差距,以及想要超越的難度。
NVIDIA 今年發布的最新GPU H100,採用的是專為NVIDIA 加速計算需求設計優化的TSMC 4N 製程,集成800億個電晶體,顯著提升了AI、HPC、顯示記憶體頻寬、互連和通訊的速度,並能夠實現近5TB/s的外部互聯頻寬。
NVIDIA CEO黃仁勛發布H100時表示,20個H100 GPU便可承托相當於全球互聯網的流量,使其能夠幫助客戶推出先進的推薦系統以及實時運行數據推理的大型語言模型。
當然,壁仞科技聯合創始人、CTO洪洲也給出了壁仞科技首款通用GPU能實現突破性性能的底層原因——自主原創的晶片架構壁立仞。
壁立仞架勢是以數據流為中心的架構,目標就是打破當前GPU架構面臨的瓶頸,實現更強大的性能。具體而言,壁立仞架構有6大特性:TF32+數據流精度、TDA數據流存取加速、C-Warp數據流並行、NME減少數據搬移、NUMA/UMA減少數據搬移、SVI數據流隔離。
洪洲說,「壁立仞架構對數據流進行深度的優化,通過六大技術特性,比較完整地解決了數據搬移的瓶頸和並行度不足的問題,使得BR100晶片在給定的製程下實現了性能和能效的跨越式進步。」
除了架構方面的努力,壁仞科技業採用了Chiplet的設計理念,讓晶片總面積可以突破光罩尺寸對單晶片面積的限制,集成更多的算力和通用性邏輯。「通過縮小單個計算芯粒的面積,還可以同時提升產能與良率,進而極大地降低矽片的成本,並支援更靈活的產品策略。」 洪洲同時表示。
除了旗艦級BR100,壁仞科技今天還發布了BR104,同樣採用壁立仞架構,擁有1個計算芯粒,性能約為BR100的一半,同樣超越了國際廠商的在售旗艦產品。
壁仞科技聯合創始人、CTO洪洲
基於BR100和BR104的產品分別叫做壁礪100和壁礪104,可以構建從板卡模組到伺服器的產品。
當然,壁仞科技也深知大算力晶片比拼的是軟體和生態,更需要客戶的支援。
基於BR100,壁仞科技自主研發BIRENSUPA軟體平台,這一平台位於軟體棧的中心位置,包括BIRENSUPA編程模型、加速庫、工具鏈、編譯器等組件。開發者可以通過這些組件,發揮BR100系列硬體的算力,並開發各種應用。
發布會上,壁仞科技聯席CEO李新榮與百度飛槳訓練晶片適配技術負責人李琦共同宣布,壁仞科技加入由百度飛槳發起的硬體生態共創計劃。
對於一家初創公司而言,建設生態的周期非常長,投入也十分巨大,所以壁仞科技也會兼容目前主流的GPU生態,與客戶現有的基礎設施做到高度的兼容,方便客戶的遷移。
同時,壁仞也建設自己的生態,比如,壁仞科技開發者雲也已經正式上線,官網上已開放邀測。
平安科技以及中國移動都在發布會上明確了與壁仞科技的合作目標。
從硬體到軟體再到應用,壁仞科技已經正式交出了首款產品的答卷,接下來就要接受市場的檢驗了。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。