中國最大AI晶片問世!能組建一個頂級超頻集群
今天,中國最大AI單晶片邃思2.0在上海正式發布,這款晶片面向AI雲端訓練,尺寸為57.5毫米 x 57.5毫米(面積為3306mm2),達到了晶片採用的日月光2.5D封裝的極限,與上代產品一樣採用格羅方德12nm製程,單精度FP32算力為40TFLOPS,單精度張量TF32算力為160TFLOPS,整數精度INT8算力為320TOPS。
燧原科技創始人兼 COO 張亞林告訴雷鋒網(公眾號:雷鋒網):「基於邃思2.0晶片打造的雲燧T20加速卡支援的集群規模從上一代雲燧T10的千張卡提升至8000卡,用雲燧T20可以打造一個E級單精度算力集群CloudBlazer Matrix 2.0。」
E(Exascale)級計算也就是百萬兆級的計算,是目前全球頂尖超頻系統新的追逐目標。用一個不精確的說法來解釋百萬兆級計算,一個百萬兆級電腦一瞬間進行的計算,相當於地球上所有人每天每秒都不停地計算四年。
那號稱中國最大AI單晶片,有何特色?競爭力到底如何?
燧原科技CEO趙立東(左)與 燧原科技COO張亞林(右)
中國最大AI計算單晶片的兩個「首個」
2019年底,燧原科技發布了從啟動項目研發到發布用時僅18個月的雲端訓練晶片邃思1.0,基於邃思1.0的雲燧T10加速卡單精度算力高達20TFLOPS。時隔一年半,邃思2.0和雲燧T20就推向市場。之所以說「就」,是因為雲端訓練這樣複雜的超高算力晶片通常的迭代周期是兩到三年一代,如果遇上特殊情況可能還會延遲半年。
「我們第一代和第二代產品的迭代節奏快於業內速度,主要有兩方面的原因,一方面是首代產品落地後得到了用戶的回饋,另一方面是我們內部技術和架構的更新,催生了第二代產品。」張亞林說,「從一開始我們就強調精準執行產品路線圖,第二代產品精準符合燧原的產品路線圖。」
至於燧原未來是否會保持雲端AI訓練晶片一年半一代的更新速度,張亞林表示目前暫不方便透露,但會精準執行其產品路線圖。
想要在整個行業缺芯的大背景下精準執行產品路線圖顯然是一個巨大的挑戰,雷鋒網了解到,在2020年疫情開始的時候,燧原準備了兩套方案,同時發揮團隊成員超過15年以上行業經驗的優勢,以及第一代產品開發過程中建立的供應鏈關係,最終保證產品的如期推出。
張亞林說:「燧原的整個供應鏈非常穩健,客戶不必擔心燧原產品的供貨問題。」
在路線圖精準下,為什麼要把晶片面積做大?張亞林解釋,燧原做晶片是高舉高打,做大晶片和高端晶片是我們追求的目標,晶片的尺寸大小背後代表的是科技含量,對於中國晶片行業的貢獻才是更大的價值體現。
但更大的晶片面積,就代表著更高成本。對此,張亞林表示:「一個成熟的產品必須考慮回報率(ROI)。我們需要做的是在定義產品時,計算好這個產品在市場上的整體收入和銷量,從整個產品的成本角度和能夠帶給客戶的價值定義產品。所以我們會持續關注前沿技術,但不會一味追求最新的技術,依然從晶片的性能、成本、功耗三方面考慮。」
邃思2.0的特性中,有兩個中國首個,一個是首個支援TF32精度的AI晶片,另一個是首個支援最先進記憶體HBM2E的產品。
AI業界一直在追求用更小的數據位寬實現更高的模型精度。因此,AI模型不斷優化,數據類型不斷推新,AI晶片作為底層支撐就需要在支援更多數據類型的同時消耗更低能耗。
TF32代表的是張量單精度32位數據類型,相比傳統的FP32,TF32在位寬更大的同時,消耗的頻寬以及計算資源顯著更小,被業界視為能夠取代全尺寸單精度數據的革新性數據精度。
「目前業界的判斷是,TF32對大部分AI場景都有應用潛力。我們緊跟國際創新者的步伐,很早就布局數據進度的研究和分析,所以才有了燧原第二代產品就支援TF32精度。」張亞林同時指出:「邃思2.0支援全精度AI精度範圍,包括FP32、TF32、FP16、BF16和INT8。要用一個非常革命性的算力引擎囊括所有的精度,並且能夠做到所有的精度的算力都有效,這是非常大的挑戰。」
打破算力與存儲之間的瓶頸,高效利用數據是AI晶片的另一大挑戰。在中國最大的AI計算單晶片中,集成了4顆三星HBM2E,支援最高64 GB記憶體,記憶體頻寬最高達1.8 TB/s。
「HBM2E是目前全球最快的存儲晶片,通過集成4顆HBM2E,邃思2.0可以實現算力和存儲頻寬的匹配,實現更強算力。我們一直努力把理論算力和理論頻寬匹配,有效控制整個產品的成本。採用最新的技術並不會使我們產品的整體擁有成本增加。」張亞林表示。
在燧原的產品理念中,更好的AI晶片只是構建AI系統的基礎,客戶最關心的並非底層AI晶片的參數。
AI晶片的比拼上升到系統級
「客戶並不會直接關心晶片層面的理論參數,AI落地的時候,他們更看重的是包括硬體、軟體、互聯的整體解決方案的有效利用率。所以我們已經從單晶片的維度升級到了更高的系統層面。這也是燧原推出整機多卡、多卡互聯、分散式軟體、雲端部署的一整套交鑰匙解決方案的原因。」張亞林說道,「我們也更強調通過低碳綠色化的雲燧智算集群服務客戶。」
AI晶片的比拼要升級到AI系統的比拼,從用戶角度,對比AI系統的維度就會包含五個:軟硬體一體的性價比、能效比、易用性、遷移成本、范化性。
既然是系統,互聯技術非常關鍵。目前,業界通過不同的遠程直接記憶體訪問技術(RDMA)進行互聯,比如InfiniBand、iWARP、RoCE。燧原採用的是自研GCU-LARE互聯技術實現雲燧AI加速卡的多卡集群互聯,同時兼容業界其它RDMA技術便於與其它系統互連。
據介紹,燧原自研的GCU-LARE多卡集群互聯技術,支援6個頻寬50GB/s的卡間傳輸埠,總頻寬達到300 GB/s。
GCU-LARE具備兩大特色,一個是不需要傳統互聯技術的連接卡或橋接卡,可以直接通過線纜的方式直連,降低成本。另一個是能夠根據用戶的需求和機房的實際情況,訂製不同的拓撲結構,能夠輕鬆構建4000卡以上的大型訓練集訓拓撲,實現訂製化集群產品CloudBlazer Matrix。
在雲燧T20的發布會上,燧原發布了雲燧智算集群 CloudBlazer Matrix 2.0,最高可實現1.3E(130000T)的單精度只能算力集群。
「雲燧的互聯介面在單口速度保持不變的前提下,介面數量從T10的4個增加到T20的6個,頻寬提升150%。用雲燧T20可以打造中國E級單精度算力集群。」張亞林表示。
「在軟體易用性和遷移成本方面,我們投入了大量精力。」
與雲燧T20一起發布的還有軟體平台馭算2.0,進行了多方面提升,包括:為用戶提供高度契合業界標準的編程介面,以支援高性能自定義運算元開發;全面優化的動態性模型支援;引入業界先進的MLIR編譯框架;基於啟發式自適應方法的運算元泛化實現以及圖優化策略,可以廣泛支援更多標準模型和自定義模型訓練。
張亞林介紹:「馭算2.0的重點是提升易用和泛化,同時也能降低遷移用戶的成本。我們的產品從第一代開始就採用的熱啟動的方式降低用戶的遷移難度和成本,也就是在進行硬體架構設計的時候就已經考慮了客戶的需求,在落地的時候得到了客戶認可。如今第二代產品,同樣採用熱啟動的方法,使用更多的用戶回饋進一步降低遷移難度和成本。」
「在軟體層面,現在業內比較通用的兩個AI框架是TensorFlow和Pytorch,如果他們的模型完全基於框架開發,切換到燧原的產品只需要硬體切換,軟體可以無縫切換。軟硬體一定是一體化,也只有軟硬一體化設計才對客戶有更高價值。」張亞林進一步表示。
因此,馭算2.0還支援資源虛化、重組以及系統級設備虛擬化,使用戶在業務部署和資源整合上可擁有更為靈活的方法;支援4000卡規模以上的集群分散式訓練;升級系統兼容性方案、部署方案和RAS,支援主流作業系統最新髮型版,開箱即用,簡化客戶訂製系統集成,對客戶的部署和運維更加友好。
實際上,晶片實力的比拼從來都不是單晶片的比拼,而是系統和生態實力的比拼。縱觀目前全球前幾大晶片巨頭,持續迭代的晶片只是其保持競爭力的基礎,圍繞晶片的互聯技術、軟體棧以及不斷拓展的生態才是競爭的護城河。
燧原既然已經從單晶片的能力拓展到系統層面,那如何挑戰雲端訓練晶片的霸主NVIDIA ?
聚焦三個業務群,與霸主差異化競爭
「作為一個追趕或者新生者,差異化競爭是必然的。燧原進行差異化競爭時一直注重三個部分,第一是我們提供的算力性價比一定要越來越好,第二是中國有最豐富的業務場景,也有最豐富業務場景使用者,所以我們與最豐富的業務場景做更多深入的結合,並進一步做業務場景的泛化,第三就是本土化、訂製化、客戶的服務開發。」張亞林說。
據雷鋒網了解,燧原從2020年公布第一個落地客戶騰訊開始,一直堅持的是三條業務線:泛互聯網、垂直行業(金融、交通、電力、醫療、工業等)以及新基建。
「我們在這三個業務線上不斷發力,構築整個業務群,三個業務群都已經實現客戶接入,同時也拿到非常多的客戶回饋。有了因第一代產品開拓的戰略合作夥伴,利用第二代產品我們可以把這三個業務群的場景和客戶群擴大,這也是燧原的生態護城河。」張亞林表示。
燧原科技CEO趙立東還宣布了燧原的異構計算生態——「燎原」計劃,目標是以AI為起點構建通用異構計算生態,構建標準化技術體系,共建完整生態服務數字中國。
三個業務群對燧原的產品生態也有不同的意義。商業客戶更看重整個業務,或產品的性價比。傳統行業更多看重的端對端的解決方案,而不是一個簡單的加速卡。
張亞林解釋,燧原與商業客戶一起打磨產品,建立原始創新生態。在傳統行業客戶端打磨端對端的場景生態。同時,燧原科技響應國家綠色化的號召,實現集群的功耗、能效進一步的優化,真正能夠在新基建層面做出更加普惠的綠色算力,符合國家關於碳中和、碳達峰的政策導向。
「對於初創公司而言,剛開始需要儘快證明我們的執行力、產品以及商業化的價值,所以與一些戰略夥伴展開了合作,但這並不代表我們的產品是專用的。隨著我們第二代產品的推出,會進一步泛化場景和拓展客戶,從一個點切開一條線最後達到一個面。並且,對於任何一家初創公司而言,智慧計算的任何一個市場都已經足夠龐大。」張亞林說。
除此之外,燧原還通過與之江實驗室、上海交通大學、西安交通大學等高校的合作,構建生態的同時培養人才。
對於與中國和國際巨頭的競爭,張亞林的態度是,「目前對中國晶片行業的發展是天時地利人和,我認為中國半導體和AI賽道百花齊放是好事,我們會堅持自己,志存高遠、腳踏實地。追趕國際巨頭,作為中國晶片公司有市場、政策和資金的優勢,我們的普惠智慧算力只是第一步,未來燧原會在異構計算領域不斷拓展產品線,提供更多異構計算的整體解決方案。」
小結
晶片性能參數的提升是最容易感知和理解的產品升級,但這卻不是晶片公司最強大的競爭力所在,圍繞晶片構建的介面、標準、互聯技術,以及軟體棧、客戶認可、合作夥伴生態才是以晶片為核心構建競爭力公司的終極目標。
這也是在AI時代眾多晶片初創公司宣稱的算力超越行業領導者,卻未能獲得大量訂單的關鍵所在。很好的現象是,已經有以燧原為代表的AI晶片初創公司,開始去強調AI算力系統的價值。