Intel發射全新架構「火箭」!兩年「登月」
本周四,Intel架構日用長達近兩個半小時的時間介紹了其在架構創新以及相關新產品方面的進展。Intel高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri說:「架構是硬體和軟體的『鍊金術』。」
Intel高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri
2016年,AMD發布全新CPU微架構ZEN,幫助其在桌面CPU市場幾年間迅速接近甚至超越Intel。今天,Intel發布了全新的CPU架構和兩個核心,將移動SoC中已廣泛應用的CPU大小核(BIG.LITTLE)架構率先引入桌面級CPU中。
Intel在升級「看家」產品CPU的同時,也帶來了獨立GPU更詳細的資訊。特別值得關注的是,Intel首次展示了耗時近兩年,堪比登月難度創新後的產品Ponte Vecchio GPU,包含1000億個電晶體,這是Intel迄今為止最高的計算密度產品,能提供業界最頂級的AI性能。
不止於此,Intel還進一步介紹了全新的基礎設施處理器(IPU)。
從CPU到GPU再到IPU,每一個新的架構和產品都是其XPU架構戰略的體現,也用實際產品證明了晶片異構的時代,軟體優先的重要性。無論如何,Intel全新的CPU值得消費者期待,而其GPU以及IPU,也將成為競爭對手重點關注的產品。
4年處理能力提升1000倍
AI、元宇宙、AR,都需要超高性能的處理器。每一位追求創新的客戶都給Intel一個問題,到2025,Intel能讓我們的工作負載處理能力有1000x(千倍級)的提升嗎?
「這個要求只給了我們4年時間,而1000倍可是摩爾定律的5次方。」 Raja說,「為了在2025年滿足1000x(千倍級)提升的需求,我們要在每個技術領域,實現至少4倍左右的摩爾定律提升,這些領域包括製程製程、封裝、記憶體和互連,架構是將它們與軟體結合起來的『鍊金術』。這些技術的集合可以作為乘法因子,與4倍的提升相結合,就能提供處理繁重的工作負載所需的千倍提升,這同時例證了為何如今是成為架構師的大好時代。」
2019年,兩點陣圖靈獎得主 John L. Hennessy 和 David A. Patterson發表長報告展望,未來的十年將是電腦體系架構領域的「新的黃金十年」。
已經準備好先進位程(Intel7、Intel4、Intel3、Intel20A,以及外部代工廠),先進封裝技術(EMIB、Foveros),記憶體(傲騰)和互聯技術的Intel,處理能力可以像火箭一樣躍升嗎?
這需要先看Intel的看家本領——CPU。
要以大小核的方法,奪回CPU領先優勢
「我們的首要目標是,打造世界上極高能效的x86 CPU內核。與此同時大幅縮小晶片尺寸,以便多核工作負載可以根據需要,使用儘可能多的內核進行拓展。我們還希望提供更寬的頻率範圍,以滿足更高需求的工作負載。」Intel院士,Intelx86能效核的首席架構師Stephen Robinson介紹,
「基於全新的微架構,全新的CPU內核在多核性能方面實現了突破,首款產品是Alder Lake。」
Alder Lake是Intel首個性能混合架構,採用Intel7製程,搭載兩款新一代x86內核以及智慧Intel硬體執行緒調度器。
先看能效核,也叫E-Core。與Intel迄今為止最多產的CPU微架構Skylake相比,其可在相同功耗下提升40%的單執行緒性能,或者在提供同樣性能時,功耗僅為Skylake的40%不到。如果看吞吐量,與運行四個執行緒的兩個Skylake內核相比,四個能效核在性能提升80%的同時功耗更低,或者在提供相同吞吐量性能時,功耗降低80%。
實際上,Intel是利用各種技術,在不耗費處理器功率的情況下對工作負載進行優先順序排序,並通過每周期指令數(IPC)改進功能直接提高性能,具體的功能包括:
擁有5000個條目的分支目標快取區,實現更準確的分支預測
64KB指令快取,在不耗費記憶體子系統功率的情況下保存可用指令
Intel的首款按需指令長度解碼器,可生成預解碼資訊
Intel的簇亂序執行解碼器,可在保持能效的同時,每周期解碼多達6條指令
後端寬度(Wide Back End)具備5組寬度分配(Five-wide allocation)和8組寬度引退、256個亂序窗口入口和17個執行埠
支援Intel?控制流強制技術和Intel?虛擬化技術重定向保護等功能
實現了AVX指令集以及支援整數人工智慧操作的新擴展
再看性能核,也叫P-Core,這是Intel迄今為止性能最高的CPU內核,它是一個更寬、更深、更智慧的架構,展現出更高的並行性,提高執行並行性,降低時延,提升通用性能。
更寬、更深、更智慧的性能核架構具體的體現是:
更寬:解碼器由4個增至6個,6?op 快取增至8?op,分配由5路增至6路,執行埠由10個增至12個
更深:更大的物理暫存器文件(physical register files),擁有512條目的重排序緩衝區
更智慧:提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測頻寬
與第11代Core架構(Cypress Cove內核)相比,在相同頻率下,性能核在一系列工作負載上平均提升了約19%。
擁有AI硬體加速器是IntelCPU獨有的功能,這一特性在性能核上進一步通過軟體結合硬體來提升。憑藉Intel高級矩陣擴展(AMX)來執行矩陣乘法運算,AI加速可以提升約8倍(每個內核每周期可進行2048次int8運算)。AMX可是用過軟體的方法,由此就不難理解Intel一直強調軟體優先的原因。
「能效核並不意味著性能就低,只是其優化的方向與性能核不同。」Intel研究院副總裁、Intel中國研究院院長宋繼強告訴雷鋒網。
擁有了不同的內核,就像是擁有了更多武器,能夠充分發揮武器的殺傷力才是高手稱霸的關鍵。所以,Intel開發了獨特的硬體執行緒調度器,能夠從開始就動態、智慧地分配工作負載,從而優化系統以在真實場景中實現更高的性能和效率。
「Intel硬體執行緒調度器與其它調度器一個非常大的區別就是動態、智慧地分配工作負載,在合適的時間把合適的執行緒分配給合適的內核,同時還與作業系統無縫配合。」宋繼強指出。
全新性能混合Alder Lake架構CPU由於採用了單一、高度可擴展的SoC架構,這就讓其可以支援從超攜帶型筆記型電腦,到發燒級,到商用台式機的所有客戶端設備。
全新的性能核微架構也會用於利潤豐厚的數據中心CPU市場,也就是下一代Intel至強可擴展處理器,代號Sapphire Rapids,其核心是一個分區塊、模組化的SoC架構,採用Intel的嵌入式多晶片互連橋接(EMIB)封裝技術,在保持單晶片CPU介面優勢的同時,具有顯著的可擴展性。
可見,AMD用Zen趕超Intel,如今Intel要用Alder Lake反超。這也讓我們更期待今年底將會出貨的搭載Alder Lake CPU的PC產品。同樣,Intel捍衛其在伺服器CPU市場的領導力,代號Sapphire Rapids的下一代至強可擴展處理器也非常重要。
再入獨立GPU市場,挑戰登月級難度
相比看家本領的CPU產品,Intel過去兩次挑戰獨立GPU市場,都以失敗告終。再一次進入獨立GPU市場的Intel面臨的是更大的挑戰。
「我們面臨的是將近持續十年之久的問題。Intel在吞吐量計算密度和對高頻寬記憶體的支援方面都落後。這兩者都是 HPC和AI的基本指標,也是GPU架構的基石。」Raja給出了圖表展示Intel與業界領先水平的差距。
Raja還同時說,「當2017年GPU架構開始為AI數據類型的矩陣處理添加特殊引擎時,問題變得更糟。我們真的很想儘快縮小這個差距,所以我們需要一個堪比登月難度的創新產品。」
今天Intel架構日上,詳細介紹的全新的獨立顯示卡微架構Xe HPG,採用新的Xe內核,聚焦計算、可編程、可擴展,並全面支援DirectX 12 Ultimate。基於全新獨立顯示卡微架構Xe HPG的首款產品是Alchemist,Alchemist SoC能夠提供出色的可擴展性和計算效率,並擁有以下關鍵架構特徵:
多達8個具有固定功能的渲染切片,專為DirectX 12 Ultimate設計
全新Xe內核,擁有16個矢量引擎和16個矩陣引擎(被稱為XMX,即Xe Matrix eXtension)、高速快取和共享內部顯示記憶體
支援DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元
通過架構、邏輯設計、電路設計、製程製程技術和軟體優化,相比Xe LP微架構實現1.5倍的頻率提升和1.5倍的每瓦性能提升1
使用台積電的N6製程節點(通常叫做台積電6nm)上進行製造
與全新的CPU微架構一樣,Intel全新的GPU微架構也採用了軟體優先設計的方法。
「Intel很早就與開發者、API 和領先的遊戲引擎廠商展開合作,共同為遊戲發燒友設計Intel新款獨立GPU。這款全新可擴展Xe HPG架構,採用了軟體優先的設計方法,從而為遊戲玩家和創作者帶來高性能表現並減少畫面卡頓。」 IntelCEO 帕特·基辛格表示。
雷鋒網(公眾號:雷鋒網)了解到,Intel已完成了內內顯卡驅動程式組件的重新架構,特別是記憶體管理器和編譯器,使計算密集型遊戲的吞吐量提高了15%(至多80%),遊戲載入時間縮短了25%。同樣能體現軟體優先的特性是XeSS。
XeSS與CPU中的AMX一樣可以進行AI加速,利用Alchemist的內置XMX AI加速,帶來了一種可實現高性能和高保真視覺的全新升頻技術,讓那些只能在低畫質設置或低解析度下玩的遊戲也能在更高畫質設置和解析度下順利運行。
從正在試產階段的Alchemist SoC的演示影片可以看到,包括真實遊戲展示,虛幻引擎5測試良好。想要用上Intel全新的Alchemist GPU,最早一批要到2022年第一季度上市,錯過了聖誕季的消費熱潮,不知能否趕上春節。
除了確定性較高的Alchemist,Intel還規划了Battlemage、Celestial和Druid 的消費級獨立GPU產品,Intel還為這一系列產品推出了全新的品牌名稱銳炫。
但最能展現Intel在獨立、高性能GPU市場決心的產品還是基於Xe HPC微架構的Ponte Vecchio,這是Intel迄今為止最複雜的SoC,包含1000億個電晶體,提供業界領先的浮點運算和計算密度,以加速人工智慧、高性能計算和高級分析工作負載。
「不到兩年前,我分享了我們為Ponte Vecchio設定的目標。看到這樣非凡的晶片工程以及雄心勃勃的軟體計劃在我們的實驗室內成為現實,這對於我們來說是令人難以置信的時刻。對於我們來說,這已經不再是似乎不可能的登月難度的創新產品。」Raja同時也表示,
「整個項目尚未成功,我們還有很多工作要做。但是,我們迫不及待地希望大家加入我們的旅程,在明年初把這個架構帶給所有客戶。」
之所以說Ponte Vecchio的難度堪比登月,是因為要設計這樣一款產品難在從無到有,面對的是新的SOC架構、新的IP 架構、新的記憶體架構、新的I/O架構、新的封裝技術、新的供電技術、新的互連、新的訊號完整性技術、新的可靠性方法、全新的軟體、以及新的驗證方法。
「保守地說,Ponte Vecchio是我在30年的晶片開發生涯中開發的最複雜的晶片。實際上,我甚至不確定把它稱為晶片是否準確,它是包含諸多晶片的集合。」IntelPonte Vecchio首席架構師Masooma Bhaiwala感嘆。
架構日上,Masooma BhaiwalaIntel展示了早期的Ponte Vecchio晶片就已經顯示出領先的性能,在一個流行的AI基準測試上創造了推理和訓練吞吐量的行業紀錄。基於Ponte Vecchio的A0晶片已經實現了超過每秒45萬億次浮點運算的FP32吞吐量,超過5 TBps的持續記憶體結構頻寬以及超過 2 TBps的連接頻寬。
雷鋒網了解到,基礎單元是Ponte Vecchio的連接組織,它是基於Intel 7製程製程的大型晶片,針對Foveros技術進行了優化。Xe 鏈路單元提供了GPU之間的連接,支援每單元8個鏈路,該單元已被添加到「極光」(Aurora)百億億次級超級電腦的擴展解決方案中。
異構時代的IPU
IPU(基礎設施處理器)是CPU和GPU之外,Intel架構日的第三個重要產品。Intel在不久前提出IPU的概念,這一產品的目標是使雲和通訊服務提供商減少在中央處理器(CPU)方面的開銷。
Intel數據平台事業部首席技術官Guido Appenzeller介紹,Intel認識到單一產品無法滿足所有需求,因此對其IPU架構進行了更深入的研究,並推出了以下IPU家族的新成員。目前的IPU基本上使用兩類架構:一類是專用ASIC IPU;一類是基於FPGA的IPU。
基於FPGA的IPU能快速實施新協議,應對不斷變化的要求或新協議。例如,在這些FPGA上實現未公開的專有協議。專用ASIC IPU可以實現性能和效率的最大化。
「兩者實際上都不同於經典的SmartNIC,後者缺乏執行基礎設施控制面的能力。對於不同類型的基礎設施加速,沒有適用所有情況的方案。因此,Intel將繼續投資於這兩類IPU以及SmartNIC。」Guido Appenzeller同時表示。
Mount Evans是Intel的首個ASIC IPU。據悉,這是Intel與一家一流的雲服務提供商共同設計和開發的,融合了多代FPGA SmartNIC的經驗。
「接下來將迎來兩款基FPGA的IPU新產品,分別面向雲(Oak Springs Canyon)和通訊(Arrow Creek)市場。」 Guido Appenzeller介紹,
Oaks Springs Canyon是基於FPGA的IPU,採用了Intel的Agilex FPGA 和至強D片上系統。還採用了Intel開放式FPGA開發堆棧(IntelOFS),這是一個可擴展、開源軟硬體基礎設施堆棧,能夠滿足新興雲服務提供商對於部署100GB工作負載的需求。Oak Springs Canyon還包括一個加固的加密模組,以線速性能保護所有基礎設施流量、存儲和網路。
Arrow Creek是一個加速開發平台,基於Agilex FPGA和e810 100GB乙太網控制器。它源自IntelPAC-N3000,後者目前已經被全球各地的頂級通訊服務提供商所採用,Arrow Creek將幫助電信運營商提供靈活的加速工作負載。
成就異構晶片時代——oneAPI
「在軟體領域,要開啟堪比登月難度的創新計劃。我們需要一個編程框架,讓軟體開發者在編程時無需考慮不同的CPU和加速器組合,很多人認為這是不可能的任務,我們創造了oneAPI,讓開發者能夠擺脫專有語言和編程模型。」Raja說,
「oneAPI行業計劃提供了一個開放、基於標準、跨架構、跨矢量的統一軟體堆棧。這個行業規範的第一個版本已於去年9月發布,其中規定了一個通用硬體抽象層、數據並行程式語言以及全面的高性能函數庫,涉及數學、深度學習、數據分析和影片處理領域。
目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫。oneAPI工具包擁有超過20萬次單獨安裝,市場上部署的300多個應用程式採用了 oneAPI的統一編程模型。
據悉,臨時的oneAPI 1.1版已經在5月發布,增加了面向深度學習工作負載和高級光線追蹤函數庫的全新圖形介面。預計oneAPI1.1正式版將在今年末之前完成。
寫在最後
從CPU到GPU再到IPU,從微架構到封裝、存儲、互聯再到軟體,從六大技術支柱到異構再到軟體優先。Intel正在用全新的產品組合,技術路線和策略面對AI和5G時代的競爭。
接下來的市場競爭格局的變化,難以準確預測。但Intel有勇氣說出自己在技術上的巨大挑戰,以及宣布IDM 2.0,都釋放出積極的訊號,一個更加開放的Intel正在積極擁抱新的市場和競爭。