Intel三代可擴展至強哪裡強?唯一如此聰明
對於服務器數據中心市場,一般人關注不多,但因為市場和應用的需求,這裡往往是最新計算技術的前沿陣地,了解它就能一窺未來發展趨勢,而在這塊龐大的市場上,Intel無疑是霸主一般的存在,也是行業發展的風向標。
不久前,Intel發佈了代號Cooper Lake的第三代至強可擴展處理器,其變化可能沒有很多人期待的那麼高,也存在一些誤解,這裡就再和大家說道說道。
首先需要強調的一點就是,大家往往習慣性地把Intel定義為一家處理器企業,但其實很久以來,處理器只是Intel龐大產品和技術家族的一部分,可以說是最核心的存在,但絕不是唯一的,也不能完全展現Intel的實力和願景。
一方面,Intel早就提出了製程工藝、架構、內存存儲、互連、安全、軟件這六大技術支柱;另一方面,Intel面向數據中心提供的更不僅僅是CPU處理器或者SSD固態盤,還有以太網、硅光、傲騰內存、SSD、凌動、FPGA等等,組成了一個有機的整體,而這種完整的產品線組合,在業內也是首屈一指的。
回到至強,這一品牌誕生已有20多年歷史,早已成為數據中心計算力的代名詞,而在2017年,Intel打造了至強可擴展的概念,最新發佈的Cooper Lake就是第三代產品的一部分,面向四路和八路市場,下半年還會有同樣隸屬於第三代的Ice Lake,針對單路和雙路市場,並首發支持PCIe 4.0。
明年則有第四代Sapphire Rapids,支持更新的PCIe技術。
Cooper Lake三代至強可擴展處理器是業界唯一集成AI加速的處理器,專為當今內置AI人工智能的數據密集型服務而設計,重點進一步升級了DL Boost深度學習加速技術,同時深度學習加速架構下的VNNI神經網絡指令支持創新的bfloat16數據格式。
DL Boost、bfloat16相結合,新平台相比上一代在做圖像分類處理的時候,計算性能可以提高1.93倍,這是一個非常顯著的進步。
同時,針對雲計算應用、企業應用等多樣性場景,Cooper Lake還支持第二代Speed Select技術,方便用戶靈活配置系統,滿足業務需求。
如下是Cooper Lake的四路系統架構圖,四顆處理器通過UPI總線和全連接拓撲結構進行互連,而且通道數比上代翻了一番,每顆處理器都支持六路QPI,這樣和其他三顆處理器的任意一顆都是雙路互連,帶寬更充裕,有利於支持更多的CPU核心、更大的內存、更高的計算速度。
內存方面支持6個通道,四路平台就是24個,八路則可達48個,而且頻率也有3200MHz,容量方面則支持16GB顆粒,單條可以做到RDIMM 64GB、LPRDIMM 256GB,再搭配傲騰持久內存的話每路系統最大內存容量就高達4.5TB,四路就是18TB,八路則是36TB。
芯片組搭配升級的C620-A,支持更多USB、SATA、PCIe擴展,並集成ME平台管理技術,支持豐富的RAS,處理器、內存、PCIe設備等的錯誤都可以及時隔離、診斷。
人工智能方面,一代可擴展至強支持AVX-512指令集,要經過與FP32浮點數據格式的深度學習,二代支持DL Boost、VNNI矢量神經網絡指令集,支持INT8整數數據格式,而第三代升級到了bfloat16數據格式,大大提升了AI訓練和推理能力。
FP32、INT8、bfloat16有什麼區別呢?
INT8是每個數據使用8比特保存,包括1個符號位、7個尾數,就像圖中比較模糊的小貓照片,細節缺失,但是對AI訓練和推理而言計算效率非常高,當然精度游明顯損失。
FP32包含1個符號位、8個指數、23個尾數,就像異常清晰的小貓照片,AI訓練和推理精度非常高,但是效率低,速度慢。
bfloat16則是折中選擇,總共16個比特,包括1個符號位、8個指數(取值範圍2的256次方)、7個尾數(取值範圍2的128次方),對於絕大多數AI模型可以兼顧精度和速度,就像略有壓縮的小貓照片,人眼基本看不出細節丟失。
根據實測,VNNI搭配bfloat16相比上代FP32訓練性能提高了93%,推理性能則提高了90%。
三代可擴展至強還有一個很重要但很容易被忽視的技術,那就是SpeedSelect(SST),在上代基礎上大大拓展,包含SST-PP、SST-CP、SST-BF、SST-TF四種功能模式。
其中,SST-PP(Performance Profile)是指CPU的供電和散熱的邊界條件確定後,可以根據業務不同需求,選擇允許使用多少個CPU核心,並設置對應的頻率,而在其他場景下可以開關不同的核心、設置不同的頻率。
比如一款20核心、TDP 150W的處理器,可以設置開啟全部20個核心,頻率跑在2.5GHz,適合對多線程敏感但不需要特別高頻率的場景,而如果需要更高單線程性能了,則可以開啟14個核心,頻率提高到2.9GHz。
SST-BF(Base Frequency)、SST-TF(Turbo Frequency)可以設置不同的核心運行在不同的頻率,比如高優先級的業務使用部分核心運行在睿頻加速頻率上,而低優先級的業務則只跑基礎頻率,在不超過整體供電和散熱的情況下,可以讓部分核心的溫度更低。
SST-CP(Core Power)是在CPU負載非常高、接近供電和散熱極限時,CPU會做一定的降頻,來保護CPU和整個服務器平台。以往這種降頻保護都是暴力地對所有核心無區別一起降頻,選擇則可以優先選擇讓執行低優先級任務的核心降頻,保證高優先級業務不受影響。
這四種SST技術結合,一台服務器就可以更好地完成更多的工作。
除了CPU處理器,Intel還有這從軟件到硬件的完整產品系列,硬件上有CPU、GPU、FPGA、AI芯片等各種處理器,其中AI芯片包括Movidius視覺處理器、Habana深度學習訓練和推理芯片,還有固態硬盤、傲騰持久內存,而軟件解決方案則有One Intel、OpenVINO、精選解決方案等等,可以給客戶一個非常完整的產品組合。
總的來說,人工智能和數據分析將是數據中心未來10年的主要工作負載,而第三代至強可擴展處理器就是為了這兩類應用重點優化,支持四路、八路服務器平台,植入對人工智能的優化,支持bfloat16數據格式,為用戶提供最大的價值。