威盛x86 AI處理器架構、性能公布:媲美Intel 32核心

  • 2019 年 12 月 12 日
  • 資訊

除了Intel、AMD,寶島台灣的威盛也會造x86處理器的,不知道還有多少人知道?最近,威盛旗下已有24年歷史的處理器研發部門CenTaur開發出了世界上第一個集成AI協處理器的x86處理器,並有了可工作的原型,今年9月份開始晶片測試。

新處理器採用台積電16nm製程製造,內核面積不超過195平方毫米,內部採用環形匯流排設計,串聯集成八個x86 CPU核心、16MB共享三級快取、四通道DDR4-3200記憶體控制器、PCIe 3.0控制器(44條)、南橋和IO功能,是一顆完整的SoC。

最大亮點是AI協處理器“NCORE”,佔用面積約34.4平方毫米(17.6%),軟體映射為PCI設備,支援DNN深度神經網路創建與訓練的加速,號稱可提供多達20TB/s的記憶體頻寬、每秒20萬億次AI操作的性能。

主頻可以工作在2.5GHz,而且竟然支援AVX-512指令集,這可是AMD Zen 2架構都沒有的。

威盛x86 AI處理器架構、性能公布:媲美Intel 32核心
CHA處理器內核圖

威盛x86 AI處理器架構、性能公布:媲美Intel 32核心
CHA處理器模組簡圖

近日,Centaur公布了這顆處理器的諸多架構細節,但有趣的是並非自行公布,而是來自美國加州處理器技術權威機構、 著名晶片雜誌《Microprocessor Report》發行商Linley Group,後者仔細研究了Centaur的處理器架構設計文檔,並採訪了相關設計師,給出了這份報告。

《Microprocessor Report》雜誌主編Linley Gwennap對這顆全新設計的x86處理器不吝溢美之詞:“Centaur高調重返x86市場,帶來了革新的處理器設計,整個八個高性能CPU核心、一個訂製深度學習加速器(DLA)。這是業界第一個集成DLA的伺服器處理器設計。新的加速器NCore的神經網路性能甚至比最強大的至強還要好,而且不需要昂貴的外部GPU計算卡輔助。”

Linley Group透露,Centaur的全新x86微架構叫做“CNS”,設計目標是IPC要高於傳統PC處理器,每時鐘周期可解碼4條x86指令,並行執行10個微操,首顆處理器暫命名“CHA”,其中AI協處理器INT8整數的峰值性能高達20TOPS(20萬億次操作每秒)。

威盛x86 AI處理器架構、性能公布:媲美Intel 32核心
CNS微架構圖

威盛x86 AI處理器架構、性能公布:媲美Intel 32核心
NCore AI協處理器架構圖

Linley Group基於權威的MLPerf性能測試來衡量x86處理器的AI性能,結果發現Centaur CHA處理器的AI推理性能,相當於23個世界級的Intel x86核心,而且後者必須是支援512位的VNNI矢量神經網路指令才行。——事實上,Intel現在還沒有真正的32核心產品。

Centaur AI協處理器的架構設計類似VNNI指令的SIMD(單指令多數據)理念,但是在16MB專用記憶體、20TB/s頻寬的支援下,每個時鐘周期可以處理32768個數據位,而且將推理處理交給專門的AI協處理器後,x86核心就可以放心執行其他通用任務。

Centaur還為開發者提供了新的演算法,可充分利用Centaru AI協處理器無與倫比的超低推理延遲,並與x86 CPU核心密切配合。

在紐約州舉辦的ISC East大會上,Centaur還首次公開展示了CHA處理器,而且除了影片分析、實時物體檢測和分類等傳統AI應用之外,還唯一秀了一把語義分割(像素級影像分類)、人體姿態估計(簡筆畫)等前沿應用,讓人大開眼界。

目前,Centaur正在改進優化新平台的硬體性能、軟體效率,而新處理器預計明年下半年正式投產。

Linley Group的詳細報告可以點擊這裡下載

威盛x86 AI處理器架構、性能公布:媲美Intel 32核心
不同CPU架構的對比

威盛x86 AI處理器架構、性能公布:媲美Intel 32核心
Centaur處理器測試中