淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

阿里硬體研發,又有大動作。

剛剛,阿里雲正式對外發布全新處理器:CIPU。

不僅架構全自研,還號稱要「替代CPU成為新一代雲計算核心硬體」!

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

雲計算搞了這麼些年,CPU在數據中心可一直還是牢牢佔據「C位」。

就在去年,阿里還花大力氣推出了5nm的伺服器CPU倚天710。

這怎麼就突然要打破傳統了呢?

CIPU,這個比CPU多了一個I的新面孔,究竟什麼來頭?

CIPU究竟是什麼?

CIPU全稱Cloud Infrastructure Process Units,意為雲基礎設施處理器。

從名字上就能看出,這是一顆雲端處理器,專門用於連接伺服器內硬體和雲上虛擬化資源。

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研
△CIPU架構圖

據阿里雲介紹,之所以用CIPU取代以CPU為核心的架構,就是為了更好地「壓榨」伺服器硬體、獲取更多虛擬化資源,並讓已有的資源用起來更順手。

軟體上,CIPU接入飛天雲作業系統,更高效地完成虛擬化資源編排調度的工作;

硬體上,飛天作業系統通過CIPU能快速雲化管理數據中心物理設備,並對網路和存儲硬體進行加速,這樣一來不僅不會再浪費CPU的算力,還能增強網路和存儲性能。

從功能來說,它擁有四大特性:

雲原生最佳載體,即每個裸金屬系統能運行2000個容器,並用沙箱容器技術為容器提供更安全的隔離,鏈路啟動速度在50ms以內;

晶片直接實現IO引擎,其中存儲I/O操作每秒可進行300萬次,網路I/O最高每秒5000萬個分組數據包,存儲長尾時延降低50%;

晶片級安全加固,即能高速卸載加密後的數據,將晶片級硬體的不可篡改性映射到軟體上;

增強型融合網路,即在RDMA技術加持下,網路延遲最低達到5微秒,頻寬最高能達到200GB。

從性能來說,它又給計算、存儲和網路三類資源帶來了不少提升。

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

計算上,CIPU能快速接入不同類型資源的神龍雲伺服器,單容器虛擬化消耗減少50%,啟動速度快350%。以運行部分資料庫和伺服器為例,Nginx性能就提升了89%,Redis提升68%,MySQL提升60%,此外對於AI和大數據場景也有提升。

存儲上,CIPU能對存算分離架構的塊存儲接入進行硬體加速,存儲時延最低達到30微秒,頻寬最高200Gbps,支援雲上多計算節點NVME共享訪問雲盤塊存儲,Oracle RAC、SAP Hana等高可用資料庫無縫上雲。

網路上,CIPU對高頻寬物理網路進行了硬體加速,基礎頻寬達到200GB,並採用自研的RDMA-Solar協議,網路時延降低至16us,相較自建物理機的集群吞吐量提升30%、業務高峰期延遲下降90%。

有意思的是,阿里雲這款CIPU處理器,其實已經在內部打磨好幾年了。

它最初的「靈感」,來自於阿里雲內部一個叫做神龍卡的設備。

神龍卡誕生於2017年,從功能上來講有點類似於AWS發布的一款名叫Nitro的平台(集成了虛擬機監視器、帶外管理等功能),甚至比AWS發布的時間更早一點。

經過了好幾輪迭代後,神龍卡逐漸加入了編排調度、硬體加速等更多能力,最終誕生了CIPU的雛形,隨後也在繼續完善這一款產品。

一方面,據阿里雲智慧雲架構總監黃瑞瑞介紹,在這幾年裡,CIPU已經承受過像「雙十一」這種體量的性能&壓力「測試」了。

另一方面,有不少阿里雲的客戶,也或多或少已經使用過基於CIPU的雲計算服務。雖然客戶可能對底層硬體層沒有直接的感知,但阿里雲的網路、存儲等性能,這幾年確實在不斷上升,例如,不久前阿里雲就成為中國唯一獲評全球十大電腦網路研究機構的中國企業。

如今來看,CIPU的出現確實再次打破了雲計算的「瓶頸」,將整體性能提升了一大部分。

不過,要說推翻CPU在雲數據中心裡「C位」的想法,倒也不是阿里一家有之。

在市面上相似概念的產品里,CIPU相比IPU、DPU來說,又究竟有什麼不同?

為什麼是CIPU?

要說清楚這件事兒,還是得從雲計算技術的發展歷程說起。

過去十幾年來雲計算技術的發展,可以大體分為兩個階段。

第一階段,在分散式技術的推動之下,互聯網企業開始將業務從大型機向分散式系統遷移,打下了分散式架構的底座。

第二階段,資源池化技術出現。這一技術通過計算存儲分離的架構,實現了對資源的統一調度編排,使得彈性計算成為可能。

對於用戶而言,這也就意味著雲計算可靠性和可用性的極大提升。

在這兩個階段,計算體系架構都是以CPU為核心的。

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

但當雲計算髮展到今天,以大數據應用為代表的數據密集型場景越來越多,這種以CPU為中心的架構便開始暴露短板:

首先,以CPU為中心的架構會導致計算和網路傳輸之間的時延較大。

其次,大數據應用增多,導致數據中心內部數據遷移量增大,以CPU為中心的架構無法提供高頻寬。

再者,以阿里云為例,其在全球27個國家和地區、84個可用區管理著上百萬台伺服器。但以CPU為中心的架構很難解決這種超大規模基礎設施的複雜管理問題。

如此一來,解決之道也就指向了一個方向:打破以CPU為中心的傳統雲計算體系架構,定義新一代雲計算基礎技術。

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

而這也正是如今各大廠商所追逐的最新技術熱點。

比如NVIDIA 的DPU(Data Processing Units),2020年10月一經發布,便在業界引發熱議。

顧名思義,DPU側重解決的是數據遷移頻寬的問題。作為集成加速平台,DPU能夠從CPU上卸載關鍵的網路、存儲和安全任務,降低CPU的開銷。

老黃當時表示:

數據中心已成為新型計算單元,而DPU是其重要的組成部分。CPU、GPU和DPU的結合,可構成完全可編程的單一AI計算單元,提供前所未有的安全性和算力。

而英特爾也緊隨其後,提出了「IPU」(Infrastructure Processing Units)的概念。

相比於DPU,IPU更強調虛擬化雲化能力,通過網路虛擬化、存儲虛擬化、網路存儲管理以及安全等功能,加速網路基礎設施,釋放CPU核來提高應用程式性能。

儘管在概念上有些許區分,但無論是DPU還是IPU,都是想通過軟體定義+硬體加速的方式,替代CPU成為數據中心的核心硬體。

由此也可以看出,阿里雲此番推出的CIPU,更像是IPU和DPU的綜合體,既能雲化虛擬化管控數據中心,又能解決數據遷移頻寬的問題。

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

而更大的區別在於,阿里雲本身就是一家雲廠商,還是有飛天雲作業系統的那一種。

這就意味著,與NVIDIA 、英特爾這樣的硬體廠商不同,阿里雲對於雲計算技術發展各個階段所面臨的問題,有更為切身的體會。

前文提到,CIPU是一顆專門為飛天系統設計的處理器。也就是說,它從設計之初,就是貼合雲計算行業痛點、結合飛天系統特點去做的。

這樣的軟硬一體化,一方面,既能通過硬體提供高性能,又能通過軟體提供靈活性。

另一方面,從一開始就避免了適配性的問題,能通過1+1>2的方式,做到更強的性能、更低的價格、更高的穩定性。

自主研發的雲計算

如此看來,最先享受到這波技術發展紅利的,就是雲上用戶們——

雲計算能做到更高的性價比了。

而作為CIPU背後的雲廠商,阿里雲此番技術發布,也扣上了雲計算技術國產化在新階段的重要一環。

以阿里雲自身為例:

2009年,阿里雲自研雲計算作業系統飛天誕生。雙11、12306春運購票等大家津津樂道的極限並發場景,都跑在這個系統之上。

2017年,為了解決伺服器虛擬化性能損耗的問題,阿里雲自主研發了神龍架構(就是上文提到的神龍卡),通過把虛擬化轉移到專用硬體中進行加速,實現了性能「0損耗」。

在雲存儲技術方面,阿里雲自研的盤古分散式存儲系統,推動了面向數據中心ZNSSSD國際標準的發展。與西部數據(WD)共同提出的NVMe2.0,是目前雲計算業內最為先進的軟硬一體深度融合的分散式存儲系統。

去年,阿里雲還發布了首款CPU倚天710,刷新了Arm伺服器晶片性能紀錄。

淘汰CPU!阿里雲首發CIPU處理器 為OS反向自研

……

從網路到存儲,從軟體到硬體,通過13年的技術積累、自主研發,阿里雲作為中國雲廠商的代表,正在世界雲計算的舞台上發出越來越高的聲量。

而CIPU的推出,則意味著這種在技術自主化方面的努力,或許已更進一步:

嘗試打破海外雲廠商、硬體廠商定義的傳統發展路線,走出一條自己的新路。

每當技術發展到一個更新換代的新階段,圍繞話語權的競爭往往精彩不斷,影響更甚於科技圈本身。

5G如是,雲技術亦如是。

好戲或許才剛剛開場。