更大意味著更好嗎?Cerebras史上最強深度學習電腦誕生始末

  • 2020 年 2 月 11 日
  • 筆記

人工智慧初創公司Cere

如今,時間剛過去1個多月,在洛斯阿爾托斯的Cerebras總部,一些客戶已經通過光纖電纜將他們的數據輸入了4台CS-1電腦進行訓練,這些64厘米高的機器不停地運行著,每台機器以20千瓦的功耗將熱量通過牆上的一個洞散發到矽谷的街道上。

WSE比通常用於神經網路計算的晶片要大,比如Nvidia Tesla V100 graphics processing unit或者Google的Tensor Processing Unit。但是,更大就意味著更好嗎?

顯然Cerebras自己是這麼認為的,其首席執行官兼聯合創始人Andrew Feldman表示,受訓練速度的限制,如今的人工智慧遠遠低於它本應達到的水平。

比如,一輛自動駕駛汽車要識別它在路上遇到的所有重要物體,首先是訓練深度學習模型,這個過程必須向模型輸送道路物體的大量影像,這一過程發生在一個數據中心,在那裡,消耗數十甚至數百千瓦的電腦往往被用來完成一個長達數周的訓練任務。假設得到的神經網路能夠以所需的精度執行任務,那麼定義網路連接強度的許多參數就會被下載到汽車的電腦上,由電腦執行深度學習的另一半任務,即推理。

Cerebras的客戶抱怨說,在今天的電腦上運行大型神經網路的訓練需要長達6周的時間。按照這個速度,他們一年只能訓練6個神經網路。Feldman說:「我們想要測試更多,如果能在2-3小時內訓練一個網路,就能在一年內測試數千個想法。」

Cerebras就是在這種需求下誕生的。

最強深度學習電腦系統的誕生始末

CS-1型電腦本身從外部看不到多少東西。實際上,每個機箱大約四分之三是由冷卻系統佔用的,最後的四分之一才是關鍵:一個強大的電腦幾乎完全由一個晶片組成。但這種晶片的面積超過46255平方毫米,是你能買到的任何其他處理器晶片的50多倍。擁有1.2萬億個電晶體、40萬個處理器核心、18千兆位元組的SRAM以及每秒可移動1億億位數據的互連。

CS-1的紙面數據也同樣令人震驚。該公司表示,一個10個機架的TPU2集群(現在是三代Google AI電腦的第二個集群)消耗的電力是它的5倍,佔用的空間是它的30倍,僅能實現WSE單台電腦三分之一的性能。

CS-1的誕生可以追溯到2015年,那時候,伺服器企業Sea Micro(AMD收購)的資深員工Feldman,也就是Cerebras的創始人。一開始他想要製造一台完全符合現代人工智慧工作性質的電腦,這個機器需要滿足:能夠快速移動大量數據;更接近處理核心的記憶體;這些核心不需要處理其他核心正在處理的數據。

這讓該公司的資深架構師和首席技術官Gary Lauterbach立即想到了幾件事:

  • 首先,他們可以使用成千上萬個小型核心來進行相關的神經網路計算,而不是使用更少的通用核;
  • 其次,這些核心應該通過一個互連方案連接在一起,以低能耗快速傳輸數據;
  • 最後,所有需要的數據應該在處理器晶片上,而不是在單獨的記憶體晶片上。

在很大程度上,需要在這些核心之間來回移動數據,這使得WSE具有唯一性。在兩個核之間移動數據的最快、最低能耗的方法是將它們放在相同的硅基板上。當數據必須從一個晶片傳送到另一個晶片時,速度和功率的代價是巨大的,因為距離更長,而傳送訊號的「電線」必須更寬,密度也必須更小。

將所有通訊都保持在硅上的驅動力,再加上對小型核心和本地存儲器的渴望,都指向了製造儘可能大的晶片,也許是整個硅晶圓那麼大的晶片。Feldman說:「很顯然,我們做不到這一點,但這樣做有很大的好處。」

但是Lauterbach看到了一種架構解決方案:因為他們所針對的工作負載傾向於有成千上萬個小的、相同的內核,所以有可能放入足夠多的冗餘內核來解決其中1%的缺陷導致的故障,並且仍然有一個非常強大的大晶片。

當然,Cerebras仍然需要解決大量的製造問題來構建它容錯的巨量晶片。例如,光刻工具被設計成將它們的特徵定義模式投射到相對較小的矩形上,並一遍又一遍地這樣做。由於在晶片的不同位置上澆鑄不同圖案的成本和困難,僅憑此限制將使很多系統無法在單個晶片上構建。

Cerebras內部:冷卻系統佔據了CS-1的大部分,WSE晶片位於左后角。

不過WSE並不需要這樣做,它看上去像是利用相同的圓晶製造出的晶片,和普通的沒什麼差別。最大的挑戰是找到一種將這些偽晶片連接在一起的方法。晶片製造商會在每一塊晶片上都留下被稱為劃線(scribe lines)的空白窄邊,晶圓通常沿著這些線被切成小塊。Cerebras與台灣半導體製造公司(TSMC)合作,開發出了一種跨越劃線的互連方式,使得每個晶片中的核心可以通訊。

現在,所有通訊和記憶體都在一塊矽片上,數據可以暢通無阻地被壓縮,產生每秒1000千兆位的核心到核心頻寬和每秒9千兆位的SRAM到核心頻寬。Feldman說:「這是一星半點,這是增強了四個數量級的頻寬速度。」

劃線交叉互連(Scribe-line-crossing interconnects)並不是唯一被攻克的難題,晶片製造硬體必須進行相應的修改。即使是用於電子設計自動化的軟體也只有被訂製後,才能在如此大的晶片上工作。

Feldman說:「每一條規則、每一種工具和每一種製造設備都是為挑選一塊普通大小的巧克力餅乾而設計的,而且我們提供的是一塊整個餅乾。每一步,都要創新。」

他還說道,晶圓規模的集成「在過去40年里一直被忽視」。如今Cerebras已經進行了初步嘗試,會有更多的公司加入進來,大門也自然會對其他人敞開。「應該會有不少人想要尋求與我們的合作,以解決人工智慧以外的問題。」

需要解決的不僅是冷卻系統,還有供電

事實上,伊利諾伊大學和加州大學洛杉磯分校的工程師們認為,使用一種叫做硅互連結構(silicon interconnect fabric)的技術,Cerebras的晶片可以促進他們的晶圓級計算工作(wafer-scale computing efforts)。伊利諾伊大學的Rakesh Kumar說:「這在很大程度上驗證了我們目前的研究。」

誠然,CS-1體現的不僅是WSE晶片,但它也與WSE晶片相差不多,這既是出於設計需求,也是出於必要,因為橫穿主板的是一個位於晶片上方的電力輸送系統和一個位於晶片下方的冷板。而令人驚訝的是,在電腦的發展中,最大的挑戰來自於電力傳輸系統。

WSE的1.2萬億電晶體的設計工作電壓約為0.8伏,這是處理器的標準配置。不過,由於數量太多,總共需要20000安培的電流。Lauterbach說:「在沒有明顯電壓降的情況下,將20000安培電流注入晶圓,這是一項相當艱巨的工程挑戰,比冷卻晶圓或解決產量問題還要困難得多。」

並且,電源不能從WSE邊緣進行傳輸,因為互連中的電阻會在電壓到達晶片之前將其消耗至零。正確答案是從上面進行垂直傳送,Cerebras設計了一塊玻璃纖維電路板,裡面裝有數百個用於控制功率的專用晶片,一百萬根銅柱將大約一毫米的距離從玻璃纖維板連接到WSE的各個點。

以這種方式傳送能量看上去在很大程度上解決了問題,而且也很簡單,但事實證明並非如此。在實際操作中,晶片、電路板和冷板會預熱到相同的溫度,但它們會膨脹不同的量級,銅膨脹最大,硅膨脹最小,玻璃纖維介於兩者之間。像這樣的不匹配在正常尺寸的晶片中是一個令人頭疼的問題,因為這種變化足以切斷與印刷電路板的連接,或者產生足夠的應力破壞晶片。對於WSE大小的晶片,即使是很小的尺寸變化也會轉化為毫米級。

Lauterbach就此說道:「與主板的熱膨脹係數不匹配是一個殘酷的問題。」Cerebras在尋找一種具有合適的熱膨脹中間係數的材料,其應介於硅和玻璃纖維之間,只有這樣才能保證百萬個電力輸送站的正常連接。

但是,最終,工程師們不得不自己造一個,這項工作就花了一年半的時間。

節能雖好,但對客戶或許沒有太大吸引力

2018年,Google、百度和一些頂級學術團體開始聯合研究基準(benchmarks),以便進行系統之間的比較。5月份,他們發布了MLPerf。

根據MLPerf,神經網路的訓練在過去幾年取得了巨大的進步。在ResNet-50影像分類問題上,Nvidia DGX在80秒內就完成了。這在以前,如果使用的是NVIDIA 的DGX-1需要約8小時,如果使用的是K80則需要25天。

Cerebras還沒有發布MLPerf結果或任何其他可獨立驗證的比較。相反,該公司更願意讓客戶使用自己的神經網路和數據來試用CS-1。

據分析人士稱,這種做法並不罕見。Moor Insights的人工智慧分析師Karl Freund表示:「每個人都有為自己業務開發的模型。對買家來說,這才是唯一重要的。」

早期客戶例如阿貢國家實驗室(Argonne National Labs),他們會提出一些相當強烈的需求。在訓練神經網路實時識別不同類型的引力波事件(gravitational-wave events)時,科學家們最近使用了阿貢耗電四分之一兆瓦的Theta超級電腦的資源,世界上28個最強大的系統之一。

把功耗降低到千瓦似乎被證明是超級計算的一個關鍵好處。但不幸的是,Lauterbach對此表示懷疑,他擔心這項功能是否會成為數據中心的一大賣點。他說道:「雖然很多數據中心都在談論節約能源,但歸根結底,他們並不在乎,他們更想要性能。」

相關報道:

https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier