史上最快AI計算機發佈！谷歌TPU V3的1/5功耗、1/30體積，首台實體機已交付

2019 年 11 月 21 日
筆記

大數據文摘作品

還記得8月份佔據各家科技頭條的有史以來最大芯片嗎？

這個名為Cerebras Wafer Scale Engine（WSE）的「巨無霸」面積達到42225 平方毫米，擁有1.2 萬億個晶體管，400000 個核心，片上內存18 Gigabytes，內存帶寬19 PByte/s，fabric帶寬100 Pbit/s，是目前芯片面積最大的英偉達GPU的56.7倍。

就在剛剛，在超級計算2019峰會（Supercomputing 2019 Event）上，這家備受矚目的硅谷初創公司Cerebras，又宣布了大消息，發佈了號稱世界上最快的深度學習計算系統CS-1。

Cerebras同時還宣布，CS-1已經獲得了美國政府超級計算機項目的認可。

目前，第一台CS-1已經向美國能源部的Argonne國家實驗室交付完畢，將投入處理大規模的人工智能計算問題，比如研究癌症藥物的相互作用。

儘管CS-1的性能還沒有得到相關驗證，但似乎仍為大規模人工智能計算提供了一種新可能。

專為人工智能計算設計的超級計算系統

Cerebras其實是一家剛剛成立三年的硅谷初創公司，但憑藉幾次重要發佈，目前已經融資超過2億美元。

Cerebras主頁

如此受矚目是因為其在人工智能芯片製造上採取了一種不同以往的方法——將所有數據保存在一塊巨大的芯片上，以便系統更快運行。

AI系統一般會搭載許多芯片協同工作。但這存在一個顯著問題，在芯片之間進行數據傳輸很慢，並且會限制芯片的分析速度。

成立之初，Cerebras就希望建立一種專門為深度學習優化的新型計算機，為特定的工作負載選擇正確的計算機體系結構。

Cerebras表示，與其他系統相比，CS-1的每一個組件都專門針對人工智能工作優化，可以以更小的尺寸和更少的能源消耗下提供更高的計算性能。

CS-1高度達到26英寸（約66厘米），大概相當於一個小的行李箱。據相關報道，一個機架中包含了1,000個GPU的集群，50千瓦的功率。單個Cerebras芯片的內核數量是單個GPU的78倍以上，內存是3,000倍，內存帶寬是10,000倍，此外它還具有33000倍的帶寬(PB/s)。

CS-1的側視圖

這個性能有多強大呢？對比一下谷歌的TPU v3，CS-1功耗是它的五分之一，體積只有它的三十分之一，但速度卻是整個TPU v3的三倍。

搭載全世界最大芯片，幾分鐘完成傳統芯片幾個月的任務

Cerebras為CS-1設計了專門的系統和軟件平台，以從史上最大芯片WSE上的40萬個計算內核和18G高性能片上存儲器中提取極限處理能力。

在人工智能計算中，芯片越大越好。更大的芯片處理信息更快，能在更短的時間內得到訓練結果。但是，僅有優異的處理器性能還遠不足夠。像WSE這樣的高級處理器必須與專用的軟件相結合才能實現破紀錄的性能。因此，Cerebras專門為這一巨型芯片開發了CS-1內置系統和軟件平台，各方面都為加速人工智能計算專門設計。

Cerebras首席執行官安德魯•費爾德曼(Andrew Feldman)在接受 VentureBeat 採訪時說：「這是從300毫米晶圓中切割出的最大「正方形「。儘管我們擁有最大、最快的芯片，但我們知道，一個非凡的處理器未必足以提供非凡的性能。如果想提供非常快的性能，那麼就需要構建一個系統。而且並不是說把法拉利的引擎放進大眾汽車裡，就能得到法拉利的性能。如果想要獲得1000倍的性能提升，需要做的就是打破瓶頸。」

Cerebras首席執行官安德魯•費爾德曼(Andrew Feldman)

Cerebras 表示，他們是唯一一家從頭開始建立專用系統這一任務的公司。通過優化芯片設計、系統設計和軟件的各個方面，CS-1目前的性能令人滿意。

通過CS-1和配套的系統軟件， AI需要幾個月才能完成的工作現在可以在幾分鐘內完成，而需要幾個星期完成的工作可以在幾秒鐘內迅速完成。

CS-1不僅從根本上減少了訓練時間，而且還為降低延遲設立了新的標杆。對於深度神經網絡，單一圖像的分類可以在微秒內完成，比其他解決方案快幾千倍。

「這是一台由40萬個專用人工智能處理器組成的人工智能系統。」費爾德曼說。

已經與Argonne國家實驗室達成合作

CS-1分解圖。來源: Cerebras

目前，CS-1的第一台機器已經完成交付。在Argonne國家實驗室，CS-1正被用於研究癌症的神經網絡的開發，幫助理解和治療創傷性腦損傷，CS-1的性能使其成為AI中最複雜問題的潛在解決方案。

Argonne實驗室是一個多學科的科學與工程研究中心，CS-1可以將全球最大的超級計算機站點比現有的AI加速器性能提升100到1000倍。

通過將超級計算能力與CS-1的AI處理能力結合使用，Argonne實驗室現在可以加快深度學習模型的研發，以解決現有系統無法實現的問題。

「我們與Cerebras合作已有兩年多了，我們非常高興將新的AI系統引入Argonne。」Argonne實驗室的計算、環境和生命科學副實驗室主任Rick Stevens表示，「通過部署CS-1，我們大大縮短了神經網絡的訓練時間，使我們的研究人員能夠大大提高工作效率，從而在癌症、顱腦外傷以及當今社會重要的許多其他領域的深度學習研究中得到顯著進步。」

深度學習是人工智能的一個領域，它允許計算機網絡從大量的非結構化數據中進行學習，然而深度學習模型需要大量的計算能力，並正在挑戰當前計算機系統能夠處理的極限，Cerebras CS-1的推出試圖解決這一問題。

Argonne實驗室部署CS-1以加強人工智能模型的訓練，它的第一個應用領域是癌症藥物反應預測，這個項目是美國能源部和國家癌症研究所合作的一部分，旨在利用先進的計算機和人工智能來解決癌症研究中的重大挑戰問題。增加的 Cerebras CS-1正在努力支持Argonne擴大，主要提倡先進的計算，這也有望利用AI功能在2021年發佈的Aurora exascale 系統實現百億億次級連接。

美國能源部負責人工智能與技術的副部長Dimitri Kusnezov在一份聲明中說：「在能源部，我們相信與私企合作是加速美國人工智能研究的重要組成部分。我們期待着與Cerebras建立長期而有成效的夥伴關係，這將有助於研究下一代人工智能技術，並改變能源部的運營、業務和任務的形勢。」

費爾德曼說：「我認為，我們將在未來五年內迎來一個非常激動人心的職業生涯。我認為，一小群人可以改變世界，這確實是企業家的口頭禪。你不需要一個大公司，不需要數十億美元，只要一小群傑出的工程師就能真正改變世界。我們始終相信這一點。」

仍存在質疑：高昂價格、內存過小、算法瓶頸？

當然，對於這樣一個全新的AI系統，許多網友也提出了質疑。

Reddit上針對CS-1的一個討論中，名為「yusuf-bengio」的網友表示，在實際操作中這種「晶圓規模的AI處理器」可能存在瓶頸，比如：

價格。製造這樣一個芯片比小型的GPU昂貴得多；
內存過小。存在延遲或帶寬瓶頸；
算法瓶頸。如果要使用整個芯片，就必須訓練一個極小批量的模型，這反過來會影響準確性。

內存的問題也引起了許多網友的共鳴，有網友表示，這個芯片只能用batch_size 1訓練，18GB的靜態隨機存取存儲器（SRAM）直接使得Megatron，T5，甚至是GPT-2這些模型不能使用。

兩大亮點

最後，儘管有質疑，還是再來看看Cerebras公布的這台全世界最快計算機的兩大亮點。

CS-1系統

上圖: Cerebras聲稱CS-1是最快的人工智能計算機。圖片來源: Cerebras

「 CS-1是一個單一的系統，可以比最大的集群提供更多的計算性能，還省去了集群搭建和管理的開銷。」Tirias Research首席分析師凱文 · 克雷韋爾(Kevin Krewell)在一份聲明中表示，「CS-1在單個系統中提供如此多的計算機，不僅可以縮短訓練時間，還可以減少部署時間。總體而言，CS-1可能大幅縮短項目的整體時間，而這是人工智能研究效率的關鍵指標。」

相比於GPU集群需要數周或數月才能建立起來、需要對現有模型進行大量修改、消耗數十個數據中心的機器以及需要複雜的專用InfiniBand進行集群搭建不同，CS-1的搭建使用需要數分鐘。

用戶只需接入標準的100Gb以太網到交換機，就可以用驚人的速度開始訓練模型。

Cerebras軟件平台

上圖: 近距離觀察Cerebras芯片。圖片來源: Cerebras

CS-1非常易於部署和使用，但是Cerebras的目的不僅是加快訓練時間，還要加快研究人員驗證新想法所需的端到端時間，從模型定義到訓練，從調試到部署。

Cerebras軟件平台旨在允許機器學習研究人員在不改變現有工作流程的情況下利用CS-1的性能，用戶可以使用行業標準的機器學習框架(如TensorFlow和PyTorch)為CS-1定義模型訓練。

一個強大的圖形編譯器自動將這些模型轉換為針對CS-1優化的可執行文件，並提供一組可視化工具進行直觀的模型調試和分析。

費爾德曼說: 「我們使用開源軟件，並儘可能使程序簡單化。」但是目前所知的是，這個系統既不是基於x86，也不是基於Linux。

相關報道：

Cerebras Systems deploys the ‘world’s fastest AI computer’ at Argonne National Lab

https://techcrunch.com/2019/11/19/the-cerebras-cs-1-computes-deep-learning-ai-problems-by-being-bigger-bigger-and-bigger-than-any-other-chip/

AMD launches 7-nm Radeon Pro workstation graphics chips

實習/全職編輯記者招聘ing

加入我們，親身體驗一家專業科技媒體采寫的每個細節，在最有前景的行業，和一群遍布全球最優秀的人一起成長。坐標北京·清華東門，在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至[email protected]

點「在看」的人都變好看了哦！