史上最快AI计算机发布！谷歌TPU V3的1/5功耗、1/30体积，首台实体机已交付

2019 年 11 月 21 日
笔记

大数据文摘作品

还记得8月份占据各家科技头条的有史以来最大芯片吗？

这个名为Cerebras Wafer Scale Engine（WSE）的“巨无霸”面积达到42225 平方毫米，拥有1.2 万亿个晶体管，400000 个核心，片上内存18 Gigabytes，内存带宽19 PByte/s，fabric带宽100 Pbit/s，是目前芯片面积最大的英伟达GPU的56.7倍。

就在刚刚，在超级计算2019峰会（Supercomputing 2019 Event）上，这家备受瞩目的硅谷初创公司Cerebras，又宣布了大消息，发布了号称世界上最快的深度学习计算系统CS-1。

Cerebras同时还宣布，CS-1已经获得了美国政府超级计算机项目的认可。

目前，第一台CS-1已经向美国能源部的Argonne国家实验室交付完毕，将投入处理大规模的人工智能计算问题，比如研究癌症药物的相互作用。

尽管CS-1的性能还没有得到相关验证，但似乎仍为大规模人工智能计算提供了一种新可能。

专为人工智能计算设计的超级计算系统

Cerebras其实是一家刚刚成立三年的硅谷初创公司，但凭借几次重要发布，目前已经融资超过2亿美元。

Cerebras主页

如此受瞩目是因为其在人工智能芯片制造上采取了一种不同以往的方法——将所有数据保存在一块巨大的芯片上，以便系统更快运行。

AI系统一般会搭载许多芯片协同工作。但这存在一个显著问题，在芯片之间进行数据传输很慢，并且会限制芯片的分析速度。

成立之初，Cerebras就希望建立一种专门为深度学习优化的新型计算机，为特定的工作负载选择正确的计算机体系结构。

Cerebras表示，与其他系统相比，CS-1的每一个组件都专门针对人工智能工作优化，可以以更小的尺寸和更少的能源消耗下提供更高的计算性能。

CS-1高度达到26英寸（约66厘米），大概相当于一个小的行李箱。据相关报道，一个机架中包含了1,000个GPU的集群，50千瓦的功率。单个Cerebras芯片的内核数量是单个GPU的78倍以上，内存是3,000倍，内存带宽是10,000倍，此外它还具有33000倍的带宽(PB/s)。

CS-1的侧视图

这个性能有多强大呢？对比一下谷歌的TPU v3，CS-1功耗是它的五分之一，体积只有它的三十分之一，但速度却是整个TPU v3的三倍。

搭载全世界最大芯片，几分钟完成传统芯片几个月的任务

Cerebras为CS-1设计了专门的系统和软件平台，以从史上最大芯片WSE上的40万个计算内核和18G高性能片上存储器中提取极限处理能力。

在人工智能计算中，芯片越大越好。更大的芯片处理信息更快，能在更短的时间内得到训练结果。但是，仅有优异的处理器性能还远不足够。像WSE这样的高级处理器必须与专用的软件相结合才能实现破纪录的性能。因此，Cerebras专门为这一巨型芯片开发了CS-1内置系统和软件平台，各方面都为加速人工智能计算专门设计。

Cerebras首席执行官安德鲁•费尔德曼(Andrew Feldman)在接受 VentureBeat 采访时说：“这是从300毫米晶圆中切割出的最大“正方形“。尽管我们拥有最大、最快的芯片，但我们知道，一个非凡的处理器未必足以提供非凡的性能。如果想提供非常快的性能，那么就需要构建一个系统。而且并不是说把法拉利的引擎放进大众汽车里，就能得到法拉利的性能。如果想要获得1000倍的性能提升，需要做的就是打破瓶颈。”

Cerebras首席执行官安德鲁•费尔德曼(Andrew Feldman)

Cerebras 表示，他们是唯一一家从头开始建立专用系统这一任务的公司。通过优化芯片设计、系统设计和软件的各个方面，CS-1目前的性能令人满意。

通过CS-1和配套的系统软件， AI需要几个月才能完成的工作现在可以在几分钟内完成，而需要几个星期完成的工作可以在几秒钟内迅速完成。

CS-1不仅从根本上减少了训练时间，而且还为降低延迟设立了新的标杆。对于深度神经网络，单一图像的分类可以在微秒内完成，比其他解决方案快几千倍。

“这是一台由40万个专用人工智能处理器组成的人工智能系统。”费尔德曼说。

已经与Argonne国家实验室达成合作

CS-1分解图。来源: Cerebras

目前，CS-1的第一台机器已经完成交付。在Argonne国家实验室，CS-1正被用于研究癌症的神经网络的开发，帮助理解和治疗创伤性脑损伤，CS-1的性能使其成为AI中最复杂问题的潜在解决方案。

Argonne实验室是一个多学科的科学与工程研究中心，CS-1可以将全球最大的超级计算机站点比现有的AI加速器性能提升100到1000倍。

通过将超级计算能力与CS-1的AI处理能力结合使用，Argonne实验室现在可以加快深度学习模型的研发，以解决现有系统无法实现的问题。

“我们与Cerebras合作已有两年多了，我们非常高兴将新的AI系统引入Argonne。”Argonne实验室的计算、环境和生命科学副实验室主任Rick Stevens表示，“通过部署CS-1，我们大大缩短了神经网络的训练时间，使我们的研究人员能够大大提高工作效率，从而在癌症、颅脑外伤以及当今社会重要的许多其他领域的深度学习研究中得到显著进步。”

深度学习是人工智能的一个领域，它允许计算机网络从大量的非结构化数据中进行学习，然而深度学习模型需要大量的计算能力，并正在挑战当前计算机系统能够处理的极限，Cerebras CS-1的推出试图解决这一问题。

Argonne实验室部署CS-1以加强人工智能模型的训练，它的第一个应用领域是癌症药物反应预测，这个项目是美国能源部和国家癌症研究所合作的一部分，旨在利用先进的计算机和人工智能来解决癌症研究中的重大挑战问题。增加的 Cerebras CS-1正在努力支持Argonne扩大，主要提倡先进的计算，这也有望利用AI功能在2021年发布的Aurora exascale 系统实现百亿亿次级连接。

美国能源部负责人工智能与技术的副部长Dimitri Kusnezov在一份声明中说：“在能源部，我们相信与私企合作是加速美国人工智能研究的重要组成部分。我们期待着与Cerebras建立长期而有成效的伙伴关系，这将有助于研究下一代人工智能技术，并改变能源部的运营、业务和任务的形势。”

费尔德曼说：“我认为，我们将在未来五年内迎来一个非常激动人心的职业生涯。我认为，一小群人可以改变世界，这确实是企业家的口头禅。你不需要一个大公司，不需要数十亿美元，只要一小群杰出的工程师就能真正改变世界。我们始终相信这一点。”

仍存在质疑：高昂价格、内存过小、算法瓶颈？

当然，对于这样一个全新的AI系统，许多网友也提出了质疑。

Reddit上针对CS-1的一个讨论中，名为“yusuf-bengio”的网友表示，在实际操作中这种“晶圆规模的AI处理器”可能存在瓶颈，比如：

价格。制造这样一个芯片比小型的GPU昂贵得多；
内存过小。存在延迟或带宽瓶颈；
算法瓶颈。如果要使用整个芯片，就必须训练一个极小批量的模型，这反过来会影响准确性。

内存的问题也引起了许多网友的共鸣，有网友表示，这个芯片只能用batch_size 1训练，18GB的静态随机存取存储器（SRAM）直接使得Megatron，T5，甚至是GPT-2这些模型不能使用。

两大亮点

最后，尽管有质疑，还是再来看看Cerebras公布的这台全世界最快计算机的两大亮点。

CS-1系统

上图: Cerebras声称CS-1是最快的人工智能计算机。图片来源: Cerebras

“ CS-1是一个单一的系统，可以比最大的集群提供更多的计算性能，还省去了集群搭建和管理的开销。”Tirias Research首席分析师凯文 · 克雷韦尔(Kevin Krewell)在一份声明中表示， “CS-1在单个系统中提供如此多的计算机，不仅可以缩短训练时间，还可以减少部署时间。总体而言，CS-1可能大幅缩短项目的整体时间，而这是人工智能研究效率的关键指标。”

相比于GPU集群需要数周或数月才能建立起来、需要对现有模型进行大量修改、消耗数十个数据中心的机器以及需要复杂的专用InfiniBand进行集群搭建不同，CS-1的搭建使用需要数分钟。

用户只需接入标准的100Gb以太网到交换机，就可以用惊人的速度开始训练模型。

Cerebras软件平台

上图: 近距离观察Cerebras芯片。图片来源: Cerebras

CS-1非常易于部署和使用，但是Cerebras的目的不仅是加快训练时间，还要加快研究人员验证新想法所需的端到端时间，从模型定义到训练，从调试到部署。

Cerebras软件平台旨在允许机器学习研究人员在不改变现有工作流程的情况下利用CS-1的性能，用户可以使用行业标准的机器学习框架(如TensorFlow和PyTorch)为CS-1定义模型训练。

一个强大的图形编译器自动将这些模型转换为针对CS-1优化的可执行文件，并提供一组可视化工具进行直观的模型调试和分析。

费尔德曼说: “我们使用开源软件，并尽可能使程序简单化。”但是目前所知的是，这个系统既不是基于x86，也不是基于Linux。