90TB显存!英伟达发布新一代SuperPOD超算,AI算力新巅峰!
- 2021 年 4 月 19 日
- AI
周一,黄教主又很淡定的在自家厨房里开完了GTC发布会
众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会,则为如今的万亿模型想象力的时代提供了一份极其重要的保障,不仅使得造万亿模型都成为了可能,甚至打开了通往十万亿乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 这其中的关键,就是在本届GTC大会上全新升级的DGX SuperPOD。
为AI而生的超算
首先用一张图来类比DGX SuperPOD、DGX A100以及A100计算卡之间的关系:
DGX SuperPOD 是专门为AI量身定制的大规模、安全、可扩展的超级计算机,不仅在整个企业范围内保护和扩展AI算力,并且还提供相关的配套软件来完成集群操作,帮助企业开发者更好的调度和管理算力。
如今人工智能已经几乎渗透到现代商业的方方面面,相应的,模型训练对算力的渴求也以持续呈指数级增长,并且远远未到边界。尤其是在自然语言处理、推荐系统和生物计算等AI核心业务应用上,动辄千亿、甚至万亿级别参数量的模型已经成为了当下的热门研究方向。
另一方面,随着AI对全领域的渗透,互联网公司也在谋求一种更加安全、便捷、大规模、可扩展、数据可隔离的集群式解决方案,从而为全公司的诸多业务和研究团队提供服务,以支持不断变化的项目需求和算力需求。
而DGX SuperPOD 恰到好处的满足了这份想象力。
2019年,英伟达基于多台DGX系统构建了第一代SuperPod系统,该超算以远低于一般超算的成本和能耗跻身性能世界前20之列。
2020年,NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。第二代SuperPOD基于DGX A100系统和Mellanox网络架构构建,其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。
而在本届GTC大会上,我们看到DGX SuperPOD 又迎来了一波全面的升级。此外,新一代SuperPOD 极大的解放了部署效率,大幅降低了AI算力集群的购置成本,并且具备算力线性扩展能力和完备的技术支持,使得这份AI巅峰算力具备切实的企业内落地能力。
算力巅峰,成本可期,撑起百万亿参数模型
相比上一代SuperPOD系统,本次新发布的SuperPOD 配备了目前最先进的80GB显存的加强版A100,为SuperPOD 带来可达90TB的HBM2显存,以及高达2.2EB/s的总带宽!
这是什么概念呢?
以上图NLP发展轨迹为例,自2018年ELMo诞生之日起,NLP预训练语言模型的参数量就迎来了持续的指数爆炸级增长,如今语言模型参数量已经从三年前的不足1亿,爆炸式增长至1750亿。可以预见的是,按照这份增长速度,到2023年时,语言模型达到 100万亿 的参数量规模都是值得想象的。而SuperPOD高达90TB的HBM2显存容量,甚至可以撑起这份百万亿模型参数的想象力!
而在带宽方面,要知道,在传统的高性能计算解决方案中,若实现2.2EB/s的总带宽,需要多达11,000台CPU服务器,大约相当于有250个机柜的数据中心,比SuperPOD整整多了15倍!这意味着我们的数据中心仅需要很少的物理空间,就能装得下这份顶级算力。
这个代表如今AI算力巅峰的超算在价格上却离我们并不遥远,DGX SuperPOD的报价自 700万美元 起,并且6000万美元即可扩展至完整版的系统,实现高达 700 PetaFLOPs 的恐怖算力。
BlueField-2 DPU
值得注意的是,借助NVIDIA BlueField-2,新发布的SuperPOD成为了世界上首台云原生超级计算机,支持多租户共享,具备完全的数据隔离和裸机性能。
云原生超级计算(Cloud-Native Supercomputing)是下一代超级计算的重要组成部分。云原生超级计算机将高性能计算与云计算服务的安全性和易用性相结合,换句话说,云原生超级计算为HPC云提供了一个与TOP500超级计算机一样强大的系统,多个用户可以安全地共享该系统,而不会牺牲其应用程序的性能。
NVIDIA以其最新的DGX SuperPOD形式向全球用户提供云原生超级计算机,其中就包括现已投入生产的NVIDIA BlueField-2数据处理单元DPU(Data Processing Unit)。
越来越多的企业需要将高性能AI计算推进到实操模式,在这种模式下,许多开发人员可以确保他们的工作像在云中一样安全且隔离。
NVIDIA BlueField-2 DPU 是针对企业级部署和支撑200 Gbps网络连接进行研发优化的计算模块。不仅企业获得了加速的,完全可编程的网络,同时该网络实现了零信任安全性以防止数据泄露,完美地隔离用户和数据,拥有和裸机同样的性能表现。
现在,每个DGX SuperPOD都具有此功能,在其中的每个DGX A100节点中集成了两个NVIDIA BlueField-2 DPU。 IT管理员可以使用NVIDIA BlueField DPU的卸载,加速和隔离功能为共享的AI基础架构实施安全的多租户,而不会影响DGX SuperPOD的AI性能。
Base Command
Base Command Manager是为DGX SuperPOD配备的专用管理软件,负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作,让世界各地的开发团队能够顺利开展工作。值得一提的是,Base Command也是英伟达内部使用的DGX管理和操作工具,其可以让多个用户和 IT 团队安全地访问、共享和操作 DGX SuperPOD 基础架构。
目前,英伟达正在使用Base Command为数千名工程师和200多个团队提供支持,每周使用超过100万个GPU小时。
Base Command Manager由用于大规模、多用户和多团队AI开发工作流的NVIDIA基本命令平台和用于集群管理的NVIDIA基本命令管理器组成。其中,基本命令平台提供了一个图形用户界面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。团队leader也可以通过它设置项目优先级,评估、预测算力需求。
用户通过命令平台可以非常方便的管理自己的训练任务、计算环境、数据集和工作空间等,以及配置任务需要的计算量(GPU节点数)等。如下图所示,图形化界面非常直观友好。
此外,在基本命令平台上,我们可以非常清晰的看到所提交任务的运行时长、GPU利用率甚至更深层次的Tensor Core活跃度、显存活跃度、通信负载等实时参数变化,帮助我们深入的监控、监测和调试模型训练。如下图所示。
小时级超算部署效率
在传统的搭建流程中,一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。搭建一个传统的数据中心,不仅需要一个大型的专业技术团队,而且往往要耗费数个月才能完成,时间、空间和金钱成本高昂。
而新一代DGX SuperPOD不仅有着恐怖的计算性能,而且部署效率方面也有了极大的提升。实际证明,4名由英伟达专业调配的操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,并且凭借Mellanox的交换功能可以轻松地将多个系统互连在一起,以至最终达到SuperPOD的规模。此外,如前文所述,同等带宽下,新一代SuperPOD相比传统CPU集群更是可以节约高达15倍的数据中心物理空间。
凭借这种新的拓展方式,不仅超算的部署效率和成本控制有了极大的改善和保障,企业机构还可以实现近乎线性的算力扩展,而且每次增加这一个这种由20台DGX系统构成的SuperPOD 模块时所产生的支出也将变得更少。
最后,贴一张GTC大会后的英伟达股价走势图