英特尔在极光超算上的实践 堪称异构计算的完美落地

  • 2019 年 11 月 22 日
  • 资讯

在SC19大会上,54期TOP500超算排行榜发布了,这一次TOP10的超算相比6月份的没有什么变化,使用英特尔X86处理器的系统依然占据90%以上的份额,性能最强的超算峰值性能达到了20亿亿次。

英特尔在极光超算上的实践 堪称异构计算的完美落地

不过十亿亿次级别的超算已经到了最后关头了,中国、美国、欧盟及日本都在憋大招,争相推出百亿亿次超算,也就是E级超算,其中英特尔负责建设的是美国能源部下属阿贡国家实验室的Aurora极光超算。

E级超算在人类历史上还是首次,它的出现会大大加速人类研究科技的进步,因为E级超算不仅性能10-20倍于现有的超算,而且能效更高,其中极光的能效是当前超算的6倍多,阿贡国家实验室主任保罗·卡恩斯(PaulKearns)表示,“极光系统的构建为支持新一代AI,并通过结合高性能计算和AI来解决现实问题,比如改善极端天气预报、加速医疗、绘制人类大脑图谱、开发新材料以及加深了解宇宙等。”

对英特尔来说,极光超算一方面要关注HPC高性能计算,一方面还要照顾到新兴的AI人工智能,这两种要求对超算系统的要求并不一样,新一代百亿亿次超算的挑战很大,迫切需要多元化的计算。

应对异构计算英特尔提出六大技术支

为了迎接以数据为中心的时代,应对由人工智能、网络变革、云计算、数据中心等新信息时代所带来的多元化高性能计算需求,英特尔去年底宣布了全新的技术战略——六大技术支柱,分别从制程和封装、架构、内存和存储、互连、安全、软件这六大技术上满足全新计算的要求。

继今年4月新一代FPGA产品Agilex发布、6月台北电脑展10nmIceLake处理器发布、到日前进一步披露的“极光”(Aurora)超级计算机架构的更多详情,英特尔六大技术支柱从多方位不断驱动计算产业的创新,实现性能指数级增长。

英特尔中国研究院宋继强之前提出过,计算需求无处不在,而且日益多样化,CMOS缩放、3D工艺技术、新架构、新功能等将继续推动摩尔定律向前发展,但是任何单一因素都不可能再满足多元化的未来计算需求,而基于六大技术支柱的指数级创新,将是英特尔进入未来10年乃至下一个50年的驱动力。

英特尔在极光超算上的实践 堪称异构计算的完美落地

英特尔以数据为中心的芯片产品组合和新发布的oneAPI计划,为百亿亿次级计算奠定了基石。而极光超算成了又一个英特尔六大技术支柱推动异构计算愿景落地的典范。

英特尔在极光超算上的实践 堪称异构计算的完美落地

极光超算使用了新一代的10nm至强CPU及全新开发的基于Xe架构的GPU“PonteVecchio”,还有EMIB、Foveros先进封装技术,缓存、内存也会利用到新一代一致性缓存架构RamboCache及傲腾可持久内存(OptaneDC),连接多个系统单元的总线也是基于CXL的新一代技术。

英特尔在极光超算上的实践 堪称异构计算的完美落地

在整个极光超算上,每个计算节点包括了两颗英特尔10nm至强可扩展处理器(代号SapphireRapids)、六个PonteVecchio GPU,整体支持超过10PB内存、超过230PB存储容量,并能通过CraySlingshot技术连接200多个机架的节点。

引领超异构计算英特尔基于全新Xe架构的GPU问世

英特尔开发的极光超算不仅仅是面向HPC高性能计算的,同时AI人工智能运算也是它的重点,要同时兼顾这两种类型的计算,英特尔为此研发了全新的基于Xe架构的GPU,同时还首次应用了新一代的7nm工艺,这是整个百亿亿次超算的核心所在。

英特尔在极光超算上的实践 堪称异构计算的完美落地

根据英特尔所说,基于Xe架构的GPU是一个非常灵活、扩展性极强的统一架构,并针对性地划分成多个微架构,从而可用于几乎所有计算、图形领域,包括百亿亿次高性能计算、深度学习与训练、云服务、多媒体编辑、工作站、游戏、轻薄笔记本、便携设备等等。

英特尔在极光超算上的实践 堪称异构计算的完美落地

用于HPC及AI运算的高性能基于Xe架构的GPU,代号为“PonteVecchio”,专为高性能计算建模、模拟工作负载以及人工智能训练而设计,最多可扩展到1000个EU运算单元,而且每个单元都是全新设计的,FP64双精度浮点计算能力是现在的40倍。

PonteVecchio将采用英特尔7nm工艺进行制造,并将成为英特尔首款基于Xe架构的GPU,可为高性能计算和人工智能工作负载进行优化。

此外,它还采用英特尔Foveros3D和嵌入式多芯片互连桥接(EMIB)创新封装技术,以及多种其它技术,如HBM高带宽存储器、CXL互连技术以及其它专利技术,完美地融合了英特尔的六大技术。

作为异构计算的集大成者英特尔通过oneAPI统一、简化异构编

在英特尔的六大技术支柱中,软件是处于最上层的,它是跟全球数千万开发者最密切的支柱,指的可不是某种应用软件,而是英特尔全新的软件开发策略——oneAPI,统一的跨架构编程模型。英特尔认为,对于全新硬件架构的每一个数量级的性能提升潜力,软件能带来两个数量级的性能提升。对于开发者来说,拥有一套利用好英特尔芯片的通用工具集,对于获得性能的指数级扩展至关重要。

英特尔在极光超算上的实践 堪称异构计算的完美落地

为什么会有oneAPI?说起来也很简单,英特尔不光是有X86CPU及刚刚推出的基于Xe架构的GPU,还有Mobileye自驾芯片、Movidius视觉计算芯片、AgilexFPGA芯片及Nervana神经网络芯片,可以说是当前异构计算的集大成者。

英特尔拥有了目前几乎所有的计算芯片,可以给客户提供各种类型的选择,但是代价就是不同芯片各自为战,导致不能通用,开发也比较分散,而oneAPI就是一个统一的、简化的编程模型,旨在简化跨多架构的开发过程(如CPU、GPU、FPGA、加速器)。

对开发者来说,oneAPI提供了一个通用、开放的编程体验,让开发者可以自由选择架构,无需在性能上作出妥协,也大大降低了使用不同的代码库、编程语言、编程工具和工作流程所带来的复杂性。

英特尔在极光超算上的实践 堪称异构计算的完美落地

英特尔在oneAPI上会采取开放、开源的策略,DPC++语言和库等都向公众开放使用,英特尔也鼓励其它硬件厂商使用,而其它硬件厂商可以创建自己的oneAPI实现并基于此对特定硬件进行优化。

极光进入百亿亿次计算时代英特尔推动异构计算完美落地

英特尔的X86处理器占据了全球超算市场的绝大多数份额,但是英特尔并没有止步于此,未来10年乃至50年中,要想满足HPC高性能计算及AI人工智能等多样化的计算需求,人们需要扩展更多的异构运算,这是实现指数级增长的关键。

百亿亿次时代的异构运算挑战很大,需要全新的CPU、GPU,也需要新的缓存、内存、互联总线,更需要帮助开发者简化开发,跨平台、跨系统编程,所以英特尔在推出革命性的计算架构之后,同时也加强了软件开发,oneAPI统一编程模型也是重中之重。

英特尔的美好愿景在极光超算上堪称一个完美落地,这台超算不仅是首屈一指的百亿亿次平台,也诠释了英特尔的六大技术支柱理念——提供多样化的标量、矢量、矩阵和空间架构组合,以先进制程技术进行设计,由颠覆性内存与存储层次结构提供支持,通过先进封装集成到系统中,使用光速互连进行超大规模部署,提供统一的软件开发接口以及安全功能。我们也期待看到更多基于六大技术支柱打造的产品上市,引领产业更好地解决多元化高性能计算需求的挑战。

英特尔在极光超算上的实践 堪称异构计算的完美落地