ISSCC 2020: AMD – Chiplets, 把积木玩起来

  • 2020 年 2 月 26 日
  • 筆記

本文翻译自EEtimes, 点击文章左下『阅读原文』可以跳转到原文,限于时间跟脑容量,分两次翻译,今天翻第一部分,主要讲AMD 应用Chiplets 架构的受益。引用某大神在朋友圈发的一句话:『以前以为Chiplet 只是有钱人的乐高,本质上和搭积木并没啥差别,但这次ISSCC 让我们看到Chiplet 直接给体系架构和Analog 开出了一片未开垦的处女地!』

今年ISSCC 会议,处理器分会场以AMD 的两个演讲开场,随后是三星和联发科关于最新5G 智能手机芯片的演讲,此外还有来自CEA 技术的一个研究项目:proof of concept design, TI 的车载SOC, 以及IBM 最新的Z 系列大型处理器。

由于该会议的主题是电路设计,因此每个供应商都将重点放在其处理器中采用的一个或多个独特的电路设计方法上。

国际固态电路会议 (ISSCC) 是半导体行业历史最为悠久的技术会议之一,每年二月举办,大会囊括了学术界和业内人士,探讨电路设计的最新挑战。

今年会议涵盖了广泛主题,包括锁相环,低功耗电路,存储器,SerDes, DSP 和处理器设计等。处理器部分,有行业领头羊,也有来自科研机构和学术界的项目。每个主题都干货满满,本文将攫取处理器主题中有趣细节。

AMD Zen 2 and EPYC chiplets


AMD 的两个演讲相互衔接,一个讨论了最新EPYC server 处理器中使用的Zen 2 CPU 内核的设计;另一个讨论了EPYC chiplets 体系架构,该体系架构使得EPYC 可以在一个插槽中提供64-CPU cores 而不需要大量的die. Chiplet design 使得AMD 将基于三颗die 的模组设计应用于众多产品和市场。

Zen 2 CPU 演讲,讲述了使用台积电7nm 工艺制造首款x86 处理器所面临的挑战。 EPYC server 处理器的设计目标是:使同一插槽中的CPU 内核数量增加一倍,而不超出插槽能承受的功率;此外,每个CPU 核每个周期的指令性能要相对SPECint 2006 提高15%。之前已有许多关于Zen 2 体系结构革新的讨论,在ISSCC 演讲中,AMD 聚焦于电路设计的挑战。

AMD 的设计非常模块化,基本模块是CPU Complex (CCX), 每个CCX 有 4个CPU 核,L2 和L3 Caches 及 Infinity Fabric 系统总线。基于4 核基本模块,AMD 可以将设计范围从笔记本电脑(4-8核)扩展到服务器(最多64核)。尽管Zen 2 增加了三级缓存,但CCX 模块从上一代的44 平方毫米缩小到了31.3 平方毫米。

7nm 工艺需要更多金属层,Routing 规则也发生了变化,而且设计从10.5 tracks 切到了6 tracks, 高度变矮驱动变弱,这些都给设计实现带来了挑战。但7nm 的漏电更小,面积更小,负载更小—— capacitance-per-cycle 减少了9%。

AMD 使用了多种设计技术,例如时钟整形,并设计了五种不同的触发器,这对关键的sequential timing loop 很重要。设计人员还将3% 的功率预算转移到了组合逻辑上,以获得更高的性能。通过这些和其他电路优化技术,Zen 2 最高可以跑到4.7 GHz, 可以在更低的电压下跑到Zen 1 的最高频率。

AMD 的第二个演讲介绍了基于Zen 2 服务器产品的 Chiplet 策略。 AMD的主要获益之一是仅TO 3 颗Die ,就可以制造支持多个市场的产品。当芯片分散在整个封装中时,使用Chiplet 也有散热上的好处。

AMD 的目标是使每个插槽的性能大幅提升,这使得第二代EPYC 处理器CPU 核的数量增加了一倍,AMD 完成了每2.5 年将性能提高一倍的目标 ( SPECint 2006 ). 新的EPYC 处理器还提高了memory latency. 使用Chiplets, AMD 可以构建64 核服务器芯片,这在单片芯片解决方案中即不可行也不经济。

AMD 还通过使用更小的chiplets 来优化成本结构并提高芯片良率。 AMD 将昂贵的7nm 工艺用于Core Cache Die (CCD),并将DRAM 和PCIe 逻辑移至 GlobalFoundries 12nm。每个CCD 由具有四个Zen 2 内核的两个CCX 模块以及L2 和L3 Cache 组成,其中86% 的CCX 专用于CPU 和L3 Cache, 每个CCD 都是一个微型SoC,其中包括片上电源管理、Infinity Fabric 系统总线、时钟等。

在所有这些要求下,存在许多挑战。现在,对于所有CCX 模块,内存控制器都集中在单独的芯片上,新的EPYC 处理器改善了average memory latency. 但是,最佳情况下的Latency 仍然需要关闭CCD 去访问内存,从而,AMD 设计专注于减少Infinity Fabric latency,因此最佳情况下的延迟仅增加了4ns.

由于AMD致力于保持EPYC 封装的尺寸和引脚排列不变,因此需要close silicon/package 协同设计,因为die 的数量从第一代EPYC 的四个增加到第二代EPYC 的九个,Routing path非常紧,需要在内部CCD Chiplets 下走线,信号才能到达远离中央I/O 芯片的 CCD chiplets.

ISSCC 的许多其他演讲都以处理器处于重负载状态时如何补偿内部IR-drop 的电路为特色,AMD 有一个 "current shunt – extra current" 电路来补偿IR-drop 并调整时钟频率。相同的LDO 允许针对单独的Core 做线性调节,根据每个Core 的运算能力来调整电压,从而节能。


驴说IC