AMD RX 6000架构揭秘:独家鸡血、飞升54%
纸面发布多日之后,AMD RX 6000系列显卡今天终于开始解禁上市了,首发两款型号,RX 6800 4599元,RX 6800 XT 5099元,下个月2号还会有旗舰级的RX 6900 XT 7999元。
首发评测请移步——RTX 3080出生两个月卒!Radeon RX 6800/6800 XT首发评测
它们都采用了升级版的RDNA 2底层架构,均基于Navi 21 GPU核心,也常被叫做Big Navi,最多拥有80组计算单元、5120个流处理器、16GB GDDR6显存,支持PCIe 4.0。
而在7nm工艺不变、核心规模翻番、频率大幅提升的同时,整卡功耗依然保持在最多300W。
本文中,我们重点讲讲RDNA 2的架构设计,以及两项关键图形技术。
RDNA 2虽然是RDNA架构的更新版本,并不是完全重新设计,但是它带来的突破和提升是惊人的,也完全实现了项目起步之初设立的看似不可能的目标。
这就是:16个月之内,性能提升1倍,能效提升至少50%,完整支持DX12 Ultimate等技术特性,支持硬件光线追踪。
在微架构上,RDNA 2充分借鉴了Zen CPU的世界级设计思路(消息称Zen开发团队直接介入了RDNA 2设计),整体得以更加精炼、高效。
纵向比较的话,在同等功耗水平下,RDNA 2每个计算单元的运行频率提升了足足30%,标称加速频率最高2250MHz,实际运行中其实能够跑到2450MHz!
横向比较的话,在同等频率下,RDNA 2每个计算单元的功耗可以降低50%,也就是省电一半。
以上是RDNA、RDNA 2两代架构图,可以发现整体布局没有太大变化,当然各个功能模块都是调整优化过的,而最突出的,一是增加了独立的Infinity Cache高速缓存,二是在每个计算单元内加入了专用的光追加速器Ray Accelerator。
至于RDNA 2架构的底层细节,比如说计算单元的变化,AMD这次没有给出更多资料,只是简单提到了几点,包括精简TLB以降低延迟、重新设计32位像素流水线并支持HDR格式、优化几何分派与曲面细分、全方位精细时钟门控、频率树分离与门控、最小化数据转移、重新平衡流水线、高性能库等等,但没有任何图示。
不过也好,太深入太专业的东西咱们也钻研不够,直接享受成果就是了。
Infinity Cache高速缓存的加入,以及一二级缓存的调整,主要是为了解决RDNA 2架构必须在核心数量翻番、频率提升30%的情况下,不会受到带宽不足的制约。
上一代的RDNA架构中,零级缓存分布在每个计算单元中,一级缓存是每个着色器引擎独享的,并单独访问二级缓存,4MB二级缓存则负责在着色器引擎、指令处理器之间共享数据。
RDNA架构搭配的是256-bit GDDR6显存,等效频率14GHz,总带宽为448GB/s,看起来不少,但核心规模急剧扩大后,就会成为瓶颈。
GPU发展的传统思路中,提升显存带宽的核心途径就是扩大位宽、提高频率。RTX 3090就拥有384-bit 19.5GHz GDDR6X,带宽高达936GB/s,AMD Fury、Vega系列显卡还用过以高带宽著称的HBM,Radeon VII就达到了惊人的1TB/s。
但是,扩大位宽会造成核心面积急剧扩大、功耗急剧增加,HBM显存则是成本高昂,还要与GPU整合封装。
Smart Access Memory(SAM)显存智取技术就是AMD提出的更高效的高带宽解决方案,而且充分依托了AMD的平台化优势。
NVIDIA虽然号称也在研发类似的技术,但没有自己的CPU处理器做辅助,就有点像无根之水了。
RDNA 2为此集成了128MB大容量的Infinity Cache高速缓存,有点像锐龙/霄龙处理器中的三级缓存,同时优化各级缓存结构的体系,还将二级缓存容量翻两番达到16MB。
再结合AMD CPU/GPU通用的Infinity Fabric高速互连通道,支持16×64-bit通道,最高频率1.94GHz,其带宽是256-bit GDDR6显存的几乎4倍!
按照AMD的说法,Infinity Cache高速缓存结合256-bit GDDR6显存,带宽可以达到384-bit GDDR6显存的多达2.17倍,而且还能节省10%的功耗——512-bit GDDR6或者4096-bit HBM也能带来类似或者更高的带宽,但是功耗和成本完全不可同日而语了。
与此同时,平均显存延迟也降低了足足34%。
再借助成熟的PCIe 4.0技术、自家平台优势,锐龙5000处理器、RX 6000显卡彼此搭配的时候,SAM技术可以将更多内存空间映射到本地存储地址寄存器中,让处理器访问显卡全部容量的显存,不再有任何限制,也彻底消除了带宽瓶颈。
SAM技术加持后,不但带宽瓶颈完全不存在,还有额外加成,官方宣称可给RX 6800 XT带来平均6%的游戏性能提升,最多超过10%。
在我们的实测中,RX 6800 XT开启SAM,游戏性能平均提升大约3%,《刺客信条:奥德赛》、《古墓丽影:暗影》、《战地5》、《战争机器》都是比较明显的,以前是《战争机器5》,1080p分辨率下达到了惊人的12%。
回想之前RX 6000系列规格曝光的时候,看到只有256-bit位宽,再加上AMD保密措施做得好,顶级规格一直没有透露,相信绝大多数人都认为AMD这次直接弃疗了,不做高端,结果谁都没想到来了一个这么一个独门大招。
当然,SAM技术需要特定的条件才能开启,硬件上不但需要锐龙5000处理器、RX 6000显卡,还得搭配X570、B550主板,并在BIOS中开启相关选项。
AMD表示,目前没有计划将SAM技术应用于老平台,所以400系列主板用户即便上了锐龙5000处理器,也会少一些“福利”。
再说说光追。RDNA 2的思路是在每一个计算单元内,加入一个专门的Ray Accelerator光追加速单元,这与在微软Xbox Series X/S、索尼PS5上的设计如出一辙,跨平台的游戏优化自然是得心应手。
对比NVIDIA RT Core专用光追核心的做法,RDNA 2将光追加速器集成于计算单元,可以共享通常无法在光追中无法被完全利用到的硬件。
换言之,运行非光追负载时,AMD光追加速器的部分硬件仍然可以正常运作,NVIDIA RT核心就完全闲置了,前者自然有着更高的整体效率,不必为根本用不到的硬件付出成本和功耗。
关于光追游戏支持,RDNA 2架构基于行业标准的微软DXR API和即将推出的Vulkan光追API,所以任何基于这些标准API的光追游戏,AMD都可以直接支持,首发超过十款,包括《尘埃5》、《众神陨落》、《孤岛惊魂6》、《银河破裂者》、《魔兽世界:暗影国度》、《战地5》、《使命召唤:现代战争》、《孤岛危机重制》、《堡垒之夜》、《地铁:离去》、《古墓丽影:暗影》、《看门狗:军团》。
这是AMD放出的RNA 2光追渲染效果图,注意第一张和传统光栅化渲染的对比。
AMD声称,相比于软件方案,RDNA 2架构的硬件加速光追性能,可以提升10倍之多,同时给出了部分游戏的实际性能,2K分辨率下《使命召唤:现代战争》可以跑出95FPS,《孤岛危机重制版》可达90FPS,《战地5》能有70FPS。
还有一点很多人可能没注意到,光追不仅仅可以用于游戏,在图形渲染中同样很关键,而且早就有应用了,只不过一直都是软件方案,效率不是很高。
AMD ProRender渲染器插件就一直支持光追,支持Blender、Houdini、Autodesk Maya等顶级渲染软件,Blender Cycles也即将支持。
AMD声称,RX 6800 XT相比于此前的Radeon VII,利用硬件光追加速,在渲染方面可以带来大约50-70%的性能飞跃。
另外,针对NVIDIA DLSS深度学习超采样抗锯齿技术,AMD也提出了超分辨率(FidelityFX Super Resolution),简称FSR,不过还在开发之中,正与游戏开发商联合优化支持,更多细节会在后续放出。
总的来说,基于一系列全新设计和特性,RDNA 2架构在运行频率、同频性能、能效比等各个方面都取得了显著的进步,综合能效比在RDNA相对于GCN提升50%的基础上,又提升了多达54%!
这其中,21%来自同频性能增强,17%来自能耗优化,16%来自设计频率提升。
最后是一组AMD官方给出的RX 6800、RX 6800 XT与竞品性能对比,看看就好,实际性能对比还请移步本站的首发评测。