网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
11月27日漏签0天
ati吧 关注:52,124贴子:643,851
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 1 2 3 下一页 尾页
  • 37回复贴,共3页
  • ,跳到 页  
<<返回ati吧
>0< 加载中...

RDNA架构白皮书翻译

  • 只看楼主
  • 收藏

  • 回复
  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
目录
目录 ............................................... ................................................... ........................ 2
介绍................................................. ................................................... ............................... 3
RDNA体系结构概述和哲学....................................... ................................. 4
RDNA系统架构.............................................. ................................................... ......... 6
RDNA着色器阵列和图形函数..................................................... .................................... 8
双计算单元前端.................................... ................................................... ........ 9
SIMD执行单元.............................................. ................................................... ................. 11
标量执行和控制流程............................................. ..................................................................... 11
矢量执行................................................ ................................................... ........................ 12
矢量ALU ................................................ ................................................... ............................... 13
双重计算单元存储器.............................................. ................................................... .... 14
本地数据共享和原子................................. ................................................... ...... 15
矢量缓存................................................ ................................................... ..................................... 15
导出和GDS ..................................... ................................................... ........................... 17
共享图形L1缓存.............................................. ................................................... ............ 17
L2缓存和内存..................................... ................................................... ................. 18
Radeon多媒体和显示引擎............................................. ...................................... 18
True Audio Next ..................................... ................................................... ......................... 20
高级视觉效果............................................... ................................................... ............ 20
Radeon RX 5700系列..................................... ................................................... .............. 21
结论................................................. ................................................... ............................... 23
法律免责声明和出处.............................................. ................................................ 24


2025-11-27 22:44:08
广告
不感兴趣
开通SVIP免广告
  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
介绍
在过去的三个过程中,图形世界发生了根本性的变化
数十年,以实现更高的可编程性。最早的图形系统已实施
完全在软件中并在CPU上运行,但无法提供超过
最基本的视觉效果。最初的专业图形架构几乎完全是
固定功能,只能加速非常有限的特定2D或3D计算范围
例如几何图形或照明变换。下一波架构介绍
图形着色器给程序员带来了灵活性的感觉,但是有严格的限制。
最近,图形处理器向可编程性发展–提供可编程
图形着色器和完全通用的计算。
图1 –图形时代。
AMD的TeraScale专为可编程图形时代而设计,并通过DirectX®11的DirectCompute API和基于VLIW的架构引入了通用计算。的
图形核心下一个(GCN)架构移至更具可编程性的交错向量
计算模型并引入异步计算,从而支持传统图形和
通用计算以高效地协同工作。 GCN架构是400多个核心
数百万种系统,从笔记本电脑到极限游戏台式机,都非常先进
游戏控制台和可以覆盖网络上任何消费者的云游戏服务。
展望未来,下一个图形时代的挑战是从图形学转向
常规图形流水线及其对唯一计算限制的计算优先世界的限制
关于视觉效果是开发人员的想象力。为了应对现代图形的挑战,
AMD的RDNA架构是标量架构,从头开始设计,以实现高效
和灵活的计算,可以在各种游戏平台上扩展。 7nm“ Navi”
GPU系列是RDNA架构的第一个实例,包括Radeon RX
5700系列。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
RDNA体系结构概述和理念
新的RDNA架构针对效率和可编程性进行了优化,同时提供
与GCN体系结构的向后兼容性。它仍然使用相同的七个基本
指令类型:标量计算,标量存储器,向量计算,向量存储器,分支,
导出和消息。但是,新架构从根本上重组了数据流
在处理器内部,可以提高性能并提高效率。
在所有AMD图形体系结构中,内核是在计算机上运行的单个指令流。
大量的数据并行工作项。工作项目按架构进行组织
可以通过显式本地数据共享(LDS)进行通信的可见工作组。的
着色器编译器进一步将工作组细分为微体系结构的波前,这些波前是
在给定的硬件实现上并行调度和执行。
对于GCN架构,着色器编译器会创建包含64个工作项的波前。
当波前中的每个工作项目都执行相同的指令时,该组织就是
高效。每个GCN计算单元(CU)包括四个SIMD单元,由16个ALU组成;
每个SIMD在四个时钟周期内执行完整的波前指令。那么主要的挑战
保持足够的有源波前,使CU中的四个SIMD单元饱和。
RDNA架构是本机设计的,用于具有32个工作项的新的较窄波前,
直观地称为wave32,已针对高效计算进行了优化。 Wave32提供了几种
计算的关键优势并补充了以图形为中心的现有wave64
模式。
现代计算工作负载的定义特征之一是复杂的控制流:循环,
函数调用和其他分支对于更复杂的算法至关重要。然而,
当分支迫使波前的部分发散并执行不同的指令时,
由于每条指令将执行部分波前并禁用
其他部分。新的更窄的wave32模式提高了效率,可实现更复杂的计算
通过减少控制流和分散成本来减轻工作量。
其次,较窄的波前完成速度更快,并且使用较少的资源来访问数据。
每个波前在活动时都需要控制逻辑,寄存器和缓存。例如,
新的wave32模式使用一半的寄存器。由于波前将完成
寄存器越快释放越快,从而启用更多的有源波前。最终,wave32
可以更有效地交付吞吐量和隐藏延迟。
第三,将工作负载分成更小的wave32数据流会增加
波前。工作项的这种细分可增强并行性,并允许GPU使用更多
核心来执行给定的工作负载,从而提高性能和效率


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
新的双计算单元设计是RDNA架构的本质,并取代了RDNA架构。
GCN计算单元是GPU的基本计算构件。如图2
如图所示,双计算单元仍然包括四个独立运行的SIMD。
但是,这个双重计算单元是专门为wave32模式设计的; RDNA SIMD
包括32个ALU,其宽度是上一代矢量ALUS的两倍,
通过将波前执行速度提高2倍来提高性能。新的SIMD专为混合精度操作而构建,并可以使用多种数据类型进行有效计算,从而实现科学
计算和机器学习。下面的图3说明了新的双重计算单元
在简单的示例着色器中利用指令级并行性在SIMD上执行
wave32模式的延迟时间减半,wave64模式的延迟时间减少44%
与上一代GCN SIMD相比。
指令发行示例

图3 –在示例代码段上执行Wave32和wave64。
RDNA体系结构还重新定义了缓存和内存层次结构以增加带宽
用于图形和计算,降低功耗,并为
未来。早期的体系结构采用了两级缓存层次结构。通常,第一级
缓存是每个GCN计算单元专用的,并专注于计算。第二级
缓存是驻留在内存控制器旁边的全局共享L2,
将数据传递到计算单元和图形功能,例如几何引擎和
像素管线。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
为了满足功能更强大的双重计算单元的需求,标量和矢量数据的L0缓存具有
扩大规模。 新架构引入了专门的中间级缓存
层次结构,一个共享的图形L1缓存,为一组双重计算单元和像素提供服务
管道。 这种安排减轻了对全局共享L2缓存的压力,该缓存仍在
与内存控制器紧密相关。


2025-11-27 22:38:08
广告
不感兴趣
开通SVIP免广告
  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
RDNA系统架构
建立在RDNA架构上的图形处理器(GPU)将涵盖节能的范围
笔记本电脑和智能手机连接到一些世界上最大的超级计算机。 适应
这么多不同的场景,整个系统架构都是为了实现极高的可扩展性而设计的
同时提高了前几代的性能。 下面的图4说明了7nm
Radeon RX 5700 XT是RDNA架构的首批化身之一。

图4 – Radeon RX 5700 XT的框图,Radeon RX 5700 XT是最早由GPU提供支持的GPU之一
RDNA体系结构。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
RX 5700 XT分为几个主要模块,这些模块使用AMD的处理器捆绑在一起
无限面料。命令处理器和PCI Express接口将GPU连接到
并控制各种功能。两个着色器引擎可容纳所有
可编程计算资源和一些专用图形硬件。每一个
两个着色器引擎包括两个着色器阵列,它们由新的双重计算单元组成,
共享图形L1缓存,基本单元,光栅化器和四个渲染后端(RB)。在
此外,GPU包括用于多媒体和显示处理的专用逻辑。进入
内存通过分区的二级缓存和内存控制器进行路由。
RDNA架构是第一个使用PCIe®4.0与主机连接的GPU系列
处理器。主机处理器运行驱动程序,该驱动程序发送API命令并进行通信
数据往返GPU。新的PCIe®4.0接口以16 GT / s的速度运行,是
早期的8 GT / s基于PCI-E 3.0的GPU的吞吐量。在沉浸式4K或8K纹理的时代,
更大的链路带宽可以节省功率并提高性能。
虚拟机管理程序代理使GPU可以虚拟化并在不同操作之间共享
系统。大多数云游戏服务都位于数据中心,在这些数据中心中,虚拟化至关重要。
安全和操作立场。尽管现代游戏机专注于游戏,但许多游戏机都提供了
丰富的通信和媒体功能套件,并受益于虚拟化硬件
为所有任务提供性能。
命令处理器接收API命令,然后执行不同的处理
GPU中的管道。图形命令处理器管理传统图形
管线(例如DirectX®,Vulkan®,OpenGL®)着色器任务和固定功能硬件。
计算任务是使用异步计算引擎(ACE)实施的,
管理计算着色器。每个ACE维护独立的命令流,并且可以
将计算着色器波前分派到计算单元。同样,图形命令
处理器为每种着色器类型(例如顶点和像素)提供一个流。安排的所有工作
命令处理器分布在固定功能单元和着色器阵列上,用于
最高性能。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

图5 – RDNA架构中的异步计算隧道。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
RDNA体系结构引入了新的调度和服务质量功能,称为
异步计算隧道技术,使计算和图形工作负载可以共存
在GPU上协调一致。 在正常操作中,许多不同类型的着色器将在
RDNA计算单元并取得进展。 但是,有时一项任务可能变成
比其他工作对延迟的敏感性要高得多。 在前几代中,命令处理器可以
优先考虑计算着色器并减少可用于图形着色器的资源。 如图
如图5所示,RDNA架构可以完全暂停着色器的执行,从而释放出
高优先级任务的所有计算单元。 此调度功能对于确保
对延迟最敏感的应用程序提供无缝体验,例如逼真的音频和
虚拟现实。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
RDNA着色器阵列和图形功能
传统的图形流水线始于将顶点组装成三角形;申请
顶点着色器;可选地应用船体着色器,细分和域着色器;光栅化
三角形变成像素;遮蔽像素;然后混合输出。此外,
计算着色器可以在许多不同的阶段使用以获得高级效果。
命令处理器和调度逻辑将计算和图形工作划分为
启用将其分派到阵列以实现最佳性能。例如,很常见
图形管道的方法是划分屏幕空间,然后分派每个屏幕空间。
独立分区。开发人员还可以创建自己的调度算法,
对于基于计算的效果特别有用。
为了实现可扩展性和性能,RDNA体系结构是由多个独立的
包含固定功能硬件和可编程双计算单元的阵列。至
从低端到高端扩展性能,不同的GPU可以增加数量
着色器阵列的数量,并且还会更改每个着色器阵列内的资源平衡。如图4
说明了Radeon RX 5700 XT包括四个着色器阵列,每个阵列包含一个基本体
一个单元,一个光栅器,四个RB,五个双重计算单元和一个图形L1高速缓存。
基本单元从顶点组合三角形,并负责固定功能
镶嵌。每个基本单元均已增强,并支持剔除最多两个基本单元
每个时钟,是上一代产品的两倍。每个时钟一个原语输出到
光栅化器。命令处理器中的工作分配算法也已调整为
在不同的着色器阵列之间更均匀地分布顶点和细分的多边形,
提高几何的吞吐量。
每个着色器引擎中的光栅化器从以几何为中心的阶段执行映射
图形流水线到以像素为中心的阶段。每个光栅化器可以处理一个三角形,
测试覆盖范围,每个时钟最多发射16个像素。与其他固定功能一样
在硬件方面,将屏幕细分,并将每个部分分配给一个光栅化器。
RDNA体系结构| 9
最终的固定功能图形阶段是RB,它执行深度,模板和alpha
测试并混合像素以进行抗锯齿。着色器阵列中的每个RB都可以测试,采样,
并以每个时钟四个输出像素的速率混合像素。重大改进之一
RDNA架构是RB主要通过图形L1缓存访问数据,
从而减轻了L2缓存的压力,并通过移动更少的数据节省了电能。
最后,着色器阵列包括几个双计算单元和一个图形L1缓存。的
双计算单元提供用于执行可编程着色器的计算。每个双
计算单元包括四个可以执行wave32的SIMD,每个周期总共256个单精度FLOPS,对于使用混合精度的应用程序甚至更多。的
SIMD还包含功能强大的专用标量单元和更高的带宽缓存。新的
图形L1缓存可满足每个着色器阵列中的大多数请求,从而简化了L2的设计
缓存并增加可用带宽。


  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
双计算单元前端
功能更强大的双计算单元从专用前端开始,如图所示
6. L0指令缓存在双计算单元中的所有四个SIMD之间共享,
而先前的指令缓存则在四个CU或十六个GCN SIMD之间共享。的
指令缓存为32KB,与4路集相关;它分为四个128个银行
缓存行长度为64字节。四个SIMD均可在每个周期内请求指令
并且指令高速缓存可以每个时钟向每个时钟传送32B(通常为2-4条指令)
SIMD –带宽大约是GCN的4倍。

图6 – RDNA计算单元前端和SIMD。
所获取的指令被存储到波前控制器中。每个SIMD都有一个单独的
指令指针和20个条目的波前控制器,每个双路总共80个波前
计算单元。波前可以来自不同的工作组或内核,尽管双重
计算单元同时维护32个工作组。新的波前控制器可以
在wave32或wave64模式下运行。
尽管RDNA架构针对wave32进行了优化,但现有的wave64模式可以更多
对某些应用程序有效。为了处理wave64指令,wave控制器发出并
RDNA体系结构| 10
执行两个wave32指令,每个指令在wave64的一半工作项上运行
指令。处理wave64指令的默认方法是简单地发出并执行
每个指令的上半部分和下半部分–从概念上将每个指令切片
水平地。


2025-11-27 22:32:08
广告
不感兴趣
开通SVIP免广告
  • 145721767XS
  • x1950xtx
    9
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

图7 –执行wave64的子矢量模式执行所有四个的下半部分


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1 2 3 下一页 尾页
  • 37回复贴,共3页
  • ,跳到 页  
<<返回ati吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示