铺平未来之路:AMD显卡架构转换深度解密
- 来源:驱动之家
- 作者:batyeah
- 编辑:ChunTian
这种变化的好处有很多。并行计算方面最明显的就是此前用于特殊单元的内核面积可以节省出来安置更多SIMD引擎,比如Cypress Radeon HD 5800 20个,Cayman Radeon HD 6900就增加到了24个,平均下来后者的着色器区块效率要高10%。与此同时,纹理单元的数量、可以并行执行的线程数量、每个时钟周期可以执行的64位浮点操作数量都随之发生了变化,特别是后者使得AMD GPU的64位双精度运算能力达到了32位单精度浮点的四分之一(以往是五分之一)——事实上单个流处理器单元的计算能力并没有变化,只不过布局的重新设计使得彼此工作的效率更高了。
SP变化的同时,寄存器文件却没动,于是每个SPU的寄存器所承受的压力更小了,因为现在只有四个SP争夺寄存器空间。调度也更简单了,因为需要调度的SP更少,而且彼此完全相同,不需要考虑w/x/y/z单元和t单元的差别。
游戏方面的改善也类似。已经习惯了VLIW5架构的游戏有了更多SIMD引擎可以使用,意味着纹理处理能力更强,计算/纹理的比例也因此降低,有利于那些侧重于纹理和过滤而不是计算的游戏。
当然,任何架构上的变化都会有所牺牲,VLIW4也不例外。对游戏来说,Radeon HD 6900将不再像以前那么好地处理VLIW5型的顶点着色器。一般来说这种游戏都已经很快了,但是如果一开始就受到GPU能力的限制(即显卡是瓶颈),Radeon HD 6900系列就跑不多快。另一大损失就是当超越操作和矢量操作配对的时候,Radeon HD 6800可以每时钟周期处理两个,Radeon HD 6900就需要两个时钟周期。AMD认为这种情况很少见,损失也是值得的。
值得一提的是,AMD仍然认为VLIW4是一种风险性的试验设计,Radeon HD 6900也更像是一个试验品。此时此刻,AMD应该早已完成了真正的试验,正在设计采用28nm工艺的后续新核心,是否继续采用VLIW4也肯定有定论了。
最后,核心架构的变化必然牵涉到驱动程序的转变与配合。坏消息是,很多针对VLIW5架构设计的着色器编译器都没用了,因此初期阶段着色器编译器性能会变差一些。好消息是,随着时间的过去,AMD会逐渐掌握更好地为VLIW4设计编程,Radeon HD 6900系列也有希望在以后的日子里获得性能上的大幅提升(注意只是可能)。
随着VLIW的缩短,部分代码重新编写是必然的了,AMD的着色器编译器也要经历一个代码优化的过程,但如果内核本身就是专为VLIW5而设计的,AMD的编译器就无能为力了。
顺附两种架构可执行操作的对比:
VLIW5:
4 32-bit FP MAD
或者2 64-bit FP MUL/ADD
或者1 64-bit FP MAD
或者4 24-bit Int MUL/ADD
加上1 transcendental或者1 32-bit FP MAD
VLIW4:
4 32-bit FP MAD/MUL/ADD
或者2 64-bit FP ADD
或者1 64-bit FP MAD/FMA/MUL
或者4 24-bit INT MAD/MUL/ADD
或者4 32-bit INT ADD/Bitwise
或者1 32-bit MAD/MUL
或者1 64-bit ADD
或者1 transcendental加上1 32-bit FP MAD
玩家点评 (0人参与,0条评论)
热门评论
全部评论