【太长不看版,结论就是,9070xt的RDNA4架构在ai和光追性能都有4080 ada架构同水平了,就是个小4080然后原价4999,4080原价9499】
。
首先来看RDNA4 RX9000显卡的ppt
每个计算单元每cu的稀疏int8的性能最高翻8倍(只强调了每个单元,没强调同频率)
rx9070xt 64cu 3.1ghz可达1557tf int8
所以上一代RDNA3 7800xt 60cu 2.7ghz应182tf左右int 8(因为少了4cu所以下降了12tf)
可供参考的ps5pro是60cu RDNA 2.X 300tf int8(RDNA 2.X 混合架构,包含接近RDNA 4的ai和光追性能,但是没有RDNA 3的双发射fp32,也没有RDNA3的chiplet芯粒设计)
新的硬件支持fp8格式
4倍稀疏fp16
那就是八倍稀疏fp8
78xt是40t fp32 , 80t fp16,80t fp8,180t int8
79xtx是60t fp32,120t fp16,120t fp8,270t int8(当然这个不一定准,毕竟有人实测观测到了103tf的7900xtx int8 fp8成绩)
那9070xt就是50t fp32 , 稀疏后320t fp16,640t fp8,1557t int8
作为参照,4070s是557t fp8
79xtx用1.5倍9070xt的cu计算单元实现了38%的fp8,42%的int8







。
首先来看RDNA4 RX9000显卡的ppt
每个计算单元每cu的稀疏int8的性能最高翻8倍(只强调了每个单元,没强调同频率)
rx9070xt 64cu 3.1ghz可达1557tf int8
所以上一代RDNA3 7800xt 60cu 2.7ghz应182tf左右int 8(因为少了4cu所以下降了12tf)
可供参考的ps5pro是60cu RDNA 2.X 300tf int8(RDNA 2.X 混合架构,包含接近RDNA 4的ai和光追性能,但是没有RDNA 3的双发射fp32,也没有RDNA3的chiplet芯粒设计)
新的硬件支持fp8格式
4倍稀疏fp16
那就是八倍稀疏fp8
78xt是40t fp32 , 80t fp16,80t fp8,180t int8
79xtx是60t fp32,120t fp16,120t fp8,270t int8(当然这个不一定准,毕竟有人实测观测到了103tf的7900xtx int8 fp8成绩)
那9070xt就是50t fp32 , 稀疏后320t fp16,640t fp8,1557t int8
作为参照,4070s是557t fp8
79xtx用1.5倍9070xt的cu计算单元实现了38%的fp8,42%的int8






