AMD MI300加速器深度揭秘——全面超越NVIDIA【寒山虹光吧】

今年6月份，AMD在美国旧金山宣布了新一代AI/HPC加速器Instinct MI300系列，包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。
当时，AMD只公布了一部分技术细节，对于CPU/GPU核心数量、性能/功耗/能效等指标均未提及，也缺乏足够多的应用案例。
现在，魔术师终于揭晓了他全部的秘密。

AI人工智能概念的诞生已经有将近70年历史了，历经长期演化，已经深入人们工作生活的各个角落，只是很多时候感知性并没有那么强，更多时候人们是通过一些节点性时间感受AI的威力。
早期像是IBM深蓝超级计算机战胜国际象棋大师卡斯帕罗夫，近期像是AlphaGo与李世石和柯洁的围棋大战，最近最火爆的当然是ChatGPT引发的大语言模型、生成式AI浪潮。
坦白说，大语言模型眼下似乎有些过热，但从技术和前景的角度而言，AI绝对是未来，不管它以什么形势体现，这都是大势所趋，也是一个庞大的市场，尤其是对算力的需求空前高涨。

MI300X的各项性能指标都可以胜出NVIDIA H100(H200已宣布但要到明年二季度才会上市所以暂时无法对比)，还有独特的优势。
HPC方面，MI300X FP64双精度浮点矩阵、矢量性能分别高达163.4TFlops(每秒163.4万亿次计算)、81.7TFlops，FP32单精度浮点性能则都是163.4TFlops，分别是H100的2.4倍、无限倍、2.4倍、2.4倍——H100并不支持FP32矩阵运算。
AI方面，MI300X TF32浮点性能为653.7TFlops，FP16半精度浮点、BF16浮点性能可达1307.4TFlops，FP8浮点、INT8整数性能可达2614.9TFlops，它们全都是H100的1.3倍。
TF32即Tensor Float 32，一种新的浮点精度标准，一方面保持与FP16同样的精度，尾数位都是10位，另一方面保持与FP32同样的动态范围(指数位都是8位)。
BF16即Bloat Float 16，专为深度学习而优化的浮点格式。
另外，同样适用HBM3高带宽内存，MI300X无论容量还是带宽都完胜H100，而整体功耗控制在750W，相比H100 700W高了一点点。

更进一步，AMD还打造了MI300X平台，由八块MI300X并联组成，兼容任何OCP开放计算标准平台。
这样一来，在单个服务器空间内，就总共拥有2432个计算单元、1.5TB HBM3内存、42.4TB/s内存带宽。

性能更是直接飞升，BF16/FP16浮点性能甚至突破了10PFlops，也就是超过1亿亿次计算每秒，堪比中等规模的超级计算机。

对比同样八颗H100组成的计算平台H100 HXG，它在计算性能、HBM3容量上也有不少的优势，而在带宽、网络方面处于相当的水平。
尤其是每颗GPU可运行的大模型规模直接翻倍，可以大大提升计算效率、降低部署成本。

实际应用性能表现方面，看看AMD官方提供的一些数据，对比对象都是H100。
通用大语言模型，无论是中等还是大型内核，都可以领先10-20％。
推理性能，都是八路并联的整套服务器，1760亿参数模型Bloom的算力可领先多达60％，700亿参数模型Llama 2的延迟可领先40％。
训练性能，同样是八路服务器，300亿参数MPT模型的算力不相上下。
总的来说，无论是AI推理还是AI训练，MI300X平台都有着比H100平台更好的性能，很多情况下可以轻松翻倍。

产品强大也离不开合作伙伴的支持，MI300X已经赢得了多家OEM厂商和解决方案厂商的支持，包括大家耳熟能详的慧与(HPE)、戴尔、联想、超微、技嘉、鸿佰(鸿海旗下/富士康同门)、英业达、广达、纬创、纬颖。
其中，戴尔的PowerEdge XE9680服务器拥有八块MI300X，联想的产品2024年上半年登场，超微的H13加速器采用第四代EPYC处理器、MI300X加速器的组合。

MI300A是全球首款面向AI、HPC的APU加速器，同时将Zen3 CPU、CDNA3 GPU整合在了一颗芯片之内，统一使用HBM3内存，彼此全部使用Infinity Fabric高速总线互联，从而大大简化了整体结构和编程应用。
这种统一架构有着多方面的突出优势：
一是统一内存，CPU、GPU彼此共享，无需重复拷贝传输数据，无需分开存储、处理。
二是共享无限缓存，数据传输更加简单、高效。
三是动态功耗均衡，无论算力上侧重CPU还是GPU，都可以即时调整，更有针对性，能效也更高。
四是简化编程，可以将CPU、GPU纳入统一编程体系，进行协同加速，无需单独进行编程调用。

MI300A有六个XCD模块，总计228个计算单元，另外两个在MI300X上属于XCD的位置换成了三个CCD，总计24个CPU核心，后者和第四代EPYC 9004系列的CCD一模一样，直接复用。
四个IOD、256MB无限缓存、八颗HBM3内存、3.5D封装则都是和MI300X完全一致，唯一区别就是HBM3内存从12H堆叠降至8H堆叠，单颗容量从24GB降至16GB，总容量为128GB，但这不影响带宽是同样的5.3TB/s。
晶体管总量1460亿个，其中XCD、CCD工艺都是5nm，IOD部分还是6nm，对外为独立的Socket封装接口。

性能方面，MI300A FP64矩阵/矢量、FP32矢量表现都是HJ100的1.8倍(都不支持FP32矩阵)，TF32、FP16、BF16、FP8、INT8则都是旗鼓相当。
其中，FP64矩阵、FP32/矢量性能都是122.6TFlops，FP64矢量性能则是61.3TFlops，都相当于MI300X的75％。
TF32性能493.0TFlops，FP16、BF16性能980.6TFlops，FP8、INT8性能1961.2TFlops，同样也是MI300X的75％。
为什么都是75％？因为XCD模块少了1/4，GPU核心自然就减少了1/4，换言之这里都是GPU性能，没有包括CPU部分。
MI300A的整体功耗在550-760W范围内，具体看频率的不同规格设定。

对比H100，MI300A只需550W功耗就能在OpenFOAM高性能计算测试中取得多达4倍的优势，不同实际应用中可领先10-20％。

对比最新的GH200，MI300A 760W峰值功耗下的能效优势，更可以达到2倍。

比如在大语言模型优化方面，支持开源大模型推理加速框架vLLM，并优化推理库，延迟性能提升可达2.6倍；
支持的高性能图形分析与学习框架HIP Graph，优化运行时，延迟性能可提升1.4倍；
支持高效内存的注意力算法Flash Attention，优化内核，延迟性能可提升1.3倍。

新一代硬件加新一代开发平台的威力是相当猛的，比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5，运行270亿参数Llama 2大模型推理，延迟性能可改善多达8倍！
当然，ROCm 6平台也会陆续支持老平台硬件，进一步挖掘潜力。

而对标竞品，比如130亿参数的Llama 2大模型，MI300X的延迟性能相比H100可以领先20％。

AMD ROCm就是这样的一套开放软件平台，如今来到了全新一代ROCm 6。
它重点针对大语言模型额和生成式AI进行优化和提升，以及强化支持开放开源、拓展生态支持、加入更多AI库等等。

比如在大语言模型优化方面，支持开源大模型推理加速框架vLLM，并优化推理库，延迟性能提升可达2.6倍；
支持的高性能图形分析与学习框架HIP Graph，优化运行时，延迟性能可提升1.4倍；
支持高效内存的注意力算法Flash Attention，优化内核，延迟性能可提升1.3倍。

新一代硬件加新一代开发平台的威力是相当猛的，比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5，运行270亿参数Llama 2大模型推理，延迟性能可改善多达8倍！
当然，ROCm 6平台也会陆续支持老平台硬件，进一步挖掘潜力。

而对标竞品，比如130亿参数的Llama 2大模型，MI300X的延迟性能相比H100可以领先20％。

日	一	二	三	四	五	六

AMD MI300加速器深度揭秘——全面超越NVIDIA

扫二维码下载贴吧客户端