网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
05月09日漏签0天
寒山虹光吧 关注:1,115贴子:26,689
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 9回复贴,共1页
<<返回寒山虹光吧
>0< 加载中...

AMD MI300加速器深度揭秘——全面超越NVIDIA

  • 取消只看楼主
  • 收藏

  • 回复
  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
今年6月份,AMD在美国旧金山宣布了新一代AI/HPC加速器Instinct MI300系列,包括全球首款APU加速器MI300A、新一代GPU加速器MI300X。
当时,AMD只公布了一部分技术细节,对于CPU/GPU核心数量、性能/功耗/能效等指标均未提及,也缺乏足够多的应用案例。
现在,魔术师终于揭晓了他全部的秘密。


  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

AI人工智能概念的诞生已经有将近70年历史了,历经长期演化,已经深入人们工作生活的各个角落,只是很多时候感知性并没有那么强,更多时候人们是通过一些节点性时间感受AI的威力。
早期像是IBM深蓝超级计算机战胜国际象棋大师卡斯帕罗夫,近期像是AlphaGo与李世石和柯洁的围棋大战,最近最火爆的当然是ChatGPT引发的大语言模型、生成式AI浪潮。
坦白说,大语言模型眼下似乎有些过热,但从技术和前景的角度而言,AI绝对是未来,不管它以什么形势体现,这都是大势所趋,也是一个庞大的市场,尤其是对算力的需求空前高涨。


2025-05-09 23:35:26
广告
  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

MI300X的各项性能指标都可以胜出NVIDIA H100(H200已宣布但要到明年二季度才会上市所以暂时无法对比),还有独特的优势。
HPC方面,MI300X FP64双精度浮点矩阵、矢量性能分别高达163.4TFlops(每秒163.4万亿次计算)、81.7TFlops,FP32单精度浮点性能则都是163.4TFlops,分别是H100的2.4倍、无限倍、2.4倍、2.4倍——H100并不支持FP32矩阵运算。
AI方面,MI300X TF32浮点性能为653.7TFlops,FP16半精度浮点、BF16浮点性能可达1307.4TFlops,FP8浮点、INT8整数性能可达2614.9TFlops,它们全都是H100的1.3倍。
TF32即Tensor Float 32,一种新的浮点精度标准,一方面保持与FP16同样的精度,尾数位都是10位,另一方面保持与FP32同样的动态范围(指数位都是8位)。
BF16即Bloat Float 16,专为深度学习而优化的浮点格式。
另外,同样适用HBM3高带宽内存,MI300X无论容量还是带宽都完胜H100,而整体功耗控制在750W,相比H100 700W高了一点点。

更进一步,AMD还打造了MI300X平台,由八块MI300X并联组成,兼容任何OCP开放计算标准平台。
这样一来,在单个服务器空间内,就总共拥有2432个计算单元、1.5TB HBM3内存、42.4TB/s内存带宽。


  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
性能更是直接飞升,BF16/FP16浮点性能甚至突破了10PFlops,也就是超过1亿亿次计算每秒,堪比中等规模的超级计算机。
对比同样八颗H100组成的计算平台H100 HXG,它在计算性能、HBM3容量上也有不少的优势,而在带宽、网络方面处于相当的水平。
尤其是每颗GPU可运行的大模型规模直接翻倍,可以大大提升计算效率、降低部署成本。





  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
实际应用性能表现方面,看看AMD官方提供的一些数据,对比对象都是H100。
通用大语言模型,无论是中等还是大型内核,都可以领先10-20%。
推理性能,都是八路并联的整套服务器,1760亿参数模型Bloom的算力可领先多达60%,700亿参数模型Llama 2的延迟可领先40%。
训练性能,同样是八路服务器,300亿参数MPT模型的算力不相上下。
总的来说,无论是AI推理还是AI训练,MI300X平台都有着比H100平台更好的性能,很多情况下可以轻松翻倍。


产品强大也离不开合作伙伴的支持,MI300X已经赢得了多家OEM厂商和解决方案厂商的支持,包括大家耳熟能详的慧与(HPE)、戴尔、联想、超微、技嘉、鸿佰(鸿海旗下/富士康同门)、英业达、广达、纬创、纬颖。
其中,戴尔的PowerEdge XE9680服务器拥有八块MI300X,联想的产品2024年上半年登场,超微的H13加速器采用第四代EPYC处理器、MI300X加速器的组合。


  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

MI300A是全球首款面向AI、HPC的APU加速器,同时将Zen3 CPU、CDNA3 GPU整合在了一颗芯片之内,统一使用HBM3内存,彼此全部使用Infinity Fabric高速总线互联,从而大大简化了整体结构和编程应用。
这种统一架构有着多方面的突出优势:
一是统一内存,CPU、GPU彼此共享,无需重复拷贝传输数据,无需分开存储、处理。
二是共享无限缓存,数据传输更加简单、高效。
三是动态功耗均衡,无论算力上侧重CPU还是GPU,都可以即时调整,更有针对性,能效也更高。
四是简化编程,可以将CPU、GPU纳入统一编程体系,进行协同加速,无需单独进行编程调用。


  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼



MI300A有六个XCD模块,总计228个计算单元,另外两个在MI300X上属于XCD的位置换成了三个CCD,总计24个CPU核心,后者和第四代EPYC 9004系列的CCD一模一样,直接复用。
四个IOD、256MB无限缓存、八颗HBM3内存、3.5D封装则都是和MI300X完全一致,唯一区别就是HBM3内存从12H堆叠降至8H堆叠,单颗容量从24GB降至16GB,总容量为128GB,但这不影响带宽是同样的5.3TB/s。
晶体管总量1460亿个,其中XCD、CCD工艺都是5nm,IOD部分还是6nm,对外为独立的Socket封装接口。
性能方面,MI300A FP64矩阵/矢量、FP32矢量表现都是HJ100的1.8倍(都不支持FP32矩阵),TF32、FP16、BF16、FP8、INT8则都是旗鼓相当。
其中,FP64矩阵、FP32/矢量性能都是122.6TFlops,FP64矢量性能则是61.3TFlops,都相当于MI300X的75%。
TF32性能493.0TFlops,FP16、BF16性能980.6TFlops,FP8、INT8性能1961.2TFlops,同样也是MI300X的75%。
为什么都是75%?因为XCD模块少了1/4,GPU核心自然就减少了1/4,换言之这里都是GPU性能,没有包括CPU部分。
MI300A的整体功耗在550-760W范围内,具体看频率的不同规格设定。


  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


对比H100,MI300A只需550W功耗就能在OpenFOAM高性能计算测试中取得多达4倍的优势,不同实际应用中可领先10-20%。

对比最新的GH200,MI300A 760W峰值功耗下的能效优势,更可以达到2倍。


2025-05-09 23:29:26
广告
  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼



比如在大语言模型优化方面,支持开源大模型推理加速框架vLLM,并优化推理库,延迟性能提升可达2.6倍;
支持的高性能图形分析与学习框架HIP Graph,优化运行时,延迟性能可提升1.4倍;
支持高效内存的注意力算法Flash Attention,优化内核,延迟性能可提升1.3倍。新一代硬件加新一代开发平台的威力是相当猛的,比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5,运行270亿参数Llama 2大模型推理,延迟性能可改善多达8倍!
当然,ROCm 6平台也会陆续支持老平台硬件,进一步挖掘潜力。
而对标竞品,比如130亿参数的Llama 2大模型,MI300X的延迟性能相比H100可以领先20%。


  • 一方の组装机
  • 寒山虹光
  • 吧主
    16
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


AMD ROCm就是这样的一套开放软件平台,如今来到了全新一代ROCm 6。
它重点针对大语言模型额和生成式AI进行优化和提升,以及强化支持开放开源、拓展生态支持、加入更多AI库等等。

比如在大语言模型优化方面,支持开源大模型推理加速框架vLLM,并优化推理库,延迟性能提升可达2.6倍;
支持的高性能图形分析与学习框架HIP Graph,优化运行时,延迟性能可提升1.4倍;
支持高效内存的注意力算法Flash Attention,优化内核,延迟性能可提升1.3倍。
新一代硬件加新一代开发平台的威力是相当猛的,比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5,运行270亿参数Llama 2大模型推理,延迟性能可改善多达8倍!
当然,ROCm 6平台也会陆续支持老平台硬件,进一步挖掘潜力。
而对标竞品,比如130亿参数的Llama 2大模型,MI300X的延迟性能相比H100可以领先20%。


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 9回复贴,共1页
<<返回寒山虹光吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示