12月7日,AMD在Advancing AI活动中,推出全新MI300系列AI芯片,包含MI300A与MI300X。这次动作将代表着AMD与NVIDIA在AI热潮中正式展开竞争,新一轮的大数据AI芯片“军备竞赛”且看两家的龙争虎斗。AMD首席执行官苏姿丰(Lisa Su)表示,AMD的MI300X芯片是“业界最先进的人工智能加速器”,并声称其性能优于NVIDIA目前的产品。MI300X拥有8组HBM3核心,显存容量提升到了192GB,超过了NVIDIA近期发布的H200,相当于NVIDIA H100 80GB的2.4倍。而H200是首款提供HBM3e的GPU,显存容量达到了141GB,可有效提高大模型训练效果。
MI300X加速器设计用于在AMD的生成式人工智能平台中以8组为单位工作,通过Infinity Fabric互连的GPU之间的吞吐量为896 GB/s。该系统具有1.5TB的HBM3内存,并提供高达10.4 Petaflops的性能(BF16/FP16)。该系统建立在OCP通用基板(UBB)设计标准上,从而简化了采用方式。AMD的MI300X平台拥有比NVIDIA的H100 HGX平台(BF16/FP16)多2.4倍的内存容量和1.3倍的计算能力,同时保持相当的双向和单节点环带宽。AMD分享了一系列性能指标,显示其在HPC工作负载上的峰值理论FP64和FP32矢量矩阵吞吐量是H100的2.4倍,在人工智能工作负载上的峰值理论TF32、FP16、BF16、FP8和INT8吞吐量高达1.3倍,所有这些都没有稀疏性(尽管MI300X确实支持稀疏性)。AMD还声称MI300X平台的内存容量优势,允许托管多达H100系统两倍的300亿参数训练模型和700亿参数推理模型数量。此外,MI300X平台最多可以支持700亿参数训练模型和2900亿参数推理模型,这两个模型的大小都是H100 HGX支持模型的两倍。AMD的Instinct MI300A是一个数据中心APU,它在同一个封装中结合了CPU和GPU,并将与NVIDIA的Grace Hopper Superchips直接竞争。MI300A已经在El Capitan超级计算机中取得了显著的优势,AMD正在将这种芯片交付给其合作伙伴。MI300A与MI300X的基本设计和制造方法基本相同,但在三个5纳米核心计算芯片(CCD)中分别替换了八个Zen 4 CPU内核,与EPYC和Ryzen处理器相同,从而取代了两个XCD GPU芯片。这使得MI300A配备了24个线程CPU内核和228个CDNA 3计算单元,分布在6个XCD GPU芯片上。与MI300X一样,所有的计算芯片都混合键合到四个底层I/O Dies (IOD)上,从而实现比标准芯片封装技术所能实现的更高的带宽、延迟和能效。AMD通过使用8个8Hi的HBM3堆栈来减少内存容量,而不是MI300X使用的8个12Hi堆栈,从而将容量从192GB削减到128GB。内存带宽保持在5.3 TB/s。AMD称,减少内存容量的决定不是因为电源或热限制,而是它为目标高性能计算和人工智能工作负载量身定制芯片。无论如何,128GB的容量和5.3 TB/s的吞吐量仍然是H100 SXM GPU的1.6倍。MI300A有一个默认的350W TDP,但它可以配置到760W。AMD根据使用情况在芯片的CPU和GPU部分之间动态分配功率,从而优化性能和效率。AMD声称在FP64矩阵/DGEMM和FP64/FP32矢量TFLOPS方面比H100有1.8倍的优势,而在TF32、FP16、BF16、FP8和INT8方面与H100不相上下。MI300基于最新一代 CDNA 3 架构设计,混合使用 5nm 和 6nm IP,AMD 组合这些 IP,让其晶体管数量达到 1530 亿个。主中介层采用无源芯片布局,该芯片使用第 4 代 Infinity Fabric 解决方案容纳互连层。中介层总共包括 28 个芯片,其中包括 8 个 HBM3 堆栈、16 个 HBM 封装之间的虚拟芯片和 4 个有源芯片,每个有源芯片都有 2 个计算芯片。苏姿丰反复强调“内存对AI很重要”,在大模型军备竞赛的当下,GPU的核心参数已经从“算力”过渡到“内存容量和带宽”,这也是为什么发布会上AMD强调192GB HBM3内存容量、5.3TB/s峰值内存带宽、896GB/s Infinity Fabric互连带宽的原因。APU是AMD融聚理念的产品,集成了CPU与GPU功能,实现CPU与GPU共享统一内存,计算模块化,这种布局可以让CPU更快地准备数据,将数据加载到GPU上,从而加快模型的训练。AMD在会上介绍说,这种APU设计拥有统一的内存、共享的AMD infinity Catch、动态功率共享(dynamic power shared)和易于变成等优势,这将解锁前所未有的新性能体验。通过将统一内存、内存带宽、GPU性能多重优势组合,MI300A在OpenFOAM高性能计算MotorBike测试中,得分是H100的4倍。AMD通过引入3D混合键合和2.5D的硅中介层,实现了一个自称为“3.5D封装”的技术,使用的是台积电SoIC和 CoWoS封装技术。这是一种堆叠在其最高端 CPU 小芯片上的高速缓存内存扩展小芯片,从HBM存储层到有源中介层,从计算到用于结构支撑的空白硅,其中,巨大的中介层几乎是NVIDIA H100上的两倍。今年AMD收购了AI软件创企Nod.ai和Mipsology,来加强软件能力,简化开发。此次发布会就推出了ROCm 6软件平台,该平台将与NVIDIA专有平台CUDA竞争。ROCm 6增加了对生成式AI的几个新增关键功能的支持,包括Flash Attention、HIP Graph、vLLM等。MI300X与ROCm 6结合使用,可以为AI推理工作负载提供动力。
NVIDIA以95%的占有率垄断了全球 Al 训练领域的市场,但其客户们正在拼命“解绑”NVIDIA,以减少对NVIDIA的依赖。“解绑”的思路有两个,一个是自研,一个是马上找到“第二供应商”,做好采购备选planB方案。微软、Meta、谷歌、亚马逊、特斯拉、OpenAI等大客户,都在紧锣密鼓的筹备芯片项目,都投入更多资源研发 AI 芯片。AMD 没有透露新品的定价,但苏姿丰声称MI300比市场上的其它产品有更高的性价比。AMD的产品无疑给这些科技公司多一个选项,尽管AMD的AI芯片在功能上与NVIDIA有点差距,但AMD的高性价比策略是其一大优势。此次发布会,微软、甲骨文、Meta以及OpenAI都已经表示,他们将使用AMD最新的AI芯片Instinct MI300X取代NVIDIA的处理器,尽管NVIDIA对于部署人工智能程序至关重要,但要解除依赖,这是必须要走的一步。· Meta表示,它将使用MI300X GPU处理人工智能推理工作负载,如处理人工智能贴纸、图像编辑和操作其助手等。
· 微软首席执行官萨蒂亚·纳德拉(Satya Nadella)上个月说,微软的Azure云计算服务将率先使用AMD新的MI300X人工智能芯片。
· 甲骨文一位高管称,该公司旗下云计算部门也计划使用AMD的这种芯片。
· OpenAI表示,它将在一款名为Triton的软件产品中支持AMD的GPU。Triton不是像GPT那样的大语言模型,但用于人工智能研究。
MI300算是目前AMD的最强AI芯片,不少的业内人士觉得可以和NVIDIA“打上一架”。尽管,AMD目前在大型语言模型LLM训练和推理领域占据的市场份额小于0.1%,但大模型科技公司各自对此有“制衡”的策略,NVIDIA在AI领域不会一直占据如今这般高的市场份额,未来数据中心的市场份额将被AMD以及各个自研AI芯片的科技公司瓜分。