公众号记得加星标⭐️,第一时间看推送不会错过。
如果您认为人工智能网络还不够复杂,那么Nvidia、AMD和英特尔等公司推出的机架式架构将带来新的复杂性。
与通常使用以太网或InfiniBand的横向扩展网络相比,这些系统核心的纵向扩展结构通常采用专有的或至少是新兴的互连技术,可为每个加速器提供几个数量级的更高带宽。
例如,Nvidia的第五代NVLink互连为每个加速器提供比当今以太网或InfiniBand高9倍到18倍的总带宽。
这种带宽意味着GPU的计算和内存可以池化,即使它们物理上分布在多个不同的服务器上。Nvidia首席执行官黄仁勋将GB200NVL72称为“一块巨型GPU”,这可不是开玩笑。
向这些机架规模架构的转变在很大程度上受到OpenAI和Meta等模型构建者的需求的推动,它们主要针对超大规模云提供商、CoreWeave或Lambda等新云运营商以及需要将其AI工作负载保留在本地的大型企业。
考虑到这个目标市场,这些机器的价格不菲。据TheNextPlatform估计,单个NVL72机架的成本为350万美元。
需要明确的是,实现这些机架级架构的纵向扩展架构并非新鲜事物。只是到目前为止,它们很少扩展到单个节点之外,并且通常最多支持8个GPU。例如,以下是AMD最新发布的MI350系列系统中的纵向扩展架构。
如您所见,每个芯片都以全对全拓扑结构连接其他七个芯片。
Nvidia的HGX设计沿用了其四GPUH100系统的基本模板,但为其更常见的八个GPU节点增加了四个NVLink交换机。虽然Nvidia表示这些交换机的好处是可以缩短通信时间,但也增加了复杂性。
随着向机架规模的转变,同样的基本拓扑结构只是简单地扩大了规模——至少对于Nvidia的NVL系统而言是如此。对于AMD来说,全网状网络根本不够用,交换机变得不可避免。
深入探究Nvidia的NVL72扩展架构
我们稍后会深入探讨HouseofZen即将推出的Helios机架,但首先我们先来看看Nvidia的NVL72。由于它上市时间较短,我们对它了解得比较多。
简单回顾一下,该机架式系统拥有72个BlackwellGPU,分布在18个计算节点上。所有这些GPU都通过18个7.2TB/s的NVLink5交换芯片连接,这些芯片成对部署在9个刀片服务器上。
据我们了解,每个交换机ASIC都拥有72个端口,每个端口的双向带宽为800Gbps或100GB/s。与此同时,Nvidia的BlackwellGPU拥有1.8TB/s的总带宽,分布在18个端口上——机架上的每个交换机一个端口。最终的拓扑结构看起来有点像这样:
这种高速全互连结构意味着机架中的任何GPU都可以访问另一个GPU的内存。
为什么要扩大规模?
据Nvidia称,这些海量计算域可显著提升GPU的运行效率。对于AI训练工作负载,这家GPU巨头估计其GB200NVL72系统的速度比同等数量的H100系统快4倍,尽管在相同精度下,组件芯片的性能仅高出2.5倍。
同时,对于推理,Nvidia表示其机架规模配置的速度提高了30倍——部分原因是可以采用不同程度的数据、管道、张量和专家并行性来利用所有内存带宽,即使模型不一定受益于所有内存容量或计算。
话虽如此,Nvidia基于Grace-Blackwell的机架中VRAM为13.5TB到20TB,AMD即将推出的Helios机架中VRAM为30TB左右,这些系统显然是为服务于像Meta(显然已延迟)两万亿参数的Llama4Behemoth这样的超大模型而设计的,它将需要4TB内存才能在BF16上运行。
不仅模型越来越大,上下文窗口(可以将其视为LLM的短期记忆)也越来越大。例如,Meta的Llama4Scout拥有1090亿个参数,并不算特别大——在BF16级别上运行时仅需要218GB的GPU内存。然而,其1000万个token的上下文窗口则需要数倍于此的内存,尤其是在批量大小较大的情况下。
推测AMD首款扩展系统Helios
毫无疑问,这就是为什么AMD也在其MI400系列加速器中采用了机架式架构。
在本月初的AdvancingAI大会上,AMD发布了Helios参考设计。简而言之,该系统与Nvidia的NVL72非常相似,将于明年上市,配备72个MI400系列加速器、18个EPYCVeniceCPU以及AMD的PensandoVulcanoNIC。
关于该系统的细节仍然很少,但我们知道它的扩展结构将提供260TB/s的总带宽,并将通过以太网传输新兴的UALink。
如果您还不熟悉,新兴的UltraAcceleratorLink标准是NVLink的开放替代方案,适用于扩展网络。UltraAcceleratorLink联盟最近于4月发布了其首个规范。
Helios每块GPU的双向带宽约为3.6TB/s,这将使其与Nvidia第一代Vera-Rubin机架式系统(也将于明年推出)相媲美。至于AMD打算如何实现这一目标,我们只能猜测——我们也这么做了。
根据我们在AMD主题演讲中看到的内容,该系统机架似乎配备了五个交换刀片,每个刀片上似乎有两块ASIC。由于每个机架配备了72块GPU,这种配置让我们感觉有些奇怪。
最简单的解释是,尽管有5个交换刀片,但实际上只有9个交换ASIC。要实现这一点,每个交换芯片需要144个800Gbps端口。这对于以太网来说略显不寻常,但与Nvidia在其NVLink5交换机上的做法相差无几,尽管Nvidia使用的ASIC数量是NVLink5的两倍,带宽却只有NVLink5的一半。
其结果将是与Nvidia的NVL72非常相似的拓扑结构。
棘手的是,至少据我们所知,目前还没有能够提供这种带宽水平的交换机ASIC。几周前我们深入研究过的博通Tomahawk6,其性能最接近,拥有多达128个800Gbps端口和102.4Tbps的总带宽。
需要说明的是,我们不知道AMD是否在Helios中使用了Broadcom——它恰好是少数几个公开披露的非交换机之一。
但即使Helios塞进了10颗这样的芯片,你仍然需要另外16个800Gbps以太网端口才能达到AMD宣称的260TB/s带宽。这到底是怎么回事呢?
我们猜测Helios使用的拓扑结构与Nvidia的NVL72不同。在Nvidia的机架式架构中,GPU通过NVLink交换机相互连接。
当然,这都只是猜测,但数字确实相当吻合。
根据我们的估算,每个GPU为节点内网格分配600GB/s(12条200Gbps链路)的双向带宽,并为扩展网络分配约3TB/s(60条200Gbps链路)的带宽。也就是说,每个交换刀片的带宽约为600GB/s。
如果您觉得端口数量太多,我们预计每个计算刀片将聚合成大约60个800Gbps端口,甚至可能30个1.6Tbps端口。这有点类似于英特尔对其Gaudi3系统的做法。据我们了解,实际布线将集成到盲插式背板中,就像Nvidia的NVL72系统一样。所以,如果您之前还在为手动连接机架网络而烦恼,现在您可以放心了。
我们可以看到这种方法的一些好处。如果我们的预测正确,那么每个Helios计算刀片都可以独立运行。与此同时,Nvidia有一个单独的SKU,名为GB200NVL4,专门针对HPC应用,它将四个BlackwellGPU连接在一起,类似于上图,但不支持使用NVLink进行扩展。
但同样,我们无法保证这就是AMD正在做的事情——这只是我们最好的猜测。
扩大规模并不意味着停止扩大规模
您可能会认为,AMD和Nvidia的机架式架构所支持的更大的计算域意味着以太网、InfiniBand或OmniPath——是的,它们回来了!——将退居次要地位。
实际上,这些可扩展网络无法扩展到机架之外。Nvidia的NVL72和AMD的Helios等系统中使用的铜质跨接电缆根本无法达到那么远。
正如我们之前所探讨的,硅光子技术有潜力改变这一现状,但该技术在集成方面也面临着自身的障碍。我们认为,Nvidia并非出于自身意愿而规划600kW机架的发展路线,而是因为它预计这些规模化网络摆脱机架束缚所需的光子技术将无法及时成熟。
因此,如果您需要超过72个GPU(如果您正在进行任何类型的训练,那肯定需要),您仍然需要一个横向扩展架构。实际上,您需要两个。一个用于协调后端的计算,另一个用于前端的数据提取。
机架规模似乎也没有减少所需的横向扩展带宽。至少对于其NVL72,Nvidia本代产品仍坚持1:1的NIC与GPU比例。通常,每个刀片还会配备另外两个NIC或数据处理单元(DPU)端口,用于传统的前端网络将数据移入和移出存储等等。
这对于训练来说很有意义,但如果你的工作负载可以容纳在单个72GPU的计算和内存域中,那么对于推理来说可能并非绝对必要。剧透:除非你运行的是某个庞大的专有模型,且其细节尚不清楚,否则你很可能可以做到。
好消息是,我们将在未来6到12个月内看到一些高基数开关(highradixswitches)进入市场。
我们已经提到过博通的Tomahawk6,它将支持从64个1.6Tbps端口到1024个100Gbps端口的各种带宽。此外,英伟达的Spectrum-XSN6810也将于明年上市,它将提供多达128个800Gbps端口,并将采用硅光技术。与此同时,英伟达的SN6800将配备512个MPO端口,每个端口速率可达800Gbps。
这些交换机大幅减少了大规模AI部署所需的交换机数量。要以400Gbps的速度连接128,000个GPU集群,大约需要10,000台Quantum-2InfiniBand交换机。而选择51.2Tbps以太网交换机,则可以有效地将这一数字减半。
随着转向102.4Tbps交换,这个数字缩减到2,500,如果您可以使用200Gbps端口,则只需要750个,因为基数足够大,您可以使用两层网络,而不是我们在大型AI训练集群中经常看到的三层胖树拓扑。
加星标⭐️第一时间看推送,小号防走丢
求分享
求推荐