关注我们的 WhatsApp 频道, TikTok 与 Instagram 以观看最新的短视频 - 开箱,测评与第一手新闻资讯。
数据中心网络是公众最容易忽视的因素之一,实际上它负责节点之间的所有通信。然而,NVIDIA知道,拥有数百万个GPU的数据中心即将出现,而对于最快的AI模型,它们需要互连,甚至跨多个设施互连。这就是NVIDIA今天推出Spectrum-XGS以太网的原因,它是Spectrum-X网络平台的扩展,旨在将多个地理位置分散的数据中心互连成一个 AI 超级工厂。
该公司表示,Spectrum-XGS通过引入距离感知网络消除了单一设施的容量限制,可在校园、城市和大洲之间提供可预测的低延迟性能。

该技术主要通过对现有Spectrum-X交换机和ConnectX SuperNIC进行软件和固件更新来提供,而不是通过新的芯片。 Spectrum-XGS提供针对长距离链路优化的自动调整拥塞控制、可最大程度减少抖动的精确延迟管理以及全面的端到端遥测,使运营商能够可视化和控制跨多个站点的网络流量。
NVIDIA报告称,这些改进使多GPU、多节点训练作业和大规模实验的 NCCL(集体通信库)吞吐量几乎翻了一番,从而提高了分布式AI工作负载的效率。NVIDIA将Spectrum-XGS定位为AI基础设施的新增长轴:继服务器内部扩展和数据中心内部扩展之后,跨规模扩展将设施连接到统一的计算结构中。

超大规模运营商正准备采用这种方法。CoreWeave将成为首批将多个设施与Spectrum-XGS连接在一起的公司之一。该公司将把其分布式站点用作一台超级计算机,为客户提供更大的聚合容量,并简化千兆级实验和生产训练运行的操作。
Spectrum-XGS是Spectrum-X平台的一部分,并在Hot Chips大会上进行了演示。更多细节预计将在Hot Chips大会上公布,但大规模、跨洲规模的训练运行已不再是空想。有了Spectrum-XGS这样的解决方案,只有天空(和电网)才是极限。
【资料来源】














