行业前瞻
行业前瞻 当前位置:首页>行业前瞻

解构英伟达AI 布局,AI 高速互连/自研芯片方案加速落地

发布时间: 2024-10-31 09:12:33来源:智行车家

近期,随着B200和GB200在2024年第四季和2025年第一季之间陆续启动出货,英伟达将Blackwell Ultra产品改名为B300系列,预计明年将主推B300和GB300等采用CoWoS-L封装的GPU产品,这将提升对先进封装技术的需求量。

英伟达深耕 AI 产业十多载,在 GPU/网络/软件三方面筑建深厚壁垒。英伟达抓住以深度学习、大模型为核心技术的 AI 技术变革机遇,针对 AI 模型的大规模并行计算需求,在 GPU、高速互连领域深度布局。在高速互连领域,英伟达在片间、Scale Up 和 Scale Out 网络域均提出相应解决方案。这些努力最终促使英伟达在 AI 系统领域构建了深厚的护城河。若想取代甚至超越英伟达需要在 AI 加速器、高速互连等多方面取得突破。

AI 产业群雄并起,自研 AI 有望提速。面对英伟达在 AI 算力领域的领导地位,以北美云厂商为首的科技企业,在算力芯片、高速互连等领域进行前瞻布局。其中,在 AI 自研芯片领域,亚马逊、微软、Meta 等超大规模 AI 客户联合 Broadcom、Marvell 等芯片厂商,加快 AI 芯片推出速度;在 Scale Up 网络,以 AMD、博通为首的科技玩家,构建 UALink 高速互连开放标准,提供了复制 NVlink 高速互连的路径,聚合全产业资源,加速追赶 NVlink。在Scale Out 网络,以太网凭借着生态优势、齐备的产业链和较高的性价比,得到了亚马逊、Meta、字节跳动等科技巨头们的青睐, 超以太网联盟和英伟达Spectrum-X 平台两大阵营均在该领域发力,推动以太网 AI 网络快速发展。未来基于以太网的 AI 网络有望成为主流解决方案。

01.

解构英伟达AI 布局,探寻AI 产业发展方向 


AI 算力集群通常由 AI 服务器、高速交换机构成。AI 加速器是 AI 算力的最小单元,一台服务器通常包含多个加速器为了方便管理,多台服务器组成一个机柜,并通过架顶交换机进行互连。在架顶交换机满载的情况下,可以通过在架顶交换机间增加骨干交换机(Spine Switch)进一步接入新的机柜。最终,完成对成千上万个加速器互连,利用上文所述的三种并行策略:张量并行、流水线并行和数据并行来提供大规模分布式 AI算力,容纳更大的模型和数据,加快训练和推理速度。在 AI 大模型训练过程中,前向计算、反向计算和通信占据了主要时间,因此为了加快训练速度需要在算力、运力上同步进行提升。
微信图片_20241031090311.png

英伟达在系统和网络、硬件和软件进行全方位布局,构建深厚竞争壁垒。在计算芯片方面,英伟达布局了 CPU、GPU 以及 CPU-GPU SuperChip 等产品;在网络领域,英伟达构建了两种类型的网络:一种是 NVLink 总线域网络,用于算力 Scale Up 扩展;另一种是 InfiniBand 和 Ethernet 网络,用于算力 Scale Out 扩展,其中基于 InfiniBand 的Quantum 产品用于构建 AI Factory,基于 Ethernet 的 Spectrum 用于构建 AI Cloud。此外,英伟达开发了以 CUDA 为核心的软件架构,与其硬件进行配套使用,从而更好地发挥硬件的性能。英伟达凭借其在系统和网络、硬件和软件的全方位布局,使其在 AI 生态牢牢占据主导地位。
微信图片_20241031090330.png

(一)GPU 算力提升之路:微结构提升或有望成为算力提升主要途径

(1)CUDA Core 阶段:2010 年,英伟达在 Fermi 架构中,英伟达对处理核心进行了改进和调整,引入了新的设计特性如:更好的调度和管理机制、更高效内存访问以及更多的可编程功能。在 Fermi 架构之后,硬件层面上 GPU 的处理核心为 CUDA Core,软件层面上使用 CUDA(计算统一设备架构)充分发挥 GPU 的性能。CUDA Core 主要用于并行计算,理论上CUDA Core 越多,算力也就越强,因此在随后的Kepler、Maxwell 架构上大量增加CUDA Core。 

(2)Tensor Core 阶段:2016 年,英伟达推出 Pascal 架构,其 GPU 开始朝着深度学习方向发展;2017 年,推出Volta 架构,新引入了Tensor Core 模块,该模块可实现混合精度计算,动态调整算力,从而在保持准确性和提供更强安全性的同时提高吞吐量。在随后的每一次架构中不断对Tensor Core 进行优化。 

(3)Transformer 引擎阶段:2022 年,英伟达推出 Hopper 架构,并引入了Transformer 引擎,可以显著加快 AI 算力,用于应对日益增加的模型参数。H100 的Transformer Engine 使用NVIDIA 第四代Tensor Core 技术,旨在加速由Transformer 作为基础模块构建的模型训练速度。这些Tensor Core 可以应用混合的 FP8 和 FP16 格式,从而显著加速 Transformer 的 AI 计算。2024 年,英伟达推出 Blackwell 架构,推出了第二代 Transforer 引擎,将定制的 Blackwell Tensor Core 技术与 NVIDIA TensorRT-LLM 和 NeMo 框架创新相结合,可以加速大语言模型和专家混合模型的推理和训练。
微信图片_20241031090504.png 

通过对英伟达历代 GPU 发展历程分析,我们可以知道其性能主要提升来自以下几个方面:(1)CUDA Core、Tensor Core 等新架构的提出;(2)CUDA Core、Tensor Core 等核心数的提升;(3)专门为大语言模型和混合专家模型设计的 Transformer 引擎。以 H100相比 A100 的进步为例,H100 的提升源自以下几个方面:(1)H100 配备 132 个 SM,比A100 的 108 个 SM 增加了 22%;(2)采用新的第四代 Tensor Core,每个 H100 SM 的速度提升了 2 倍;

(3)Tensor Core 采用新的 FP8 数据格式和相应的 Transformer 引擎将性能提升 2 倍;(4)H100 的时钟频率将性能提升 1.3 倍。究其背后的原因,我们认为是随着深度学习成为 AI 的主流技术,Transformer 成为大模型的基础架构,AI 模型并行计算的基础范式日渐趋于稳定,从而可以在硬件层面上针对广泛使用的算法进行微架构设计,推动算力不断提升。未来随着 AI 技术逐步趋于成熟,相关架构可能会趋于统一,届时硬件层面上针对算法定制化设计或许是AI 芯片算力提升的主要方向。 

(二)高速互连:构建全系列高速互连系统,打造AI 超级计算机

单芯片算力和内存有限,无法承载大模型,通过多种互连技术将多颗算力芯片互连在一起提供大规模的算力、内存。GPU 互连主要分为业务互连、Scale Up 网络互连和 Scale Out 互连,各自承载的业务流各不相同,具体细分来看: 

业务网络互连:承载的是诸如需要计算的输入数据,输出结果,以及在各类存储系统中的模型参数、checkpoint 等。需要进行极大范围的互连,并且和云上的存储、业务接口等互通,采用以太网技术,通常支持各类RDMA。 

Scale Out 网络互连:训练的DP、PP 并行计算切分流程,通常要把集群横向扩展到超多的 GPU 机柜,当前的训练规模已经发展到 10w 卡,目前国际的标准趋势是,采用专门优化的以太网技术UEC(Ultra Ethernet Consortium)协议。 

Scale Up 网络互连:以推理的大显存并行计算流量和训练的张量并行(TP)以及专家并行(MoE)流量为主,有在网计算的需求(可以对 All reduce 在 Switch 节点上进行加速)。在一定规模内互连,由于其对于性能的超高要求,采用专门设计的协议,比如NVIDIA 的 NVlink 及 NVSwitch 技术,另外一个近期成立的协议联盟是 UALink(Ultra Accelerator Link),由 AMD、 Broadcom、Cisco、Google、HPE、Intel、Meta 和Microsoft 共同发起,目前在行业内得到了广泛响应。 

1、NVLink:从内部高速互连走向超级网络  

(1)NVLink:支持GPU 之间的高速数据传输和协同工作 

随着 AI 算力需求不断增长,多 GPU 并行成为一种趋势,可以支撑大模型的训练和推理。对于多 GPU 系统而言,一个关键的挑战是如何实现 GPU 之间的高速数据传输和协同工作。然而,传统的 PCIe 总线由于带宽限制和延迟问题,已经无法满足 GPU 之间通信的需求。

2018 年,英伟达推出了 NVLink 用于解决该问题。它允许 GPU 之间以点对点方式进行通信,绕过传统的 PCIe 总线,实现了更高的带宽和更低的延迟,为多 GPU 系统提供更高的性能和效率。单个 GPU 的 NVLink 带宽从 Pascal 架构的 160GB/s,提升到Blackwell 架构的1800GB/s。 

(2)NVSwitch 芯片:提高通信速度,加速计算过程

第一代 NVSwitch 与英伟达 V100 GPU 和第二代 NVLink 一起推出,可以连接多个NVLink,实现在单个机架内和多个机架间以 NVLink 的最高速度进行多对多 GPU 通信。自第三代 NVSwitch 起,NVSwitch 芯片具备 SHARP 加速功能,可以提升通信效率、加快计算过程。 

以 H200 八卡服务器为例,如果不使用 NVSwtich 芯片,成本会降低一些,但是每个GPU 必须将900 GB/s 的连接分成7 个专用的128 GB/s 的连接,与其他7 张GPU 进行点对点连接。这意味着 GPU 通信的速度取决于通信的 GPU 数量。若借助 NVSwitch 芯片,服务器中的每个 GPU 都能以 900 GB/s 的速度与其他任何 GPU 同时进行通信。NVSwitch 是无阻塞的,使得GPU 之间通信的峰值速率与通信的GPU 数量无关。 

NVSwitch3 芯片新引入了 SHARP 功能,可以对多个 GPU 单元的计算结果进行聚合和更新,从而减少网络数据包并提高计算性能。

(3)NVLink 交换机:构建NVLink 网络

2022 年,英伟达将 NVSwitch 芯片独立出来,并制作成 NVLink 交换机,可以在单个机架内和多个机架间连接成 NVLink 网络,可以解决 GPU 之间的高速通信带宽和效率问题。每个服务器都有独立的地址空间,为 NVLink 网络中的 GPU 提供数据传输、隔离和安全保护。当系统启动时,NVLink 网络通过软件 API 自动建立连接,并可以在运行过程中更改地址。 

InfiniBand 网络和 NVLink 网络是在高性能计算和数据中心应用中使用的两种不同的网络技术。它们有以下区别: 

架构和设计:InfiniBand 网络是一种采用多通道、高速串行连接的开放标准网络技术,支持点对点和多播通信。NVLink 网络是由英伟达(NVIDIA)开发的专有技术,旨在实现GPU 之间的高速直连。 

应用场景:InfiniBand 网络广泛应用于高性能计算集群和大规模数据中心,主要用于Scale Out 网络。NVLink 网络主要用于大规模 GPU 集群、HPC 等领域,主要用于 Scale Up 网络。 

带宽和延迟:InfiniBand 网络提供高带宽和低延迟的通信,提供更高的吞吐量和更短的传输延迟。NVLink 网络为 GPU 之间提供更高的带宽和更低的延迟,以支持快速数据交换和协同计算。 

对于通信强度较高的工作负载,NVLink 网络的性能优势非常显著。在 HPC 中,Lattice QCD 和 8K 3D FFT 等工作负载获得了显著优势,因为 HPC SDK 和 Magnum IO 中的通信库中设计了多节点扩展功能。 

NVLink 网络在训练大型语言模型或具有大型嵌入表的推荐系统时也能提供显著的性能提升。 

(4)NVLink C2C:CPU 与GPU 互连,大幅增加了GPU 可用内存容量

2022 年,推出 NVIDIA® NVLink®-C2C,这是一种超快速的芯片到芯片、裸片到裸片的互连技术,将支持定制裸片与 NVIDIA GPU、CPU、DPU、NIC 和 SOC 之间实现一致的互连,助力数据中心打造新一代的系统级集成。

借助先进的封装技术,NVIDIA NVLink-C2C 互连链路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面积效率高出 90 倍,可实现每秒 900 GB 乃至更高的一致互联带宽。NVLink-C2C 主要优势包括:高带宽、低延迟、低功耗高密度、支持多种行业标准等。 

以 GH200 为例,高带宽 NVLink-C2C 上的扩展 GPU 内存功能使 GPU 能够高效地访问所有系统内存。所有GPU 都能通过GPU- GPU NVLink 或NVLink-C2C 访问所有可用的内存资源,包括 LPDDR5X 和 HBM3。推理大型语言模型(LLM)需要大量内存来存储模型权重和推理过程中的中间结果。随着推理批量大小的增加,为满足对 LLM 日益增长的需求,内存需求也随之增加。为了解决内存需求,可以扩展到多个 GPU 或使用CPU 内存来卸载部分模型层。然而,使用 x86 CPU 时,访问系统内存进行张量卸载可能会受到 PCIe 的瓶颈限制。

NVIDIA 的 NVLink-C2C 为 Hopper GPU 提供了对LPDDR5X 内存的高带宽访问,这显著减少了张量卸载执行时间,使得 LLM 的推理能够以 GPU 的吞吐量进行。根据性能模拟结果,当批量大小为 1 时,配备 HBM3 的GH200 在 LLM 推理性能上提高了 2 倍,因为 GH200 中 HBM3 的 GPU 内存带宽高于H100 PCIe GPU。随着批量大小的增加,推理所需的内存量也在增加。在批量大小为 4时,基于 PCIe 的推理解决方案性能下降,因为 PCIe 成为主要瓶颈,而 GH200 的NVLink-C2C 则能够以高带宽向 H100 GPU 传输数据,相比于 PCIe 的方案提供了 4.5 倍的吞吐量。 

(5)GB200:NVlink 集大成者,高速互连打造超级AI 计算机

GB200 支持NVlink 域中36 颗和72 颗GPU,分别构成GB200 NVL36 和GB200 NVL 72机柜。GB200 NVL36/72 机柜主要由Computer Tray 和Switch Tray 构成。 

以 NVL72 机柜为例,其包含 18 个 Computer Tray 和 9 个 Switch Tray。其中,Computer Tray 包含 2 块 Grace Blackwell 超级芯片,每块超级芯片包含 1 个 Grace CPU 与 2 个Blackwell GPU,CPU 与 GPU 之间通过 NVLink-Chip-to-Chip(C2C)接口进行互连,该接口提供 900GB/s 的双向带宽。单颗 GPU 配置 192GB HBM3e 内存,单颗 CPU 配置480GB LPDDR5X 内存。通过 NVLink C2C 高速连接,单个 Computer Tray 可提供 1.7 TB 的快速内存,应用程序可以一致地访问统一内存空间。这简化了编程并满足万亿参数LLM、多模态模型等大容量内存的需求。 

Switch Tray 即 NVLink 交换机,主要用于构建 GPU 之间高速互连的 NVlink 网络,让GPU 之间能够进行高速通信并且支持 SHARP 网络计算,从而让多个 GPU 之间能够共享更大的内存空间。每个 NVLink Swtich Tray 提供 144 个 100 GB 的 NVLink 端口,因此 9 个 Switch Tray 可完全连接 72 个 Blackwell GPU 上的 18 个 NVLink 端口。GB200 采用了第五代 NVLink,单个 NVLink 域中连接多达 576 个 GPU,总带宽超过 1 PB/s,快速内存为240TB,能够实现更高性能的加速计算。 

02.

IB 交换机:构建无损的RDMA 网络,支持Scale Out 网络互连 


RDMA 可以显著提高传输效率,满足 AI 网络高吞吐、低延迟等要求。AI 算力网络流量与传统数据中心流量迥然不同,其具有超大流量、超低时延、零容忍丢包和严格时间同步等特点。传统的传输控制协议/互联网协议需要靠内核发送消息进行网络通信,在数据传输过程中存在较高的数据移动和复制开销,降低了数据传输效率。与之形成对比的 RDMA 协议能够通过网络接口访问内存数据,不经过内核,具有高吞吐、低延迟、无CPU 占用等优点,可以提升数据传输效率。 

微信图片_20241031090823.png

RDMA 主要包含 3 种协议:InfiniBand(IB)、基于以太网的 RDMA(RoCE)和基于TPC/IP 协议栈的RDMA(iWARP)。 

IB:专为高性能计算从链路层到传输层定制了全新的架构,具备高带宽、低延迟和无损的特征。不过,IB 体系独立封闭,需要采用专用的交换机、网卡、线缆等,不能和现有的以太网设备兼容,采购成本相对高昂。 

RoCE:RoCE 是基于以太网协议栈进行拓展,能够支持 RDMA 操作。RoCE 当前有 2个主要版本:RoCE v1 和 RoCE v2。RoCE v1 不能支持路由,也没有拥塞控制机制,难以在数据中心中使用。RoCE v2 是 RoCE v1 的改良版本,支持路由并定义了拥塞控制机制。RoCE 在性能上较 IB 有所降低,但是其性价比更高,在一些超大规模数据中心商用部署。不过,RoCE v2 标准是 UDP 协议,虽然其效率比较高,但不具备类似 TCP 协议的重传机制等来保障可靠传输,一旦出现丢包,必须依靠上层应用发现后再做重传,这样会极大降低RDMA 的传输效率。 

iWARP:该技术是基于TCP 协议,在有损网络场景相比IB 和RoCE v2 具有更好的可靠性,但是大量TCP 连接会耗费很多的内存资源,且其复制的流控制会导致性能问题,导致其并未能大规模推广使用。 
微信图片_20241031090835.png

总之,IB 可以提供卓越的性能、低延迟和可扩展性,在高性能计算领域表现出色并占据较大优势。相比之下,RoCE 由于更容易利用现有以太网基础设施,具有较低的成本,受到科技巨头们的青睐。
微信图片_20241031090845.png

03.

AI 产业群雄并起, AI 自研后劲十足 


英伟达一家独大,产业巨头并起而抗之。AI 本质上是一个并行计算的问题,提升单个节点的算力及构建高速的互连系统是尤为关键。英伟达由于其早期布局 GPU,及时地抓住了此轮以深度学习为技术代表的 AI 技术发展浪潮,其单个 GPU 算力不断提升,并开发了 NVLink、IB 交换机等配套的产品,以及 CUDA 等软件生态的持续完善,促使大规模 AI 算力按照黄氏定律的趋势快速演进,凭借着其在 GPU、网络和系统、软件三个方面的布局,在AI 产业链中占据了主导地位。 

随着 ChatGPT 掀起的大模型 AI 浪潮兴起,AI 算力需求大幅跃升,全球科技龙头均不希望在 AI 竞赛中处于劣势地位,甚至想在此轮 AI 浪潮中拔得头筹,进而在此轮 AI 浪潮中获取更大的利益,促使英伟达 AI 算力卡呈现供不应求的局面。面对紧缺的 AI 算力产品供应、高昂的资本开支以及尚未见顶的 AI 算力需求,云厂商未雨绸缪、纷纷想把握住 AI 算力的主动权,进而在 AI 浪潮中取得更大的优势。

以谷歌、博通、亚马逊、 AMD、微软、Meta、Marvell 等为首的北美科技巨头企业,试图在 AI 芯片、高速互连领域逐个对英伟达体系进行突破,非英伟达体系的 AI 算力产业正在崛起,未来有望取得一定的市场份额。 

(一)AI 自研芯片:AI 算力成为核心要素,科技巨头追求自主可控 

AI 自研芯片众望所归,北美巨头加码投入。ChatGPT 掀起新一轮的 AI 发展浪潮,大模型的性能遵守Scaling law 法则即大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关,AI 算力成为此轮 AI 发展的核心驱动力。北美科技巨头纷纷加码AI 基础设施,面临着资本开支快速增长带来的财务压力,但又表示当前不投 AI 算力的风险大于过度投资 AI 算力的风险,北美巨头如不采取措施可能限于两难境地,AI 自研芯片或有望成为破局之道。
微信图片_20241031091103.png 

AI 自研芯片优势明显,北美科技巨头陆续推出自研产品。AI 自研芯片应需而生:(1)降本增效:自研 AI 芯片具有更高的性价比,可以在一定程度上减少资本开支,而且能够让科技巨头公司相对于英伟达、AMD 等 GPU 厂商拥有一定的议价权。(2)供应安全:AI 自研芯片开拓了新的算力供应渠道,可以一定程度上降低 GPU 芯片供应受限的风险。

(3)自主可控:自研 AI 芯片可以更加灵活地控制技术路线和发展节奏,避免受到供应商或者合作伙伴的限制和影响。(4)增强竞争优势:科技巨头可以通过自研 AI 芯片打造自己的核心竞争力,从而提高其在 AI 领域的话语权和影响力。在规模及成本等多种因素考量下,北美云厂商 Google、AWS、Microsoft、Meta 等有逐年扩大采用自研ASIC 趋势,先后推出自研 AI 芯片,未来几年自研 AI 芯片有望迎来快速发展的黄金期。

全球两大 AI 定制芯片玩家对其定制 AI 芯片业务展望乐观。博通在 2024 年 9 月 5 日的业绩说明会上表示,FY2024Q3 其定制 AI 加速器业务同比增长 3.5 倍,对 AI 业务增长保持乐观,并将 FY2024 年 AI 营收指引从先前的 110 亿美元调整到 120 亿美元,预计FY2025 AI 业务将保持强劲增长;长期来看,公司认为其超大规模客户有更多的 AI 算力需求,有望加快 AI 芯片地部署。

Marvell 在 2024 年 4 月 Accelerated Infrastructure for the AI Era 上预计 FY2025 其 Custom Compute 和 Connectivity 业务营收有望达到 15 亿美金;目前正在为2 家客户定制AI 芯片;表示2023 年全球Accelerated custom compute 市场规模为 66 亿美元,预计 2028 年将达到 429 亿美元;在 2024 年 8 月 29 日业绩说明会上表示,AI 定制芯片进展顺利,2 颗芯片已经进入量产;鉴于公司 AI 业务在FY2025H1 增长强劲,FY2025H2 有望加速增长,预计 FY2025 年 AI 业务收入将超过公司此前在AI 活动中的指引,并预计AI 定制项目将继续增加。 
微信图片_20241031091122.png

海内外科技巨头扩大自研 ASIC,ASIC 服务器占比逐年提高。据 Trendforce 数据,北美云厂商亚马逊、Meta 等持续扩大自研 ASIC,中国本土企业阿里巴巴、百度、华为等积极布局自主 ASIC 方案,促使 ASIC 服务器占整体 AI 服务器的占比在 2024 年预计提升至25%左右。 

(二)UALink:UALink打造开放高速互连标准,旨在打破英伟达NVlink 垄断

科技巨头组团打造 UALink,旨在取代英伟达 NVlink。2024 年 5 月,AMD、博通、思科、Google、惠普、英特尔、Meta 和微软宣布他们已经为 AI 数据中心制定了新的互连技术 UALink(Ultra Accelerator Link),建立 AI 加速器间高速低延迟的开放通信标准,以打破英伟达NVlink 的垄断。UALink 将通过以下方式提高性能: 

低延迟和高带宽:通过 Infinity Fabric 协议,UALink 将实现低延迟和高带宽的互连,适用于AI 和ML 集群中的高性能计算需求。

大规模扩展:UALink 1.0 版规范将允许在AI 容器组中连接不超过1024 个加速器,支持在容器组中挂载到加速器(例如GPU)的内存之间进行直接加载和存储。 

开放性和兼容性:UALink 联盟旨在创建一个开放的行业标准,允许多家公司为整个生态系统增加价值,从而避免技术垄断。

UALink 的最大潜在受益者可能包括微软、亚马逊、谷歌和 Meta 等科技巨头。这些公司已经投入大量资金购买英伟达 GPU 以支持云服务和 AI 模型训练、推理,并期望摆脱对英伟达的依赖,已经陆续推出 AI 自研芯片。UALink 提供了一条复制 NVLink 和NVSwitch 功能的途径,可以促进彼此之间进行合作与成果共享,从而有望加快自研 AI芯片的进度,逐步降低对英伟达的依赖程度。 

(三)以太网:以太网优势日益凸显,加速广泛部署于AI 算力中心

以太网未来有望成为 AI 网络的主流方案,超以太网联盟和英伟达 Spectrum-X 两大阵营初步形成。以太网是 IP 网络最成熟和主流的技术,被广泛应用于园区网络、数据中心和云计算环境以及广域网等场景,具备开放的生态系统,使用标准的以太网设备、线缆和接口卡等,具备性价比高,后期维护成本低等优势,然而其在延时、带宽等方面逊于 IB 网络。

不过,通过专门针对 AI 网络进行优化,以太网能够满足 AI 网络的严格要求,并且能够支持更大的域,头部玩家正在使用以太网来构建 AI 基础设施,如:AWS 将以太网用于其生成式 AI 基础设施,为配备 Trainium2 GPU 的 Ultracluster2(以太网)配备了 60K+ GPU 规模。Meta 正在使用以太网构建其 GenAI 基础设施,其中包含一个 24K GPU 集群。字节跳动已使用以太网部署了一个拥有 10K+ GPU 的 AI 集群。未来随着 AI 算力的快速增长,性价比更高、生态开放的以太网有望成为主流的 AI 网络方案,目前超以太网联盟(UEC)和英伟达Spectrum-X 平台两大阵营竞相发力。 

新一代 AI 以太网技术不仅保留了成本优势,还具备灵活性和开放性,并利用强大的以太网生态系统,有望成为 AI 时代的全新网络架构。AI 以太网技术通过动态路由、智能调度和高级拥塞控制等创新,满足了 AI 应用对高带宽、低延迟和高可靠性的严苛要求,重塑了其在现代数据中心中的价值。随着网络设备商、AI 芯片制造商以及互联网企业对以太网技术的持续投入,各种 AI 以太网技术百花齐放。IDC 预测,生成式 AI 数据中心以太网交换机市场将以 70%的年复合增长率呈指数级增长,将从 2023 年的 6.4 亿美元增长到2028 年的90.7 亿美元。 

超以太网联盟由 AMD、Arista、博通、思科等硬件厂商以及微软、Meta 等云厂商牵头成立,利用以太网的生态优势,致力于打造满足 AI 和 HPC 网络需求的新一代标准用于取代 RoCE 协议超以太网联盟,创建一个“基于以太网的完整通信堆栈架构”,提高网络吞吐量、降低延迟,增强网络的可靠性和稳定性,为人工智能和高性能计算等领域的发展提供更加坚实的网络基础,同时保留以太网/IP 生态系统的优势。

UEC 的目标是提供一个完整的通信协议栈,解决跨越多个协议层的技术问题,并提供易于配置和管理的解决方案。UEC 利用其成员在大规模部署 AI 和 HPC 工作负载方面的丰富经验,提供了一个全面且令人信服的解决方案。 

英伟达 Spectrum-X 使用 NVIDIA BlueField-3 SuperNIC 网卡与 NVIDIA Spectrum-4 交换机协同工作,并特别增强了数据中心环境中的 GPU 到 GPU 通信(也称为东西向网络流量),在拥塞控制、无损网络和负载均衡方面进行了优化,使得其能支持加速计算的严格要求,具体如下: 

基于遥测的拥塞控制:通过将高频遥测探针与流量测量相结合,Spectrum-X 拥塞控制可确保工作负载得到保护,并确保网络提供性能隔离。这意味着各种类型的 AI 工作负载可以同时在共享基础设施上运行,而不会对彼此性能产生负面影响。 

无损网络:Spectrum-X 将配置网络实现无损,从而确保不丢弃数据包并最大限度地降低尾延迟。尾延迟是指一组并行任务中速度最慢的任务所经历的延迟,这将决定操作的整体完成时间。 

动态负载均衡:Spectrum-X 使用细粒度动态路由来最大限度地提高网络利用率,并确保以太网的最高有效带宽。动态路由通过在整个网络中实现逐包负载均衡,避免了传统以太网中静态路由(等价多路径,即 ECMP)或 flowlet 路由的陷阱,而无需深度缓冲区或突发吸收。由于负载均衡意味着数据包可以乱序地到达目的地,NVIDIA BlueField-3 SuperNIC 则确保重新排序数据包,并将其放置在主机内存中,从而对应用程序透明。 

随着 AI 产业迅速发展,AI 算力、运力需求大幅提升,数据网络需要具备更强的稳定性、高性能、高可控以及低成本等特性,传统品牌交换机不同设备厂商互通性偏低,网络运维难度大,管控不能统一,一旦发生错误也很难实现快速定位,并且不利于未来的设备升级和功能扩展。

白盒交换机、裸机交换机以更低成本、更高开放性等优势,受到众多大型云厂商的青睐,未来数据中心交换机有望进一步白盒化、裸机化。其中,裸机交换机仅提供裸机交换机,白盒交换机提供裸机交换机和操作系统。裸机交换机相比白盒交换机更有成本优势,这一优势根本上是由售后服务剥离所带来的,适用于海外数据中心龙头厂商如:亚马逊、谷歌、Meta 等。 

白盒交换机、ODM 直销交换机销售额快速增长,份额仍在提升。IDC 数据显示2024Q2 年全球以太网交换机市场规模达到 102 亿美元,同比-14.1%,环比+15.4%。其中,数据中心部分市场收入同比+7.6%,环比+15.8%。白盒交换机代表厂商 Arista 以太网交换机 2024Q2 收入(其中 90.2%来自数据中心)同比+12.4%,环比+7.0%,使该公司 2024Q2 的市场份额达到 13.5%,较 2023 年全年份额 11.1%有所提升;其在高速交换机的市场份额逐步提高,后续或有望超过传统交换机龙头 Cisco。ODM 直销交换机2024Q2 收入同比+66.9%,占数据中心细分市场收入的 19.1%,较 2023 年全年份额14.3%有所提升。



上一篇:铭普推出模块化储能系统,助力5G基站节费