行业前瞻
行业前瞻 当前位置:首页>行业前瞻

华为对CPO/OIO/光互连/超融合互联架构最新解读!

发布时间: 2024-10-25 11:48:30来源:华为

近期华为《数据中心 2030》报告中指出高算力芯片的IO带宽将越来越高,预计 2030 年,端口速率达 T 级以上。根据第三方的预测,2028年数据中心内将实现 100% 的全光化连接。

随着单路速度提升,100/200Gbps 以上的高速串行通信带来功耗、串扰和散热挑战,传统光电转换接口将无法满足算力增长需要,芯片出光在数据中心连接中的占比将持续提升,相比传统方案芯片出光端到端能耗有望降低至 1/3,成为未来突破带宽瓶颈,实现数据中心绿色发展的关键技术。为了进一步降低功耗,必须要通过缩短 SerDes的距离或者减少 SerDes 的数量来降低功耗,因此在光接口的系统结构上出现了很多新型技术如 OBO、CPO 等,芯片直接出光的CPO 技术已经成为业界热点。

01.

 

降低功耗, 降低SerDes 技术依赖,

CPO/OBO/OIO 技术营运而生

 

华为《数据中心 2030》报告中指出单比特成本和功耗的降低是高速光接口技术发展的持续追求。过去十几年,交换机的容量提升了 80 倍,整体功耗下降 4 倍,其中 ASIC 功耗下降 10 倍,光接口的功耗降低了 3 倍。 虽然光接口的单比特成本和功耗在不断下降,但是下降的速率远落后于交换机ASIC 部分的功耗降低。

究其根本原因,光接口依赖于 SerDes 技术,SerDes 为数模混合的技术,其能效演进低于 ASIC 部分。为了进一步降低功耗,必须要通过缩短 SerDes的距离或者减少 SerDes 的数量来降低功耗,因此在光接口的系统结构上出现了很多新型技术如 OBO、CPO 等,芯片直接出光的CPO 技术已经成为业界热点。

1) 面向数据中心交换机的芯片出光技术——CPO 技术

目前主要的技术路径有两条,分别是基于硅光的技术路线和基于 VCSEL 的技术路线。

硅光技术因其集成度高、CMOS 工艺兼容有望实现低成本的特性成为多通道集成收发机的主要路径。针对硅光平台 CPO 技术光源部分主要有两种思路,一种是可插拔光源池模块技术,考虑到光源部分失效率较高,方便后续更换,将多通道、大功率的激光器芯片封装后组装成可插拔模块置于面板侧,通过保偏光纤与交换芯片的四周的光引擎芯片连接,提供连续的激光源,这也是业界普遍认可的一种光源形态。另一方面,少数厂家具备较强的 III-V/Si 异质集成能力,能够直接在硅光引擎上实现光源的集成,通过采用2:1 备份的方式改善光源的良率,该方式成为第二条光源技术路径。

针对硅光平台的高速调制器部分,当前主要有三种技术路径:第一种是相对成熟的 MZ 调制器技术,由于MZ 尺寸较大(百 um 量级),多通道集成后,光引擎尺寸较大,功耗相对偏高;第二种是微环调制器技术,微环具备小尺寸(几十 um 量级)、低功耗(驱压小)的特点,但是微环调制器需要非常稳定的工作波长跟踪系统;第三种是基于 Ge 材料的 EA 调制器,调制器尺寸也在几十 um 左右,通过法兰兹 -卡尔迪西 (Franz-Keldysh) 效应实现对光的吸收。

业界部分厂商也在推动基于 VCSEL 的 CPO技术,主要原因在于 VCSEL 具有优异的功耗特性(< 5Pj/bit),基本可满足 100m 以内的互联需求,后续通过器件进一步升级为少模或单模的 VCSEL,也有望能够实现 km 级互联长度。当前,VCSEL 较为成熟的器件为25GBd 量级,后续 50GBd 有望在近几年成熟商用,虽然带宽发展趋势上略慢于硅光技术,但 VCSEL 技术可以通过外置合分波器实现波分复用以提高单纤容量,也可以通过阵列化的 VCSEL 器件 /PD 器件配合多芯光纤(~40um 芯间距)实现大容量传输。

2)面向高性能计算的芯片出光技术——光 I/O 技术

高性能计算集群是由高速通信网络连接的强算力平台,高速互联网络的通信能力已经成为 xPU 集群的重要支撑,如何进一步提升互联带宽成为业界关注的重点, I/O 技术开始步入大家的视野,该技术通过将光学收发芯片放进计算芯片封装内,因此也被称为封装内光学连接技术(In-packaged Opitcs)。通过采用该技术可以大幅改善芯片扇出带宽,降低光互联功耗,实现可媲美板内 / 框内电互联的带宽密度 / 功耗水平,同时,又能提供电互联无法达到的互联距离(~km 级),为集群系统互联提供了一种低功耗,大容量的新技术路线。 I/O 技术的具体实现技术路径以硅光技术为主,具体为采用低调制速率(30-60Gbps)的微环总线型波分技术。一方面,在该调制速率区间,具有相对最优的端到端功耗水平(~5pJ/bit),另一方面,利用微环本身的窄带工作特性,实现多路合一的波分型总线,可以大幅扩展边缘互联带宽密度,很容易达到百Gbps/mm,甚至 Tbps/mm 互联密度。当前,

该领域主要研究热点聚焦于密集波分微环调制器的实现,多通道微环调制器的控制,多波长外置光源技术以及先进封装技术等多个技术方向。

高算力芯片的IO带宽将越来越高,预计 2030 年,端口速率达 T 级以上。根据第三方的预测,2028年数据中心内将实现 100% 的全光化连接。

随着单路速度提升,100/200Gbps 以上的高速串行通信带来功耗、串扰和散热挑战,传统光电转换接口将无法满足算力增长需要,芯片出光在数据中心连接中的占比将持续提升,相比传统方案芯片出光端到端能耗有望降低至 1/3,成为未来突破带宽瓶颈,实现数据中心绿色发展的关键技术。

同时数据中心的网络架构也将发生变化,业界已经开始研究新型的光交叉连接技术,通过利用光交换在带宽、端口、低功耗和时延等方面的优势,解决数据中心网络规模和流量带宽两个关键系统需求。

高速光接口(1.6T/3.2T)

数据中心设备之间连接由高速光接口提供,并且根据连接距离不同分为 SR、 FR、LR 等规格,不同传输距离采用的技术方案也会有所不同。高速光接口的速率发展与数据中心的交换机容量以及 SerDes 技术的发展息息相关。交换机容量每 2 年增长翻一番,预计2030年会出现200Tbps/400Tbps交换容量,单端口速率需要增长到 1.6Tbps/3.2Tbps。

光连接技术根据接收技术不同可以分为直检检测技术和相干检测技术。直检检测技术由于成本低、功耗低,在 800GE 之前,为数据中心高速光接口的主要技术。随着速率的提升,直检检测技术受到色散,四波混频等问题的影响,传输距离下降,使得相干技术下沉到数据中心存在了可能。在 800G 时代, IEEE 802.3dJ 针对 10km 场景将会定义相干和直检两条技术路径。但相干技术面临功耗高以及成本高的挑战。未来 1.6T/3.2T 时代,直检技术和相干技术将同时存在。 

直检检测技术在 1.6T /3.2T 时代仍是主力技术路径之一,并沿着 Scale Up 和 Scale Out 同时发展,在 lane 速率持续提升的同时,通过增加光纤或者波分复用技术增加并行路数也将持续发展。800GE 时代延续单 lane 100G 技术并发展了单 lane 200G 的技术。1.6T/3.2T 时代将会依托单 lane 100G, 单lane 200G 技术进行多路复用,或会发展单lane 400G 的技术。如 IEEE 802.3dJ 已立项16*100G 的 1.6TSR 的技术方案。也有公司陆续表达了对 8x200G 构建 1.6T 技术方案的预期,由于其采用 8 波复用的技术方案,将会面临着色散,四波混频等挑战,需要研究新的波长分配方案,色散管理技术,低功耗均衡技术等。对于单 lane 400G 技术,可采用高带宽器件,高阶调制格式,以及偏振复用等技术。

相干技术传统是长距光传输采用的技术方案。由于直检技术面临色散,四波混频等挑战,传输距离不断缩小。业界出现了相干技术下沉到数据中心互联的发展趋势。 相干技术传输性能好,且可以灵活的采用 oDSP进行色散的补偿,但是成本和功耗较高。为了降低成本和功耗,许多高校及企业提出了Coherent-Lite 的概念。例如,利用 DFB 灰光光源,量子点光源等低成本光源代替长途相干使用的 DBR 光源,进一步通过光源池共享光源来降低光源的成本及功耗。通过光域偏振跟踪方案来降低数字信号处理的复杂度,使用分段硅光调制器避免发端 DAC 等技术。

02.

 

超融合互联架构,打通所有芯片物理边界

 

1978 年自 intel 开创 x86 体系以来,计算机体系经过 40 多年的高速发展,衍生出各种物理特性、传输特性和功能特性各不相同的互联协议。如图 3-5 所示,处理器间有 UPI、NVLink、CXL等,处理器与外设及存储之间有 PCIe、CXL、 NVLink、SATA 等,节点间有 Ethernet 和 IB 等。芯片需要为每种接口设计物理层和控制器,实现不同外设功能语义。当通信流量需要跨越协议接口时,协议间的转换会产生桥接的硬件代价、软件开销和功耗代价。

针对多样化连接诉求,需要建立新的超融合互联架构,打通所有芯片物理边界,减少协议转换开销,消除通信软件栈开销,实现更低通信延迟、更大通信带宽和更大互连利用率。

纵向打通 die 内协议

统一互连协议,减少转换,避免片上总线、 PCIe 总线、网络端口带宽逐级收敛,使得端到端互连带宽是处理器端口直出带宽。

横向统一链路接口

提供统一的内存管理机制,让内存语义直达软件,各组件之间可以直接通信,互相调用,实现节点间数据高效流转,提升访存效率,减少通信开销。

· 以数据为中心,构建存算网融合架构

单一类型的计算资源,单一节点的计算能力、存储能力,以及配比固定的扩展模式已经难以满足日益复杂且快速变化的应用部署的需求。同时,海量数据的交互计算,也对数据中心算力效率和互联性能提出挑战,为了提升数据处理效率和存储资源利用率,未来数据中心需要走向“以数据为中心”,满足多样性计算,融合计算、存储、网络的超融合架构。

将计算、通信以及存储承载在统一协议栈上,打破传统分散架构限制,实现从通用计算、高性能计算和存储网络的三张网到一张网的融合部署,统一网络架构,推动无损网络向超融合网络架构演进,预计到 2030 年,超融合以太网络在大型数据中心的渗透率将达到 80%。

架构演进包括两个方面:1)在宏观上存算分离,计算、存储资源独立部署,通过高通量数据总线互联,统一内存语义访问数据,实现 CPU、GPU 等异构计算、存储资源解耦灵活调度,资源利用率最大化。2)在微观上存算一体,围绕数据,近数据处理,减少数据非必要移动,在数据产生的边缘、数据流动的网络中、数据存储系统中布置专用数据处理算力,通过网存算融合提升数据处理效率。

 

03.

 

下一代高性能计算数据中心会几个特征

 

2030 年,人类活动产生的数据量进入 YB 数据时代,从医、食、住、行、城市、企业和能源等多个场景展望,未来数据的存储、计算需求将高速增长。全球每年新增数据只有 5% 被使用,严重阻碍了数据价值的发挥,创新设计下一代高性能计算数据中心越来越重要。华为认为下一代高性能计算数据中心会有以下几个特征:

· 芯片到 DC 的统一可扩展大并行技术

当前计算芯片的算力增长已经落后于数据增长,根据第三方的研究显示,在人工智能方向,计算需求 2 年增长了 750x,摩尔定律驱动的芯片算力只增长了 2 倍。因此下一代数据中心需要支持大并行来缓解芯片算力和应用计算需求之间的矛盾。依托大并行系统,大规模的数据集被分割成无数小块,数据中心的每块计算芯片只需处理其中一个小块,最终满足大数据的计算需求。当前数据中心的并行计算软件中间件分为两个层次:跨节点的 Spark、flink 和 hadoop,节点内芯片级有 CUDA、OpenCL 和 SysCL。未来的数据中心将会发展出从芯片到数据中心的统一可扩展的大并行计算软件中间件。

· 高速对等互联架构

在大并行系统中,新应用、新场景的时效性需求,需要计算芯片实时互相高速通信,交换计算中间结果,然而当前摩尔定律驱动的算力,互联带宽和内存带宽增长严重不平衡,根据第三方的研究显示,在过去 20 年,算力增长了 9 万倍,互联带宽和内存带宽只增长了 30 倍。下一代数据中心需要新的高速互联架构去缓解算力和互联带宽的不平衡,以芯片出光,光交换,动态 Torus 和光互联技术为基础,设计下一代高速互联架构,满足下一代数据中心高带宽和低时延的互联需求。数据中心将会发展出全新一代统一互联协议,消除数据通信协议转换代价,实现对等高速互联。

 

· 无损数据中心网络

ChatGPT 推动 AI 大模型进入万亿参数时代,远超单 GPU 芯片能力,不同 GPU 执行部分任务,并在不同 GPU 间共享结果,需要将大量芯片通过稳定低时延、零丢包的无损网络连接到一起,打造大规模算力集群。业界实践表明时延、丢包将严重制约了 AI 大模型的 GPU 利用率。无损数据中心网络已经成为研究热点,业界已经推出了专为 AI 设计的高性能以太网产品和芯片。

为了实现无损网络,在数据中心内部将引入超融合交换技术,实现零丢包、10us 级的低时延的转发能力。为了保障超算等时延敏感类应用,数据中心网络设备可以参与计算信息汇聚和同步,通过算网协同降低通信时延,提升计算效率。

伴随着数据中心从一个节点走向网络化,跨数据中心也需要具备无损网络的能力,目前运营商正在探索算力与网络相互感知技术,网络可以参与到算力的调度过程之中,为时延敏感类应用提供零丢包、确定时延的通信保障。

· 芯片级长流水技术

为了缓解内存带宽不足的问题,新一代计算芯片需要减少访存频率,长流水技术通过将计算流程分成多个阶段,每个阶段并行处理不同的数据,实现芯片级的大并行,长流水的中间阶段数据不写回内存,减少内存带宽需求,缓解芯片算力和内存带宽之间的不平衡。

 

 

· 分布式多级缓存系统

面向数据中心 2030,需要发展支持分布式多级缓存的新一代缓存系统,持续挖掘数据局部性,减少数据中心长距离的通信需求。

新一代数据中心多级缓存系统由多个层级的缓存组成,每个缓存层级都有不同的容量和速度,通过分布式处理,可以提高计算芯片数据访问速度,减少计算芯片等待时间,并依据数据的使用频率和重要性进行自动管理,充分发掘数据中心的存储资源,提高数据中心的整体吞吐率。

04.

光交叉连接,面向 2030的MEMS OXC以及亚 µs 快速光交叉技术

近年来,业界和学术界广泛研究新型的光交叉(OXC)连接技术,通过利用光交换在带宽、端口、低功耗和时延等方面的优势,解决数据中心网络规模和流量带宽两个关键系统需求。OXC 主要技术方向分为波长级交叉连接和光纤级端口交叉连接,面向 2030,在数据中心场景的重点研究方向是 MEMS OXC以及亚 µs 快速光交叉技术。

1) MEMS OXC

MEMS OXC(Micro-Electro-Mechanical Systems Optical Cross-Connect)是一种基于微机电系统技术的光交叉系统设备,由一对光学准直器组成阵列作为输入和输出(I/O)端口和一对 MEMS 微镜阵列芯片来控制光束,以便任何输入端口都可以连接到任意输出端口,具有高集成度、高速率、低功耗的特点。

2)片上集成光开关

基于片上集成快速光开关使用的关键技术可将片上集成光开关分为五类:热光效应(thermo-optic effect);硅基载流子效应(free carrier effect);泡克耳斯效应(Pockels effect);克尔效应(Kerr effect);波导型MEMS 技术(Si-MEMS)。

热光效应,即利用材料晶格结构对温度敏感的特性,实现对材料折射率的调控。制成的光开关可实现 100μm 量级的超紧凑尺寸、10mW 级开关功耗、亚微秒(sub-µs)量级切换时延;载流子效应是基于硅材料的一种特殊效应,光开关长度在 300 µm-mm 量级,开关时延为 ns 级;泡克耳斯效应和克尔效应均属于非线光学效应,非线性光学效应光开关电光响应时间在 ps-fs 量级,且不产生额外损耗,但是需要更高的驱动电压或更长的器件尺寸;

硅波导微型 MEMS 系统(Si-MEMS)依靠静电力对悬空波导结构的吸引 / 排斥行为直接改变波导物物理间距从而改变光路径,光开关切换速度为亚 µs 量级。相比其他技术,Si-MEMS 可提供更高的隔离度和更低的损耗,并且允许结构尺寸更加紧凑,但 Si-MEMS 依靠移动波导或金属电极结构,限制了开关可靠性和耐久性。

·新光纤介质

下一代数据中心互联的发展趋势是高速率、高密度、低时延、低成本和易运维,新型光纤的应用将对数据中心光互联产生革命性的影响。其中空芯光纤和多芯光纤,由于其特殊和优异的光纤特性,将进一步推动数据中心实现更低时延、更高密度、更低成本的光互联。

1) 空芯光纤

空芯光纤突破了传统石英光纤的局限,其基于反谐振机理,通过特定的包层结构设计,可将光限制在空气纤芯中进行传输,改变了光在光纤中的传输介质,从根本上避免了因材料本征限制而带来的问题。相比实芯光纤,空芯光纤具有低时延、低色散和低非线性等优点。首先,光在空气纤芯中的传输速度是光速,是在玻璃介质中传输速度的 1.5 倍,可大幅缩短 AI 数据中心内各个服务器以及GPU 之间的通讯时延;

其次,由于空芯光纤的传输介质是空气,材料色散低,有助于扩展数据中心内高速光模块的传输距离,降低光互联成本;第三,与低材料色散类似,空气相对于二氧化硅等玻璃材料,其非线性折射率系数小,具有更低的非线性效应,极大程度地抑制了数据中心内光互联产生的信号畸变,保证更好的通信和网络质量。

2)多芯光纤

多芯光纤是多个纤芯共享一个包层,其中每个纤芯都是单模,且纤芯之间的串扰很小,这将使密度比传统单模光纤提高数倍。在多芯光纤中,多路光信号可分别在多个纤芯中同时传输,信号之间串扰小,极大地提高了通信容量,其应用将对数据中心光互联产生革命性的影响。单模代替多模、多芯代替单芯、COBO/CPO 代替热可插拔将是数据中心未来的布线趋势。多芯光纤有潜力成为未来超 800G 的互联方案,可大幅提升光传输容量和频谱效率,节约布线成本和管道资源、降低能耗,且具有多个平行的物理通道,在下一代数据中心布线中更具应用潜力。(来源:华为)

上一篇:光越科技革新之作,Odinopti™激光焊接熔深检测设备:精准洞察,智驭未来焊接工艺

下一篇:铭普推出模块化储能系统,助力5G基站节费