发布时间: 2023-02-24 11:04:06来源:光通信观察
近日,CPO概念在国内资本市场异常火热,光通信行业市场资讯机构LightCounting对 Photonics West会议期间召开的CPO论坛上所探讨的问题进行了评论。LightCounting表示,虽然光通信不是本次Photonics West会议的重心,但是CPO论坛上提出的一个问题让人深思:如果网络只占云数据中心总功耗的2%-3%,我们为什么要担心光模块的功耗不断增加?Coherent公司的Vipul Bhat介绍了两年前发表在科学杂志上的一篇文章中的数据,该文章表明,对数据中心功耗不断增加的担忧被高估了。这项研究比较了2010年和2018年所有数据中心的功耗,仅增长了约8%。将这一趋势推断到2022年-2023年,由于数据中心效率的持续改善,表明会有2%-3%非常温和的增长。
这种改善主要有两个原因:工作负载从企业数据中心逐步迁移到云计算公司运营的超大型数据中心,后者的效率更高;服务器和存储的效率稳步提高,这两者是能耗大户。LightCounting指出,网络的功耗在2012年仅占1%,2018年为2%,到2022年约为3%,我们应该关心它吗?
下图展示了LightCounting对云数据中心部署的光模块功耗的计算结果(以年度部署量计算,而不是累积)。请注意,垂直坐标轴是对数刻度,在对数刻度的图表中,任何直线都不应被忽视,因为它表明指数增长。因此在怀疑论者意识到这一点之前,功耗将持续上涨,而解决这个问题可能为时已晚。根据这一分析,2018年-2022年部署在云数据中心的光模块的总功耗加起来为330MW或1.2TWh,略高于目前云数据中心总功耗的1%。问题是,到2028年,预计光模块的功耗将占到其中的8%以上。另外,这一分析也说明了可插拔光模块的功耗效率不断提高:从100G光模块的35pJ/bit到800G光模块的20pJ/bit。
那么到2028年,云数据中心的光模块功耗将占到总功耗的8%,我们是否应该对此感到担忧?LightCounting指出:“是的,我们应该。云计算运营商在为其基础设施提供更多电力等能源方面面临重大限制。如果光学系统消耗更多的资源,他们将被迫减少分配给服务器和存储的预算。”与此同时,人工智能集群的设计受到光连接的高功耗和成本的严重限制。英伟达声称,如果不受功耗和成本的限制,他们现在可以多使用32倍的光器件。AI模型训练的执行需要大规模的GPU阵列,如果供应商能够降低其功耗和成本,高带宽光连接将是最佳解决方案。
Ayar Labs、Broadcom、IBM和Ranovus的下一代CPO设计预计将达到2pJ-3pJ/bit的能耗效率。Rajeev Ram教授是Photonics West的全体会议发言人,也是Ayar Labs的联合创始人,他声称0.1pJ/bit是现有技术在每通道200G时可以做到的。他在麻省理工学院的团队正在研究低电压调制器和改进的探测器,目标是使互连功耗达到0.001pJ/bit或更低。另外,麻省理工学院的一些解决方案将使用非常低的数据(Mbps)速率来降低功耗。Ayar Labs的方法也是基于使用较低速度(64Gbps)的NRZ光器件来达到2pJ/bit。他们是否能在每通道112G NRZ下达到1pJ/bit以下还有待观察。
“我们的行业正处在一个十字路口。”LightCounting表示,我们可以维持现状,继续使用可插拔光模块,并逐步改进。人工智能集群的规模不会那么快,另外在网络带宽限制下,也会有其他方法来优化人工智能模型。另一种选择是承担风险,开发新的光学技术,采用新的封装和光纤耦合设计,以实现成本和功耗效率的彻底改善。这种方法将有利于人工智能的发展,并将光通信行业提升到一个全新的水平。这条路是令人兴奋的,但怀疑论者说得没错,它非常具有挑战性。然而,错过这个机会将是一个错误。LightCounting指出,目前业界讨论最多的CPO,面临的最大挑战还是在封装和低损耗光纤连接等方面。