随着生成式 AI 的迅猛发展,数据中心的设计正经历重大转变,重点正从计算性能转向优先考虑 I/O 效率。随着 GPU 间通信量的增加,电气 I/O 效率和功耗已成为关键的设计挑战。在此背景下,由英伟达(NVIDIA)倡导、基于光电集成的新型互连技术——CPO(共封装光学器件)正引发广泛关注。CPO被定位为提升整个AI基础设施(包括GPU、交换机和网络)通信与能效的关键实现架构。
本文概述了NVIDIA的CPO带来的架构转型和物理层要求,同时介绍了SYCATUS的测量解决方案以及ELSFP光源计划,这些方案旨在支持CPO激光器的开发与评估。
目录
- 1. 人工智能时代的数据中心经济与I/O瓶颈
- 2. 光电融合构想的下一代基础设施路线图
- 3. CPO架构带来的结构性变革
- 4. CPO的物理层(PHY)要求
- 5. 由 SYCATUS 支持的 CPO 激光器开发前沿
- 6. 为何NVIDIA CPO将在2025年及2026年之后继续备受瞩目
- 7. 关于CPO激光器评估产品的咨询
1. 人工智能时代的数据中心经济与I/O瓶颈
由海量AI模型驱动的GPU间通信——NVIDIA NVLink的演进
随着生成式AI和大型语言模型(LLMs)的演进,数据中心性能竞争的主要战场正从单纯的计算性能转向GPU间通信(I/O)。
NVIDIA 通过以 NVLink 为核心的高速互连技术实现了 GPU 的规模扩展。Blackwell 架构引入了第五代 NVLink 及 NVLink Switch,每块 GPU 可提供高达 1.8 TB/s 的带宽,并构建了能够连接多达 576 块 GPU 的基础设施。
与此同时,随着AI集群规模的持续扩大,对全系统通信带宽和能效的要求也在不断提升,这使得I/O架构的演进成为关键焦点。
数据中心运营成本(功耗与机架密度)面临的压力
随着AI模型规模的不断扩大,以下挑战已日益凸显:
- GPU间流量呈指数级增长
- 交换机ASIC的端口数量和带宽受限
- 电气I/O导致的传输损耗和功耗增加
当前状况:电气I/O的瓶颈制约着GPU和交换机性能的提升
受上述因素影响,数据中心运营商正面临电力成本、机架密度和冷却能力的三重制约。电气 I/O 已成为整个系统的瓶颈,仅靠提升单个 GPU 或交换机的性能已不足以增强 AI 处理能力。
NVIDIA对CPO(共封装光学器件)的承诺对市场的影响
在此背景下,英伟达对CPO(共封装光模块)的全面投入,绝不仅仅是顺应技术趋势。这应被视为“掌控AI架构的战略选择”。
掌控I/O的企业将定义下一代AI基础设施的架构。CPO将成为实现这一目标的核心技术。
确保“AI 架构领导地位”的产业价值
在AI架构中确立领导地位,是通过主导AI的计算基础来显著提升产业竞争力的关键因素。通过提高数据中心效率、降低成本和环境影响、并最大化AI性能——同时引领行业标准制定——企业能够建立竞争优势。
此外,通过与光子学和量子计算等前沿技术的融合,这将创造新的市场和商业模式,成为塑造未来产业格局的基础。
2. 光电融合构想的下一代基础设施路线图
电气布线无法突破的能效(pJ/bit)瓶颈
随着电气I/O布线长度的增加,
- SerDes为补偿损耗而导致的功耗增加
- 时钟抖动和信号完整性(SI)的恶化
将不可避免。此外,由于电气布线的阻抗较低(*),功耗还会进一步增加。
在当前最先进的技术条件下,已有报道称在特定条件下实现了低于 1 pJ/bit 的能效。然而,在实际系统环境中——包括数据中心级部署、高带宽 SerDes 以及长距离布线——几 pJ/bit 范围内的能效仍然是切实可行的设计目标。
另一方面,光互连技术具有以下优势:
- 与距离无关的低损耗特性
- 高带宽与低功耗
使得亚皮焦耳/比特的能效成为切实可行的选择。
*阻抗:衡量交流电路中电气电阻(电流流动的难易程度)的指标。相对于通信所需的电压幅值,阻抗越低,功耗越高。
为何 CPO 将成为 NVIDIA Quantum-X GPU(Blackwell/Rubin)和交换机的核心技术
NVIDIA Quantum-X 是一种 AI 架构,它将:
- GPU (Blackwell / Rubin)
- NVLink 交换机
- 数据中心网络
整合为单一、优化的 AI 架构。
在此架构中,“电信号向光信号的转换发生点”是决定系统整体效率的关键因素。
CPO 通过以下方式同时解决了 I/O 能耗和可扩展性问题:
- 将光引擎直接集成到交换机/SoC 封装中
- 将电气布线长度缩短至毫米级
注 1:什么是 NVIDIA Quantum 和 Quantum-X?
NVIDIA Quantum 是一个基于 InfiniBand 的高速网络平台,而 Quantum-X 则指一种将整个 AI 数据中心作为单一计算基础进行优化的设计理念。
NVIDIA 的 Co-Packaged Optics (CPO) 交换机集成了硅光子学技术,被定位为下一代 AI 的网络基础。NVIDIA 解释称,与传统的可插拔配置相比,这在能效和网络弹性方面实现了显著提升。(参考:NVIDIA シリコンフォトニクス│NVIDIA Corporation)
注 2:参与 NVIDIA CPO 的企业示例——台积电等
NVIDIA 尚未披露各合作伙伴公司在 CPO 的设计和实施中具体负责哪些领域的细节。不过,根据迄今披露的信息,已知CPO生态系统包含在光器件、封装及制造技术方面具有优势的企业,例如Ayar Labs、Browave、Coherent、康宁(Corning)、Fabrinet、富士康(Foxconn)、Lumentum、Senko、SPIL、住友电工(Sumitomo Electric Industries)、TFC以及台积电(TSMC)。
这组企业涵盖了光学引擎、光纤连接、先进封装及量产工艺等广泛的技术领域,共同构成了支撑英伟达CPO的产业基础。
参考:Nvidia's CPO is the First Step in a Long Journey│LightCounting
未来展望:相干CPO、SiPh(硅光)与小芯片集成
相干CPO、硅光子学(SiPh)以及芯片片集成有望成为支撑未来数据中心和人工智能基础设施的核心技术。整合这些技术可实现高速、低功耗且高度集成的通信与计算,从而显著提升数据中心的效率和可持续性。
传统OSFP方案的挑战何在?
另一方面,采用 OSFP 等传统可插拔光模块方案时,通常将模块安装在交换机或服务器前面板上,这会导致 ASIC 或 GPU 到模块的布线距离相对较长。由于信号损耗和功耗会随着布线距离的增加而上升,因此需要均衡器等补偿电路来维持传输质量。
尽管 OSFP 模块本身具备出色的热设计,适合高密度部署和大功率运行,但随着 AI 集群追求更大的带宽扩展和更高的能效,CPO 正被视为一种能够进一步缩短布线长度的新架构。
3. CPO架构带来的结构性变革
CPO 的精髓不仅在于光模块的微型化,更在于系统设计理念的根本转变。
将光引擎集成到封装中的概念性优势
在 CPO 中,光 I/O 被放置在 SoC 的近旁。这将 SerDes 到光转换的距离缩短至毫米级,从而显著降低了损耗、反射以及噪声的发射和侵入。
SerDes距离缩短至毫米级带来的影响(损耗降低与信号完整性提升)
通过缩短SerDes走线长度,可实现以下效果:
- 简化TX/RX补偿电路
- 降低功耗
- 扩大信号完整性(SI)裕度
这代表了一个传统板级设计无法企及的领域。
“电-光”转换点转移带来的设计理念变革
随着电信号向光信号的转换点逐渐向处理器靠近,I/O 设计正从“分工、边界规范和裕量叠加”的模式,转向“集成、无边界和性能最大化”的设计模式。
通过消除PCB走线和连接器实现的信号损耗降低与功耗减少
通过减少PCB走线和连接器,可将信号损耗和功耗降至最低,从而实现更简单、更高效的系统设计。这既提升了性能,又降低了运营成本。
CPO特有的挑战:对准、安装、可靠性和可维护性
另一方面,CPO 也带来了独特的挑战,包括亚微米级的高精度对准、组装良率、长期可靠性和可维护性。特别是,解决激光特性、热管理以及故障时更换组件的难度至关重要。通过标准化和设计创新来克服这些挑战,是确保以 CPO 为核心的下一代基础设施得到广泛采用并保持竞争力的关键。
4. CPO的物理层(PHY)要求
在CPO中,传统上分别优化光学、电气、热学和机械方面的设计方法已不再有效。由于光电集成发生在封装内部,物理层(PHY)的要求比以往任何时候都更加严格且高度相互依赖。
下文概述了对 CPO 尤为关键的 PHY 要求。
SiPh调制器(硅光子调制器)
CPO 中的光调制器需要基于硅光子学(SiPh)的高速、低损耗设计。鉴于封装内实现的限制,必须同时满足带宽、功耗和热稳定性要求,因此与电驱动器和控制电路的协同设计至关重要。
PAM4 → 相干CPO的未来部署
虽然PAM4调制是当前一代的主流技术,但考虑到带宽的进一步扩展和链路距离的灵活性,相干CPO的未来部署也已提上日程。届时,对激光器线宽和相位噪声的要求将变得更加严格,而物理层(PHY)设计的基本前提也将随之改变。
激光器噪声特性(RIN、线宽)
激光器的RIN(相对强度噪声)和线宽是决定CPO系统整体信噪比(SNR)和裕度的关键参数。特别是在共享光源和高密度部署环境中,激光噪声特性的细微差异都可能影响众多链路的性能,因此定量评估和管理至关重要。
在为CPO评估激光器时,必须以高带宽和高分辨率测量包括RIN和线宽在内的光学噪声特性,并根据实际物理层(PHY)要求进行评估。请点击此处查看SYCATUS激光器评估产品列表,这些产品可实现上述测量与分析。
光纤阵列耦合、透镜阵列与亚微米级对准
CPO天生需要利用光纤阵列和透镜阵列实现高密度光耦合。因此,亚微米级精度的对准技术至关重要,且需要综合考虑机械公差、温度变化及长期可靠性等实施技术。
超短距离SerDes(224G/112G)的阻抗、抖动及CTLE/DFE要求
在电气方面,采用 112G 和 224G 级别的超短距离 SerDes。由于布线长度仅为毫米级,通道特性发生显著变化,因此需要针对阻抗失配、抖动以及 CTLE/DFE 设计概念提供优化的解决方案,这些方案与传统方法有所不同。
迈向信道损耗极限时代(<5 dB)
在 CPO 架构中,ASIC 与光引擎集成于同一封装内,从而大幅缩短了电气通道长度。因此,与传统的板级传输相比,通道损耗可得到显著降低。
在如此低损耗的环境下,SerDes 和 PHY 裕度设计的优化方法可能会发生变化。然而,均衡器等补偿电路在高速信号传输中仍起着关键作用,即使在 CPO 环境下,也需要进行适当的设计和优化。
时钟同步与时序预算重新设计
CPO对时钟同步和时序预算管理的要求与传统的板级设计不同。必须采用一种新的时序设计,以兼顾封装内部和外部的信号路径。
Tj 管理(激光器温度与 SerDes 功耗)
激光器和 SerDes 均高度依赖温度特性。在 CPO 设计中,管理激光器结温 (Tj) 并优化 SerDes 功耗,是确保稳定运行和长期可靠性的关键。
冗余设计及解决非互换性问题
在 CPO 中,由于光器件和 ASIC 集成在同一封装内,因此通常难以像传统可插拔光模块那样轻松地进行现场更换。因此,系统级冗余设计、旨在最大限度降低故障影响的架构设计,以及针对整个集成单元的中位故障时间 (MTTF) 设计至关重要。
OIF/IEEE 的标准化趋势
与传统方法不同,CPO显著缩小了定义规范的范围。由于标准化工作紧随实施之后且由系统驱动,最佳解决方案因系统而异,且实际性能优先于对标准的严格遵守。因此,OIF和IEEE在标准化方面面临的关键挑战是如何与系统需求保持一致。
5. 由 SYCATUS 支持的 CPO 激光器开发前沿
在 CPO 系统中,激光器是决定链路性能、整个系统可靠性、热设计及 PHY 裕度的核心组件。特别是在 CPO 特有的共享光源和高密度封装环境下,低 RIN 和窄线宽等特性比以往任何时候都更为关键。
在 CPO 设计理念中,激光光源不仅需满足规格要求,还需经过优化以最大限度提升 CPO 性能。因此,评估激光光源的 RIN 和线宽需要极高的测量精度和重复性。
为支持符合这些 CPO 要求的激光器开发与评估,SYCATUS 提供了对光源噪声特性进行定量评估所需的测量解决方案。
ELSFP光源的特性
ELSFP光源是一款专为CPO应用设计的激光光源,需同时具备低RIN和窄线宽特性。
此外,考虑到高温升问题在高密度安装环境中常成为难题,这些光源必须在高温工作条件下仍能保持稳定性能。
这些特性构成了光源选型的关键要求,其中需兼顾其与SiPh调制器的组合,以及未来在相干CPO中的潜在应用。
使用A0010A对ELSFP进行RIN表征

在 CPO 的激光评估中,对 RIN(相对强度噪声)进行定量评估至关重要。由于 RIN 直接影响接收机的信噪比(SNR)和系统裕度,因此必须在物理层(PHY)设计阶段确定其数值。
SYCATUS的A0010A RIN测量系统采用高灵敏度、低噪声的50 GHz光接收器以及是德科技(Keysight)的高性能X系列信号分析仪,实现了50 GHz的测量带宽。该系统还通过SYCATUS自主开发的专有校准方法,确保了高精度和高重复性。
利用 A0010A 进行 RIN 表征,可对 ELSFP 光源的噪声特性进行高精度测量与分析。这使得在设计阶段能够对光源进行定量比较,并评估其是否符合系统要求。
使用A0040A对ELSFP进行线宽表征

着眼于未来的高速应用和相干CPO,激光线宽是一项至关重要的评估指标。线宽会影响相位噪声和传输性能,特别是在高阶调制方案中,它决定了系统的极限性能。
SYCATUS的光噪声分析仪A0040A是业界首个能够将激光线宽作为255 MHz宽带宽内光频噪声的功率谱密度进行评估的解决方案。
使用 A0040A 可对 ELSFP 光源的线宽特性进行高分辨率评估,从而为包括 CPO 应用未来可扩展性在内的各项评估提供支持。
SYCATUS产品的应用实绩
SYCATUS 的激光评估解决方案已在全球多个国家得到广泛应用,从研发到量产规划阶段均有成功案例。这些解决方案作为实用的工具,在 CPO、SiPh 以及集成光学引擎等前沿领域,有效连接了设计、评估与实施环节。
相关博客文章:
6. 为何NVIDIA CPO将在2025年及2026年之后继续备受瞩目
NVIDIA的CPO并非仅限于特定一代GPU的技术,而是被定位为一项中长期架构战略,旨在平衡AI基础设施的可扩展性与能效。只要AI模型规模持续增长且数据中心功耗限制依然存在,光电集成技术的重要性预计将日益凸显。
CPO技术有望进一步强化英伟达在GPU、交换机及网络一体化设计方面的优势。
7. 关于CPO激光器评估产品的咨询
SYCATUS提供兼容CPO激光评估的产品与解决方案。欢迎对CPO激光评估产品感兴趣的企业联系我们。

