电子行业点评报告：百万Token时代来临，Rubin CPX重塑推理架构与产业链

股票资讯阅读：183 2025-09-10 12:54:41 评论：0

　　投资要点

　　Rubin CPX切入百万Token痛点，重塑推理架构基础。过去一年，随着生成式AI进入规模化落地阶段，行业对“长上下文”的需求快速上升。无论是企业级知识库问答、代码生成，还是多模态长视频生成，均需要模型在极大输入序列下保持推理准确性与计算效率。然而，现有GPU在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余，导致算力利用率不足。英伟达于2025年9月发布的Rubin CPX，正是为解决这一痛点而生，标志着NVIDIA将推理场景的架构优化推向新高度。Rubin CPX是一款专为“百万级上下文”推理场景设计的专用加速处理器（Contextual Processing eXtension）。其设计目标是通过硬件与架构优化，提升对超长上下文场景的吞吐与能效，并在机架级系统，如VeraRubin NVL144CPX中与Rubin GPU及Vera CPU协同构成面向大规模推理的整体平台。

　　上下文与生成任务分工，实现算力利用率与效率提升。在大模型推理过程中，可大体分为两类任务：一是“上下文分析”，即对超长输入序列进行编码、筛选与压缩，以便后续生成环节调用；二是“生成任务”，即基于上下文信息进行逐Token的预测输出。二者在计算负载和性能需求上差异显著：上下文分析更依赖并行化处理和带宽利用，而生成任务则要求对计算延迟与单步性能进行极致优化。英伟达Rubin CPX定位为“上下文处理加速器”，负责对海量输入做高通量注意力与前置计算；而Rubin系列通用GPU则负责生成/输出阶段的持续带宽密集型任务。官方展示的Vera Rubin NVL144CPX机架中，144个Rubin CPX（context）配合144个Rubin GPU（generation）与36个Vera CPU（调度/通用），共同提供完整服务能力，进而实现资源的高效利用，推理成本降低以及推理响应加速。

　　Rubin CPX30PFLOPS，机架8EFLOPS算力，2026年落地路径明确。从技术参数看，Rubin CPX单卡提供约30PFLOPS（NVFP4精度）的算力，并搭载128GB GDDR7显存，同时内置视频编解码能力，可满足多模态场景需求。官方展示的Vera Rubin NVL144CPX系统，由144张CPX、144张Rubin GPU和36个Vera CPU共同构成，其整体性能指标达到8ExaFLOPS算力、100TB高速内存与1.7PB/s内存带宽，相比上一代GB300NVL72系统在上下文处理效率上实现数倍提升。根据公司规划，Rubin CPX预计将在2026年底上市，与Rubin GPU与Dynamo、TensorRT-LLM等软件工具链一体化部署。

　　海外算力链受益加速，长上下文推理带来新增长动能。从产业角度来看，Rubin CPX的推出不仅是NVIDIA产品线的升级，更意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token推理与长视频生成成为AI应用的标配需求，硬件和软件的耦合度显著提高，算力产业链的价值量同步上升。无论是GPU、存储、网络，还是配套的高速PCB、光模块与封装工艺，相关厂商都有望深度受益。我们认为Rubin CPX的量产与落地，将成为全球算力需求加速释放的重要信号，产业链公司中长期成长空间将更加清晰。

　　产业链相关公司：PCB/CCL：沪电股份、胜宏科技、生益电子、深南电路、景旺电子、广合科技、生益科技、南亚新材；铜缆：沃尔核材、博创科技、华丰科技；光芯片/光器件：博创科技、仕佳光子、太辰光、长光华芯、源杰科技；服务器代工：工业富联、华勤技术

　　风险提示：供应链波动风险，下游需求不及预期，行业竞争加剧。

东吴证券陈海进,解承堯

声明

本站内容源自互联网，如有内容侵犯了您的权益，请联系删除相关内容。本站不提供任何金融服务，站内链接均来自开放网络，本站力求但不保证数据的完全准确，由此引起的一切法律责任均与本站无关，请自行识别判断，谨慎投资。