电子行业点评报告:百万Token时代来临,Rubin CPX重塑推理架构与产业链

股票资讯 阅读:4 2025-09-10 12:54:41 评论:0

  投资要点

  Rubin CPX切入百万Token痛点,重塑推理架构基础。过去一年,随着生成式AI进入规模化落地阶段,行业对“长上下文”的需求快速上升。无论是企业级知识库问答、代码生成,还是多模态长视频生成,均需要模型在极大输入序列下保持推理准确性与计算效率。然而,现有GPU在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余,导致算力利用率不足。英伟达于2025年9月发布的Rubin CPX,正是为解决这一痛点而生,标志着NVIDIA将推理场景的架构优化推向新高度。Rubin CPX是一款专为“百万级上下文”推理场景设计的专用加速处理器(Contextual Processing eXtension)。其设计目标是通过硬件与架构优化,提升对超长上下文场景的吞吐与能效,并在机架级系统,如VeraRubin NVL144CPX中与Rubin GPU及Vera CPU协同构成面向大规模推理的整体平台。

  上下文与生成任务分工,实现算力利用率与效率提升。在大模型推理过程中,可大体分为两类任务:一是“上下文分析”,即对超长输入序列进行编码、筛选与压缩,以便后续生成环节调用;二是“生成任务”,即基于上下文信息进行逐Token的预测输出。二者在计算负载和性能需求上差异显著:上下文分析更依赖并行化处理和带宽利用,而生成任务则要求对计算延迟与单步性能进行极致优化。英伟达Rubin CPX定位为“上下文处理加速器”,负责对海量输入做高通量注意力与前置计算;而Rubin系列通用GPU则负责生成/输出阶段的持续带宽密集型任务。官方展示的Vera Rubin NVL144CPX机架中,144个Rubin CPX(context)配合144个Rubin GPU(generation)与36个Vera CPU(调度/通用),共同提供完整服务能力,进而实现资源的高效利用,推理成本降低以及推理响应加速。

  Rubin CPX30PFLOPS,机架8EFLOPS算力,2026年落地路径明确。从技术参数看,Rubin CPX单卡提供约30PFLOPS(NVFP4精度)的算力,并搭载128GB GDDR7显存,同时内置视频编解码能力,可满足多模态场景需求。官方展示的Vera Rubin NVL144CPX系统,由144张CPX、144张Rubin GPU和36个Vera CPU共同构成,其整体性能指标达到8ExaFLOPS算力、100TB高速内存与1.7PB/s内存带宽,相比上一代GB300NVL72系统在上下文处理效率上实现数倍提升。根据公司规划,Rubin CPX预计将在2026年底上市,与Rubin GPU与Dynamo、TensorRT-LLM等软件工具链一体化部署。

  海外算力链受益加速,长上下文推理带来新增长动能。从产业角度来看,Rubin CPX的推出不仅是NVIDIA产品线的升级,更意味着海外算力基础设施进入“上下文与生成分工协作”的新阶段。随着百万Token推理与长视频生成成为AI应用的标配需求,硬件和软件的耦合度显著提高,算力产业链的价值量同步上升。无论是GPU、存储、网络,还是配套的高速PCB、光模块与封装工艺,相关厂商都有望深度受益。我们认为Rubin CPX的量产与落地,将成为全球算力需求加速释放的重要信号,产业链公司中长期成长空间将更加清晰。

  产业链相关公司:PCB/CCL:沪电股份、胜宏科技、生益电子、深南电路、景旺电子、广合科技、生益科技、南亚新材;铜缆:沃尔核材、博创科技、华丰科技;光芯片/光器件:博创科技、仕佳光子、太辰光、长光华芯、源杰科技;服务器代工:工业富联、华勤技术

  风险提示:供应链波动风险,下游需求不及预期,行业竞争加剧。


东吴证券 陈海进,解承堯
声明

本站内容源自互联网,如有内容侵犯了您的权益,请联系删除相关内容。 本站不提供任何金融服务,站内链接均来自开放网络,本站力求但不保证数据的完全准确,由此引起的一切法律责任均与本站无关,请自行识别判断,谨慎投资。