英伟达发布Rubin CPX芯片,算力效率惊人

原创 <{$news["createtime"]|date_format:"%Y-%m-%d %H:%M"}>  瑞财经 9117阅读 2025-09-10 01:32

Ai快讯 2025年9月9日周二,全球人工智能算力芯片龙头英伟达宣布推出专为长上下文工作负载设计的专用GPU Rubin CPX,旨在翻倍提升当前AI推理运算的工作效率,尤其适用于编程、视频生成等需要超长上下文窗口的应用。

英伟达CEO黄仁勋介绍,CPX是首款专为需要一次性处理大量知识(数百万级别tokens)并进行人工智能推理的模型而构建的芯片。由于Rubin是英伟达将于明年发售的下一代顶级算力芯片,基于Rubin的CPX预计要到2026年底出货。下一代英伟达旗舰AI服务器全称为NVIDIA Vera Rubin NVL144 CPX,集成36个Vera CPU、144块Rubin GPU和144块Rubin CPX GPU。

下一代旗舰机架将提供8exaFLOPs的NVFP4算力,比GB300 NVL72高出7.5倍,同时单个机架就能提供100TB的高速内存和1.7PB/s的内存带宽。英伟达在Rubin GPU边上再配一块Rubin CPX GPU,目的是显著提升数据中心的算力效率,让用户购买芯片能获取更多收益。英伟达称,部署价值1亿美元的新芯片,将能为客户带来50亿美元的收入。

作为行业首创,英伟达的新品在硬件层面上分拆了人工智能推理的计算负载。推理过程包含上下文阶段与生成阶段,这两个阶段对基础设施的要求截然不同。上下文阶段属于计算受限,需要高吞吐量的处理能力来摄取并分析大量输入数据以生成首个输出token;生成阶段则属于内存带宽受限,依赖高速的内存传输和高带宽互联(如NVLink)来维持逐个token的输出性能。

当前顶级的GPU是为内存和网络限制的生成阶段设计,配备昂贵的HBM内存,但在解码阶段并不需要这些内存。通过分离式处理这两个阶段并针对性优化计算与内存资源,可显著提升算力的利用率。

Rubin CPX专门针对“数百万tokens”级别的长上下文性能进行优化,具备30petaFLOPs的NVFP4算力、128GB GDDR7内存。英伟达估计,约20%的AI应用会等待首个token出现,如解码10万行代码可能需5 - 10分钟,多帧、多秒视频的预处理和逐帧嵌入会增加延迟,这也是当前视频大模型通常仅用于制作短片的原因。

英伟达计划以两种形式提供Rubin CPX,一种是与Vera Rubin装在同一个托盘上,对于已下单NVL144的用户,也会单独出售一整个机架的CPX芯片,数量与Rubin机架匹配。

(AI撰文,仅供参考)

来源:瑞财经

重要提示:本文仅代表作者个人观点,并不代表乐居财经立场。 本文著作权,归乐居财经所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至ljcj@leju.com,或点击【联系客服

网友评论