开云app NVIDIA发明全新的LPU! 500MB高速缓存 7倍带宽碾压HBM4

发布日期：2026-03-18 15:49 点击次数：101

CPU、GPU、NPU、VPU、DPU、TPU、PPU、IPU……之后，XPU眷属再添新成员！

NVIDIA创造了全新的“LPU”，兴味是“Language Processing Unit”，即言语处分单位。

它是一款专用的AI推理加快芯片，基于NVIDIA旧年收购的Groq，专攻低蔓延解码与交互式推理，与主打履行和通用缱绻的GPU造成互补，共同撑抓AI从履行到落地的全经由。

NVIDIA Rubin Vera平台之前就还是包含六种不同芯片：Rubin GPU加快器、Vera CPU处分器、Bluefield 4 DPU数据处分单位、ConnectX 9智能网卡、NVLink 6纵向膨胀交换机、Spectrum-X横向膨胀交换机。

如今，Groq 3 LPU又加入了这一天下庭。

HJC黄金城官方首页入口

Groq 3 LPU集成了980亿个晶体管，结构很浅易便是多达500MB SRAM(静态随即存取存储器)，也便是CPU、GPU上管用的缓存单位。

诚然它在容量上远不足288GB HBM4，米兰体育app官网然则可提供150TB/s的惊东谈主带宽，远远逾越HBM4 22TB/s 7倍之多。

要知谈，AI解码操作是荒谬渴求带宽的，Groq 3适值不错完饱昌盛，开云况且蔓延要低得多。

同期，Groq 3 LPU的FP8精度算力达到了1.2PFlops(每秒1200万亿次)。

基于此，NVIDIA打造了Groq 3 LPX机架，包括256颗Groq 3 LPU，缓存总容量达128GB SRAM，带宽则是可怕的40PB/s。

机架之间通过640TB/s带宽的专用纵向膨胀接口相连起来，全体AI推理算力达到315PFlops(每秒31.5亿亿次)。

Groq LPX定位是Rubin Vera平台的协处分器，不错加快AI模子每一层的每个token处分，提高解码性能。

它还为多智能体系统作念好了准备，这被视为AI的下一个前沿领域，需要在对万亿参数模子进行推理、处分百万token高下文窗口的同期，保抓交互性能。

Rubin GPU连合Groq LPU，将把当下每秒100个token的糊涂量，推向每秒1500个token以至更多，从而完好撑抓AI智能体交互场景。

开云app