CES甫開展,輝達(NVIDIA)即宣布以BlueField-4資料處理器(DPU)為核心,推出「推論情境記憶儲存平台」(NVIDIA Inference Context Memory Storage Platform),瞄準代理型AI(agentic AI)走向長情境、多回合推理後,推論所產生的龐大「鍵值快取」(KV cache)資料,正快速成為新一代資料中心的瓶頸。
輝達點出關鍵轉折:當AI模型擴展到數兆參數、推理步驟變多,推論會產生大量以KV快取表示的情境資料,這些資料直接影響回應的「連續性」與使用體驗;但KV快取不可能長期留在GPU記憶體內,否則會讓多代理系統的即時推論被卡住,因此AI原生應用需要全新、可擴充的基礎架構去「儲存並分享」這些資料。
從「HBM 工作記憶」到「機架內情境記憶」:為什麼儲存變成AI的新戰場
黃仁勳用更直白的方式來描述KV快取的運作:每生成一個token,GPU會讀入模型與「工作記憶」(KV快取),產出新token後再寫回KV快取;對話越長、模型越大、回合越多,情境記憶就會「長到」HBM放不下。
他提到,過去一年輝達透過把Grace直接連到Hopper/Blackwell來擴充「快速情境記憶」,但「即使這樣也不夠」,若再把情境記憶丟到傳統北南向網路、回到企業既有儲存系統,多AI併發時網路終將跟不上,因此答案是「做一個不同的架構」:把高速KV快取/情境記憶直接放進機架。

BlueField-4:讓KV快取「可共享、可重用、可隔離」,把推論效率推上新曲線
依輝達說法,推論情境記憶儲存平台可擴展GPU記憶容量並在節點間高速共享,將每秒處理token的數量提升「多達5倍」,能源效率相較傳統儲存也可提升「高達5倍」。
黃仁勳更把這項變化上升到「整個運算堆疊」的層次。他表示:「AI正在徹底革新整個運算堆疊,而現在輪到儲存空間……透過BlueField-4,NVIDIA與軟硬體合作夥伴,正重新改造儲存堆疊,迎向AI的下一個前沿。」
在技術路徑上,輝達把BlueField-4放在「情境資料流」的核心:透過DOCA框架在AI節點間智慧加速KV快取共享,並與NIXL函式庫、Dynamo軟體緊密整合,用來最大化token生成量、縮短首次生成token的時間,並改善多回合回應能力;同時,BlueField-4管理的硬體加速KV快取放置,目標是消除metadata成本、減少資料移動,並確保從GPU節點的「安全隔離存取」。
在網路層,這套AI原生KV快取存取也把Spectrum-X乙太網路拉進來:輝達表示,Spectrum-X支援高效資料共享與檢索,為基於RDMA的KV快取存取提供高效能網路架構。
儲存大廠搶先卡位,2026下半年上線
值得注意的是,輝達把這波「儲存重塑」與資料中心部署型態的變化綁在一起。輝達指出,當AI工廠愈來愈採用裸機與多租戶部署,維持強大的基礎設施控制與隔離變得至關重要;BlueField-4 因此引進ASTRA(Advanced Secure Trusted Resource Architecture),作為系統級信任架構,提供「單一且受信任的控制點」,用以安全地佈建、隔離及營運大規模AI環境,且不影響效能。 (相關報導: CES 2026》宣告AI PC主流化元年!AMD推出60 TOPS處理器與「Halo」開發平台 | 更多文章 )
輝達表示,包含 AIC、Cloudian、DDN、戴爾科技集團、慧與科技、Hitachi Vantara、IBM、Nutanix、Pure Storage、Supermicro、VAST Data與WEKA等儲存業者,已率先採用BlueField-4打造新一代AI儲存平台,產品預計在2026年下半年上市。














































