NVIDIA 與 Google 聯手降低 AI 推理成本十倍

在 Google Cloud Next 大會上,Google 與 NVIDIA 公布了雙方的硬體路線圖,旨在大幅降低大規模 AI 推理的成本。
A5X 實例:硬體與軟體協同設計
雙方詳細介紹了運行在 NVIDIA Vera Rubin NVL72 機架級系統上的全新 A5X bare-metal 實例。透過硬體與軟體的协同設計,這個架構的目標是實現:
- 每 token 推理成本比上一代降低十倍
- 每千兆瓦吞吐量提高十倍
連接數千個處理器需要巨大的頻寬來防止處理延遲。A5X 實例透過結合 NVIDIA ConnectX-9 SuperNIC 與 Google Virgo 網路技術來解決這個硬體挑戰。
史上最大規模的 GPU 叢集
此配置可擴展至單站點叢集中的 80,000 個 NVIDIA Rubin GPU,以及多站點部署中的 960,000 個 GPU。在這種規模下運行需要複雜的工作負載管理,因為在近百萬個平行處理器之間路由數據需要精確的同步,以避免運算資源閒置。
Google Cloud AI 與運算基礎設施副總裁 Mark Lohmeyer 表示:「我們相信,AI 的下一個十年將由客戶在最需求迫切的工作負載上運行的能力所塑造,這些工作負載需要一個真正整合、經過 AI 優化的基礎設施堆疊。」
數據主權與雲端安全
除了原始運算能力外,數據治理仍然是企業部署的首要問題。金融和醫療等高度監管的產業常因數據主權要求而延後機器學習計畫。
為了解決這些合規要求,運行在 NVIDIA Blackwell 和 Blackwell Ultra GPU 上的 Google Gemini 模型現已在 Google Distributed Cloud 上進入預覽狀態。此部署方式允許組織在他們控制的環境中保留前沿模型以及最敏感的資料。
該架構整合了 NVIDIA Confidential Computing。這種硬體級安全協定確保訓練模型在受保護的環境中運行,提示詞和微調資料保持加密狀態。
Agentic AI 訓練的營運開銷
構建多步驟的 agentic 系統需要將大型語言模型連接到複雜的應用程式介面、維護向量資料庫的持續同步,並在執行過程中積極緩解演算法幻覺。
為簡化這些繁重的工程需求,NVIDIA Nemotron 3 Super 現在已在 Gemini Enterprise Agent Platform 上可用。該平台為開發者提供了工具,可針對 agentic 任務客製化和部署推理和多模態模型。
加速運算生態系統的影響
Google Cloud 與 NVIDIA 推出了 Managed Training Clusters,內建基於 NVIDIA NeMo RL 建構的受控強化學習 API。這個系統自動化叢集大小調整、故障復原和任務執行,讓資料科學團隊能夠專注於模型品質而非底層基礎設施管理。
CrowdStrike 積極使用 NVIDIA NeMo 開放式函式庫(包括 NeMo Data Designer 和 NeMo Megatron Bridge)來生成合成資料並針對特定領域的網路安全應用程式微調模型。
從完整 NVL72 機架到_fractional G4 VMs(僅提供八分之一 GPU)的廣泛產品組合,讓客戶能夠精確配置專家混合推理和資料處理任務的加速能力。