Google 與 NVIDIA 聯手推 A5X 實例：AI 推論成本降至十分之一

Google 與 NVIDIA 在 Cloud Next 大會發表新一代 AI 基礎設施，A5X 實例採用 Vera Rubin NVL72 系統，推論成本與能耗效率皆提升十倍。同時推出機密運算與托管訓練叢集，為金融、醫療等高度監管產業提供安全合規的 AI 部署方案。

在 Google Cloud Next 大會上，Google 與 NVIDIA 共同發布了硬體發展藍圖，旨在大幅降低大規模 AI 推論的成本。兩家公司詳細介紹了全新 A5X 裸機實例，該實例執行於 NVIDIA Vera Rubin NVL72 機架級系統。透過硬體與軟體的协同設計，這項架構目標是將每個 Token 的推論成本降低至前一代的十分之一，同時實現每百萬瓦功率十倍的 Token 產量提升。

連接數千個處理器需要龐大頻寬，以防止處理延遲。A5X 實例透過結合 NVIDIA ConnectX-9 SuperNIC 與 Google Virgo 網路技術來解決這項硬體挑戰。此配置可擴展至單站點叢集中的 80,000 個 NVIDIA Rubin GPU，並可在多站點部署中擴展至 960,000 個 GPU。在近一百萬個平行處理器之間路由資料需要精確同步，以避免運算時間閒置，因此這種規模的運作需要複雜的工作負載管理。

Google Cloud AI 與運算基礎設施副總裁 Mark Lohmeyer 表示：「在 Google Cloud，我們相信 AI 的下一個十年將由客戶在我們真正整合、經過 AI 最佳化的基礎設施堆疊上執行最嚴苛工作負載的能力所決定。透過結合 Google Cloud 的可擴展基礎設施與受管 AI 服務，以及 NVIDIA 的領先平台、系統和軟體，我們為客戶提供彈性來訓練、調整和提供從前沿模型、開放模型到代理型與物理 AI 工作負載的所有，同時最佳化性能、成本和永續性。」

主權資料治理與雲端安全需求

除了原始運算能力外，資料治理仍然是企業部署的主要議題。金融和醫療等高度監管產業常因資料主權要求和暴露專有資訊的風險而延遲機器學習計畫。

為了解決這些合規要求，執行於 NVIDIA Blackwell 和 Blackwell Ultra GPU 上的 Google Gemini 模型現已在 Google Distributed Cloud 上進入預覽階段。這種部署方式允許組織將前沿模型完全保留在他們受控的環境中，與最敏感的資料儲存一起。該架構整合了 NVIDIA Confidential Computing，這種硬體級安全協定確保訓練模型在受保護的環境中運作，提示和微調資料保持加密狀態。此加密防止未經授權的方（包括雲端基礎設施營運商本身）查看或更改底層資料。

對於多租戶公用雲端環境，配備 NVIDIA RTX PRO 6000 Blackwell GPU 的 Confidential G4 VM 預覽版引入了這些相同的加密保護，讓受監管產業能夠在不違反資料隱私標準的情況下使用高效能硬體。此版本代表首個基於雲端的 NVIDIA Blackwell GPU 機密運算產品。

代理型 AI 訓練的營運開銷

建立多步驟代理型系統需要將大型語言模型連接到複雜的應用程式介面、維護持續的向量資料庫同步，並在執行過程中積極緩解演算法幻覺。

為了簡化這項龐大的工程需求，NVIDIA Nemotron 3 Super 現在可在 Gemini Enterprise Agent Platform 上使用。該平台為開發者提供工具，可自訂和部署專為代理型任務設計的推理和多模態模型。更廣泛的 NVIDIA 平台在 Google Cloud 上針對各種模型進行了最佳化，包括 Google 的 Gemini 和 Gemma 系列，為開發者提供建構能夠推理、規劃和行動的系統的工具。

大規模訓練這些模型會帶來大量的營運開銷，特別是在漫長的強化學習週期中管理叢集大小和硬體故障時。Google Cloud 和 NVIDIA 在 Gemini Enterprise Agent Platform 上引入了托管訓練叢集，其中包含使用 NVIDIA NeMo RL 構建的受管強化學習 API。該系統自動化叢集大小調整、故障復原和任務執行，讓資料科學團隊能夠專注於模型品質而非底層基礎設施管理。

CrowdStrike 積極使用 NVIDIA NeMo 開放函式庫，包括 NeMo Data Designer 和 NeMo Megatron Bridge，來生成合成資料並微調用於特定領域網路安全應用的模型。在配備 Blackwell GPU 的托管訓練叢集上執行這些模型，可加速他們的自動化威脅偵測和回應能力。

跨加速運算生態系的影響

將這些硬體規格轉化為可量化的財務回報需要檢視早期採用者如何使用該基礎設施。

廣泛的產品組合包括從完整 NVL72 機架到僅提供八分之一 GPU 的_fractional G4 VM_的各種選項。這讓客戶能夠精確地為專家混合推理和資料處理任務配置加速能力。

Thinking Machines Lab 擴展其 Tinker API 以使用 A4X Max VM 加速訓練。OpenAI 在 Google Cloud 上使用大規模推論的 NVIDIA GB300 和 GB200 NVL72 系統來處理 demanding 工作負載，包括 ChatGPT 運算。

Snap 將其資料管線遷移至 Google Cloud 上的 GPU 加速 Spark，以削減與大規模 A/B 測試相關的高昂成本。在製藥領域，Schrödinger 使用 Google Cloud 上的 NVIDIA 加速運算，將過去需要數週的藥物發現模擬壓縮至數小時內完成。

在一年內，超過 90,000 名開發者加入了 NVIDIA 與 Google Cloud 聯合開發者社群。像 CodeRabbit 和 Factory 這樣的新創公司在 Google Cloud 上使用 NVIDIA Nemotron 基礎模型來執行程式碼審查和運行自主軟體開發代理。Aible、Mantis AI、Photoroom 和 Baseten 使用全堆疊平台建構企業資料、影片智慧和生成影像解決方案。

總體而言，NVIDIA 與 Google Cloud 旨在提供一個運算基礎設施，旨在將實驗性代理和模擬推進至可保護車隊和在物理世界中最佳化工廠的生產系統。

來源：

NVIDIA and Google infrastructure cuts AI inference costs（AI News）