OpenAI GPT-5.5 登場:地表最強代理 AI 模型定價公開

OpenAI 於 2026 年 4 月 23 日發布 GPT-5.5,宣稱這是「為真實工作與代理 AI 打造的新一代智慧」,是從頭開始設計、用於規劃、使用工具、檢查輸出並獨立完成任務的代理 AI 模型。
模型設計與硬體基礎
GPT-5.5 是自 GPT-4.5 以來首個重新訓練的基礎模型,與 NVIDIA 的 GB200 和 GB300 NVL72 機架級系統共同設計。OpenAI 表示,使用 GPT-5.5 過去需要多次提示與人類「修正」的任務,現在可以更完整地交付給模型處理。該模型已向 Plus、Pro、Business 與 Enterprise 用戶在 ChatGPT 與 Codex 中推出,API 訪問則於 4 月 24 日開放。
Benchmark 表現
OpenAI 宣稱的最強表現落在 Terminal-Bench 2.0,這是一個測試命令列工作流程(需規劃與工具協調)的基準。GPT-5.5 得分 82.7%,對比 GPT-5.4 的 75.1% 與 Claude Opus 4.7 的 69.4%。
在 SWE-Bench Pro(評估 GitHub 問題解決)中,GPT-5.5 達到 58.6%,單次通過解決的問題數量超越前代。OpenAI 也引入了 Expert-SWE 內部基準——任務的人類完成時間中位數為 20 小時,GPT-5.5 得分 73.1%,從 68.5% 提升。
在長上下文推理方面,MRCR v2(百萬 Token 檢索基準)測試模型是否能在大型文件中找到埋藏的特定答案,GPT-5.5 得分 74.0%,對比 GPT-5.4 的 36.6%。
但在 Scale AI 的 Model Context Protocol(MCP)工具使用基準 MCP Atlas 上,Claude Opus 4.7 以 79.1% 領先,GPT-5.5 沒有記錄分數。OpenAI 在自己的基準表格中主動列入該缺漏,至少顯示其對整體表現的信心。
Token 效率與定價現實
API 定價為每百萬輸入 Token 5 美元、輸出 Token 30 美元,恰好是 GPT-5.4 的兩倍。OpenAI 的辯護是:GPT-5.5 完成相同的 Codex 任務時,所需的 Token 數量比 GPT-5.4 少,將效率納入考量後實際成本約高出 20%,這一人工智慧分析獨立測試實驗室已驗證。
GPT-5.5 Pro(提供給 Pro、Business 與 Enterprise 用戶)定價為輸入 Token 每百萬 30 美元、輸出 Token 每百萬 180 美元,在更難的問題上應用額外的並行測試時間計算,在 OpenAI 的代理網頁瀏覽基準 BrowseComp 上以 90.1% 領先公開可用模型。
在每月 1000 萬輸出 Token 的規模下,GPT-5.5 標準版成本 300 美元,對比 Claude Opus 4.7 的 250 美元——這 20% 的差距只有在模型卓越的代理性能意味著更少的任務迭代與更少的重試時才值得,數學計算因使用場景而異。
OpenAI 表示,目前部門內每週使用 Codex 的員工超過 85%,包括工程與行銷團隊。在一個範例中,公關團隊使用 GPT-5.5 處理六個月的演講邀請數據,模型能夠建立評分與風險框架,協助自動化低風險審批。
OpenAI 總裁 Greg Brockman 將此次發布描述為「真正邁向我們預期未來運算的一步」,首席科學家 Jakub Pachocki 指出過去兩年的模型進展感覺「令人驚訝地緩慢」。
OpenAI 宣稱 GPT-5.5 在生產服務中達到與 GPT-5.4 相同的每 Token 延遲,同時表現出更高水平的智慧;更大、更強的模型通常服務速度更慢,但這次避免了這個取捨。
基準領先是否轉化為運行真實代理管道的團隊的生產效益,將是未來幾週需要好好回答的問題。
來源:
- GPT-5.5 is OpenAI’s most capable agentic AI model yet(2026年4月29日,HTTP 200 驗證 ✓)