美國AI領先神話破滅?史丹佛2026報告揭露中國崛起與安全基準雙重危機

美國AI領先神話破滅?史丹佛2026報告揭露中國崛起與安全基準雙重危機

美國AI領先神話破滅?史丹佛2026報告揭露中國崛起與安全基準雙重危機

「美國在AI領域擁有持久領先優勢」——這個支撐華盛頓政策論述的假設,正在被數據一步步瓦解。

史丹佛大學以人為本AI研究所(HAI)發布的2026年《AI Index》年度報告,是一份423頁的AI發展現況評估,涵蓋研究產出、模型表現、投資流向、公開輿論與負責任AI等多個維度。然而,在諸多備受關注的發現之外,有兩個結論尤其值得重視:美中AI實力鴻溝已實質关闭,而AI安全基準測試的落後程度,遠比業界願意承認的更為嚴重。

美中AI差距實質關閉

一直以來,美國在AI發展上領先中國是政策制定者的核心前提。然而根據報告數據,這個前提已不再牢固。

2025年,美國仍產出更多頂級AI模型(50個相較中國的30個),並擁有較高影響力的專利。但在論文數量、引用占比與專利核准數上中國已超越美國。中國在百大被引用AI論文的占比從2021年的33篇成長至2024年的41篇。值得注意的是,南韓在人均AI專利數上領先全球。

這意味著「美國在AI模型性能上擁有持久領先」這個假設,並沒有充分的數據支撐。兩年前存在的差距,如今已收窄至每次重大模型發布都會改變結果的程度。

報告還指出一個更深層的结构性脆弱:美國對中國的晶片出口管制,並未如政策制定者所願阻止中國AI能力的提升。

AI安全基準:大面積留白

幾乎每個前沿模型開發商都會在能力基準上報告成績。但在安全與負責任AI的評估上,情況却大不相同。

報告中安全與負責任AI的基準表格,大部分欄位是空的。只有Claude Opus 4.5在超過兩個負責任AI基準上有報告成績;只有GPT-5.2報告了StrongREJECT。在衡量公平性、安全性與人類代理權的基準上,大多數前沿模型什麼都沒有報告。

這並不意味 Frontier Labs 沒有進行內部安全測試。報告承認紅隊演練與對齊測試確實存在,但「這些努力很少使用共同、可外部比較的基準集來披露」。後果是:大多數模型在AI安全維度上的外部比較,實際上是不可能的。

AI事故持續飆升

根據AI事故資料庫,2025年記錄的AI事故從2024年的233起增至362起。OECD的AI事故與危害監控系統(使用更廣泛的自動化管道)在2026年1月創下每月435起的高峰,六個月移動平均值為326起。

組織層面的治理回應正在掙扎。根據AI Index與麥肯錫的調查,將自身AI事故應對能力評為「優秀」的组织從2024年的28%下降至2025年的18%;評為「良好」的比例也從39%降至24%。與此同時,經歷3到5起事故的组织比例從30%升至50%。

報告也指出負責任AI改善本身存在结构性問題:在一個維度上的進步往往會降低另一個維度的表現。例如改善安全性可能降低準確度,或改善隱私可能減少公平性。目前沒有管理這類取捨的成熟框架,在公平性與可解釋性等若干維度上,追蹤進展所需的標準化數據尚不存在。

專家與公眾的尖銳鴻溝

在全球範圍內,59%的人認為AI的優點多於缺點,較2024年的55%上升。但同時有52%的人對AI產品和服務感到緊張,比去年上升2個百分點。兩個數字同時上升,反映出公眾在越來越多使用AI的同時,却越來越不確定它將走向何方。

專家與公眾在AI對就業影響上的分歧尤其尖銳。根據報告,73%的AI專家認為AI對人們工作方式有正面影響,但一般公眾中只有23%持同樣看法——差距達50個百分點。在經濟影響上,差距為48個百分點(專家69%正面對比公眾21%)。在醫療照護上,專家明顯更樂觀(84%),公眾則為44%。

這些差距很重要,因為公眾信任塑造監管結果,而監管結果決定AI如何被部署。在這方面,報告指出一個驚人事實:在所有受調查國家中,美國對本國政府負責任監管AI的信任度最低,只有31%。全球平均值為54%。東南亞國家最信任政府監管能力,新加坡達81%,印尼達76%。

在全球範圍內,歐盟在有效監管AI方面比美國或中國更受信任。在皮尤研究中心2025年的調查中,在25個國家中,美國和中國的信任度都偏低。

東南亞最樂觀

報告在公眾輿論章節的結尾指出,東南亞國家仍是全球對AI最樂觀的地區。在中國、馬來西亞、泰國、印尼和新加坡,超過80%的受訪者認為AI在未來三到五年將深刻改變他們的生活。馬來西亞在2024至2025年間對這一觀點的認同增幅最大。

這份報告的核心訊息並不複雜:AI技術正在以前所未有的速度發展,但確保其安全的機制——無論是基準測試、治理回應還是公眾信任——都落後於技術本身。這不是一個可以靠「相信業者會自我約束」就能解決的問題。


來源