核心概念

Artificial Analysis 與 IBM Software Innovation Lab 於 2026 年 5 月聯合發布 ITBench-AA,這是首個專門評估 AI 模型在企業 IT 代理任務上表現的基準測試系列。首個版本聚焦 Site Reliability Engineering(SRE) 場景,核心結論只有一句話:所有前沿模型得分均低於 50%,使 ITBench-AA SRE 成為目前最未飽和的代理基準之一。

基準測試設計

ITBench-AA SRE 包含 59 個 SRE 任務(40 個公開 + 19 個隱藏),任務場景為 Kubernetes 環境中的事件響應與根因分析,涵蓋:

  • 基礎設施故障
  • 服務與應用故障
  • 混沌注入故障(資源配額耗盡、部署失敗、連接池耗盡、網路分割等)

每個任務提供 Kubernetes 事件快照,包含告警、事件、追蹤、指標、日誌與應用拓撲,要求模型找出導致事件的最小根因實體集合(Deployment、Service、Pod、NetworkPolicy 等)。

所有模型使用同一個開源 Stirrup 參考框架執行,確保「蘋果對蘋果」的公平比較。每個任務限 100 轉次,重複 3 次取平均。

評分方式:精準度優先

評分公式為平均精準度(Average Precision at Full Recall)

  • 若模型遺漏任何真實根因 → 得分 0.0
  • 若識別所有根因 → 得分 = 精準度(真陽性 / (真陽性 + 假陽性)

這個設計的含義:模型若把上游故障注入機制或伴隨症狀也一起回傳,會被扣分。評分機制鼓勵精確診斷,而非過度探索。


關鍵要點

1. 前沿模型全部低於 50%

模型 得分 成本/任務 平均轉次
Claude Opus 4.7(Adaptive Reasoning) 47% $5.38
GPT-5.5(xhigh) 46% 31
Qwen3.7 Max 42%
GLM-5.1(Reasoning) 40% $1.23
Gemini 3.5 Flash(high) 40% $1.70
DeepSeek V4 Pro(Reasoning) 38%
Gemma 4 31B(Reasoning) 37% $0.14 58
Gemini 3.1 Pro Preview 30% $2.23 83

最高分 Claude Opus 4.7 僅 47%,最低 Gemini 3.1 Pro Preview 30%。這與其他已趨近飽和的代理基準(如 Terminal-Bench)形成強烈對比。

2. 轉次多不等於準確率高

GPT-5.5 平均 31 轉次拿到 46%,Gemini 3.1 Pro Preview 用了 83 轉次卻只有 30%。過度探索的模型反而更容易:

  • 浮現上游故障注入機制(誤報)
  • 識別症狀而非根本原因

這說明在根因分析任務中,「知道何時停止」和「找到正確答案」同樣重要。

3. 開源模型性價比突出

  • Gemma 4 31B:$0.14/任務,37%,超越成本高 16 倍的 Gemini 3.1 Pro Preview
  • GLM-5.1:$1.23/任務,40%,與 Gemini 3.5 Flash 並列,成本更低
  • 「帶推理能力的開源模型」普遍表現優於同代非推理模型

實務應用

SRE 自動化仍遠離生產就緒

ITBench-AA 直接回答了一個對 AI 基礎設施工程師而言最關鍵的問題:現在的 AI 能不能接手 on-call?

答案是明確的「還不行」。47% 的最高分意味著超過一半的 Kubernetes 事故場景,最佳模型仍無法正確定位根因。對於零容錯的生產環境,這個數字遠不夠用。

評估工具本身的設計含義

ITBench-AA 的評分機制偏向「不確定就不要猜」——寧可少報也不要多報,因為誤報的懲罰(精準度下降)與漏報(得分歸零)同樣嚴重。這反映真實 SRE 工作的核心判斷:過度觸發的自動修復比什麼都不做更危險。

下一步:FinOps 與 CISO

ITBench-AA 計劃擴展至財務運營(FinOps)與資訊安全長(CISO)任務,形成完整的企業 IT 代理評估套件。這三個維度合在一起,將是目前最接近「AI 能不能真正幫 IT 部門工作」這個問題的系統性答案。

→ 參見 Open Agent Leaderboard:通用代理系統的開放評估框架SocialReasoning-Bench:衡量 AI Agent 是否真正代表使用者利益AI Eval 成本危機:評估比訓練更貴Agentic AI 企業落地現實:基礎建設障礙與突破策略

延伸觀點

因果智能層可能是破局關鍵

Causely(arXiv 2605.18327)提供了一個直接的反例:在相同的 SRE 故障診斷任務中,若先為 AI Agent 建構結構化的因果模型(拓撲依賴 + 屬性關係),再讓 Claude Code、GPT Codex 等 Agent 在其上推理,根因診斷準確率從 75% 跳升至 100%,token 消耗降低 60%,工具呼叫次數減少 78%。這與 ITBench-AA 的低分現象形成對照:裸跑的 Agent 面對原始遙測數據時,不是模型不夠強,而是缺乏語義錨定,導致大量轉次耗在「讀懂環境」而非「診斷問題」。

基準排名與企業實際需求的落差

Kamiwaza Agentic Merit Index(arXiv 2511.08042)分析了 17 萬個測試項目後發現,傳統基準排名「對實際代理性能的預測能力差」,更新模型不一定比舊版本更適合企業任務。兩篇論文共同支持一個結論:評估 AI Agent 不能只看準確率,應同時考量成本效率、工具調用穩定性、環境上下文消化能力,這正是 ITBench-AA 設計評分機制時強調精準度而非探索廣度的底層邏輯。

綜合來看,ITBench-AA 的 47% 天花板反映的不只是模型能力不足,而是任務所需的結構性脈絡(因果圖、服務拓撲)沒有進入 Agent 的上下文。未來 SRE 自動化的突破路徑,可能不在模型規模,而在 RAG 或工具層的因果知識注入。

反向連結

以下頁面引用了本頁: