核心概念
Artificial Analysis 與 IBM Software Innovation Lab 於 2026 年 5 月聯合發布 ITBench-AA,這是首個專門評估 AI 模型在企業 IT 代理任務上表現的基準測試系列。首個版本聚焦 Site Reliability Engineering(SRE) 場景,核心結論只有一句話:所有前沿模型得分均低於 50%,使 ITBench-AA SRE 成為目前最未飽和的代理基準之一。
基準測試設計
ITBench-AA SRE 包含 59 個 SRE 任務(40 個公開 + 19 個隱藏),任務場景為 Kubernetes 環境中的事件響應與根因分析,涵蓋:
- 基礎設施故障
- 服務與應用故障
- 混沌注入故障(資源配額耗盡、部署失敗、連接池耗盡、網路分割等)
每個任務提供 Kubernetes 事件快照,包含告警、事件、追蹤、指標、日誌與應用拓撲,要求模型找出導致事件的最小根因實體集合(Deployment、Service、Pod、NetworkPolicy 等)。
所有模型使用同一個開源 Stirrup 參考框架執行,確保「蘋果對蘋果」的公平比較。每個任務限 100 轉次,重複 3 次取平均。
評分方式:精準度優先
評分公式為平均精準度(Average Precision at Full Recall):
- 若模型遺漏任何真實根因 → 得分 0.0
- 若識別所有根因 → 得分 = 精準度(
真陽性 / (真陽性 + 假陽性))
這個設計的含義:模型若把上游故障注入機制或伴隨症狀也一起回傳,會被扣分。評分機制鼓勵精確診斷,而非過度探索。
關鍵要點
1. 前沿模型全部低於 50%
| 模型 | 得分 | 成本/任務 | 平均轉次 |
|---|---|---|---|
| Claude Opus 4.7(Adaptive Reasoning) | 47% | $5.38 | — |
| GPT-5.5(xhigh) | 46% | — | 31 |
| Qwen3.7 Max | 42% | — | — |
| GLM-5.1(Reasoning) | 40% | $1.23 | — |
| Gemini 3.5 Flash(high) | 40% | $1.70 | — |
| DeepSeek V4 Pro(Reasoning) | 38% | — | — |
| Gemma 4 31B(Reasoning) | 37% | $0.14 | 58 |
| Gemini 3.1 Pro Preview | 30% | $2.23 | 83 |
最高分 Claude Opus 4.7 僅 47%,最低 Gemini 3.1 Pro Preview 30%。這與其他已趨近飽和的代理基準(如 Terminal-Bench)形成強烈對比。
2. 轉次多不等於準確率高
GPT-5.5 平均 31 轉次拿到 46%,Gemini 3.1 Pro Preview 用了 83 轉次卻只有 30%。過度探索的模型反而更容易:
- 浮現上游故障注入機制(誤報)
- 識別症狀而非根本原因
這說明在根因分析任務中,「知道何時停止」和「找到正確答案」同樣重要。
3. 開源模型性價比突出
- Gemma 4 31B:$0.14/任務,37%,超越成本高 16 倍的 Gemini 3.1 Pro Preview
- GLM-5.1:$1.23/任務,40%,與 Gemini 3.5 Flash 並列,成本更低
- 「帶推理能力的開源模型」普遍表現優於同代非推理模型
實務應用
SRE 自動化仍遠離生產就緒
ITBench-AA 直接回答了一個對 AI 基礎設施工程師而言最關鍵的問題:現在的 AI 能不能接手 on-call?
答案是明確的「還不行」。47% 的最高分意味著超過一半的 Kubernetes 事故場景,最佳模型仍無法正確定位根因。對於零容錯的生產環境,這個數字遠不夠用。
評估工具本身的設計含義
ITBench-AA 的評分機制偏向「不確定就不要猜」——寧可少報也不要多報,因為誤報的懲罰(精準度下降)與漏報(得分歸零)同樣嚴重。這反映真實 SRE 工作的核心判斷:過度觸發的自動修復比什麼都不做更危險。
下一步:FinOps 與 CISO
ITBench-AA 計劃擴展至財務運營(FinOps)與資訊安全長(CISO)任務,形成完整的企業 IT 代理評估套件。這三個維度合在一起,將是目前最接近「AI 能不能真正幫 IT 部門工作」這個問題的系統性答案。
→ 參見 Open Agent Leaderboard:通用代理系統的開放評估框架、SocialReasoning-Bench:衡量 AI Agent 是否真正代表使用者利益、AI Eval 成本危機:評估比訓練更貴、Agentic AI 企業落地現實:基礎建設障礙與突破策略
延伸觀點
因果智能層可能是破局關鍵
Causely(arXiv 2605.18327)提供了一個直接的反例:在相同的 SRE 故障診斷任務中,若先為 AI Agent 建構結構化的因果模型(拓撲依賴 + 屬性關係),再讓 Claude Code、GPT Codex 等 Agent 在其上推理,根因診斷準確率從 75% 跳升至 100%,token 消耗降低 60%,工具呼叫次數減少 78%。這與 ITBench-AA 的低分現象形成對照:裸跑的 Agent 面對原始遙測數據時,不是模型不夠強,而是缺乏語義錨定,導致大量轉次耗在「讀懂環境」而非「診斷問題」。
基準排名與企業實際需求的落差
Kamiwaza Agentic Merit Index(arXiv 2511.08042)分析了 17 萬個測試項目後發現,傳統基準排名「對實際代理性能的預測能力差」,更新模型不一定比舊版本更適合企業任務。兩篇論文共同支持一個結論:評估 AI Agent 不能只看準確率,應同時考量成本效率、工具調用穩定性、環境上下文消化能力,這正是 ITBench-AA 設計評分機制時強調精準度而非探索廣度的底層邏輯。
綜合來看,ITBench-AA 的 47% 天花板反映的不只是模型能力不足,而是任務所需的結構性脈絡(因果圖、服務拓撲)沒有進入 Agent 的上下文。未來 SRE 自動化的突破路徑,可能不在模型規模,而在 RAG 或工具層的因果知識注入。
反向連結
以下頁面引用了本頁: