ITBench-AA：企業 SRE 代理任務首個基準測試

核心概念

Artificial Analysis 與 IBM Software Innovation Lab 於 2026 年 5 月聯合發布 ITBench-AA，這是首個專門評估 AI 模型在企業 IT 代理任務上表現的基準測試系列。首個版本聚焦 Site Reliability Engineering（SRE） 場景，核心結論只有一句話：所有前沿模型得分均低於 50%，使 ITBench-AA SRE 成為目前最未飽和的代理基準之一。

基準測試設計

ITBench-AA SRE 包含 59 個 SRE 任務（40 個公開 + 19 個隱藏），任務場景為 Kubernetes 環境中的事件響應與根因分析，涵蓋：

基礎設施故障
服務與應用故障
混沌注入故障（資源配額耗盡、部署失敗、連接池耗盡、網路分割等）

每個任務提供 Kubernetes 事件快照，包含告警、事件、追蹤、指標、日誌與應用拓撲，要求模型找出導致事件的最小根因實體集合（Deployment、Service、Pod、NetworkPolicy 等）。

所有模型使用同一個開源 Stirrup 參考框架執行，確保「蘋果對蘋果」的公平比較。每個任務限 100 轉次，重複 3 次取平均。

評分方式：精準度優先

評分公式為平均精準度（Average Precision at Full Recall）：

若模型遺漏任何真實根因 → 得分 0.0
若識別所有根因 → 得分 = 精準度（真陽性 / (真陽性 + 假陽性)）

這個設計的含義：模型若把上游故障注入機制或伴隨症狀也一起回傳，會被扣分。評分機制鼓勵精確診斷，而非過度探索。

關鍵要點

1. 前沿模型全部低於 50%

模型	得分	成本/任務	平均轉次
Claude Opus 4.7（Adaptive Reasoning）	47%	$5.38	—
GPT-5.5（xhigh）	46%	—	31
Qwen3.7 Max	42%	—	—
GLM-5.1（Reasoning）	40%	$1.23	—
Gemini 3.5 Flash（high）	40%	$1.70	—
DeepSeek V4 Pro（Reasoning）	38%	—	—
Gemma 4 31B（Reasoning）	37%	$0.14	58
Gemini 3.1 Pro Preview	30%	$2.23	83

最高分 Claude Opus 4.7 僅 47%，最低 Gemini 3.1 Pro Preview 30%。這與其他已趨近飽和的代理基準（如 Terminal-Bench）形成強烈對比。

2. 轉次多不等於準確率高

GPT-5.5 平均 31 轉次拿到 46%，Gemini 3.1 Pro Preview 用了 83 轉次卻只有 30%。過度探索的模型反而更容易：

浮現上游故障注入機制（誤報）
識別症狀而非根本原因

這說明在根因分析任務中，「知道何時停止」和「找到正確答案」同樣重要。

3. 開源模型性價比突出

Gemma 4 31B：$0.14/任務，37%，超越成本高 16 倍的 Gemini 3.1 Pro Preview
GLM-5.1：$1.23/任務，40%，與 Gemini 3.5 Flash 並列，成本更低
「帶推理能力的開源模型」普遍表現優於同代非推理模型

實務應用

SRE 自動化仍遠離生產就緒

ITBench-AA 直接回答了一個對 AI 基礎設施工程師而言最關鍵的問題：現在的 AI 能不能接手 on-call？

答案是明確的「還不行」。47% 的最高分意味著超過一半的 Kubernetes 事故場景，最佳模型仍無法正確定位根因。對於零容錯的生產環境，這個數字遠不夠用。

評估工具本身的設計含義

ITBench-AA 的評分機制偏向「不確定就不要猜」——寧可少報也不要多報，因為誤報的懲罰（精準度下降）與漏報（得分歸零）同樣嚴重。這反映真實 SRE 工作的核心判斷：過度觸發的自動修復比什麼都不做更危險。

下一步：FinOps 與 CISO

ITBench-AA 計劃擴展至財務運營（FinOps）與資訊安全長（CISO）任務，形成完整的企業 IT 代理評估套件。這三個維度合在一起，將是目前最接近「AI 能不能真正幫 IT 部門工作」這個問題的系統性答案。

→ 參見 Open Agent Leaderboard：通用代理系統的開放評估框架、SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益、AI Eval 成本危機：評估比訓練更貴、Agentic AI 企業落地現實：基礎建設障礙與突破策略

延伸觀點

因果智能層可能是破局關鍵

Causely（arXiv 2605.18327）提供了一個直接的反例：在相同的 SRE 故障診斷任務中，若先為 AI Agent 建構結構化的因果模型（拓撲依賴 + 屬性關係），再讓 Claude Code、GPT Codex 等 Agent 在其上推理，根因診斷準確率從 75% 跳升至 100%，token 消耗降低 60%，工具呼叫次數減少 78%。這與 ITBench-AA 的低分現象形成對照：裸跑的 Agent 面對原始遙測數據時，不是模型不夠強，而是缺乏語義錨定，導致大量轉次耗在「讀懂環境」而非「診斷問題」。

基準排名與企業實際需求的落差

Kamiwaza Agentic Merit Index（arXiv 2511.08042）分析了 17 萬個測試項目後發現，傳統基準排名「對實際代理性能的預測能力差」，更新模型不一定比舊版本更適合企業任務。兩篇論文共同支持一個結論：評估 AI Agent 不能只看準確率，應同時考量成本效率、工具調用穩定性、環境上下文消化能力，這正是 ITBench-AA 設計評分機制時強調精準度而非探索廣度的底層邏輯。

綜合來看，ITBench-AA 的 47% 天花板反映的不只是模型能力不足，而是任務所需的結構性脈絡（因果圖、服務拓撲）沒有進入 Agent 的上下文。未來 SRE 自動化的突破路徑，可能不在模型規模，而在 RAG 或工具層的因果知識注入。

反向連結

以下頁面引用了本頁：

AI Eval 成本危機：評估比訓練更貴（文章精選）
Agentic AI 企業落地現實：基礎建設障礙與突破策略（技術與AI）
Open Agent Leaderboard：通用代理系統的開放評估框架（文章精選）
SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益（文章精選）