ITBench-AA：企業 IT 代理基準測試，前沿模型全部低於 50%

核心概念

ITBench-AA 是首個針對企業 IT 代理任務設計的評估基準，由 Artificial Analysis 與 IBM Software Innovation Lab 聯合發布。它的問世揭示一個嚴峻現實：當今最頂尖的 AI 模型在真實 IT 運維場景中，準確率全部低於 50%。

聚焦 SRE：診斷 Kubernetes 故障

ITBench-AA 的測試場景鎖定站點可靠性工程（SRE）——這是企業 IT 最複雜、最時效敏感的工作之一。模型必須在包含警報、事件紀錄、追蹤、指標、日誌與基礎設施拓撲的真實 Kubernetes 快照中，找出事件的根本原因（root cause）。

失敗模式涵蓋：

資源耗盡（resource exhaustion）
部署失敗（rollout failures）
連線池枯竭（connection pool exhaustion）
網路分區（network partitions）

這與「問答」或「程式碼生成」類基準截然不同——模型需在資訊不完整、噪音高的環境中主動決策、逐步排查。

評估設計：精確率與完全召回的雙重門檻

基準採用「全召回下的精確率」作為評分機制：

若遺漏任何一個真實根本原因 → 直接得 0 分
若找出全部根本原因，但同時誤報其他原因 → 得分 = 真陽性 ÷（真陽性 + 假陽性）

這個設計有強烈的工程意涵：過度診斷（false positive）與漏診（false negative）同樣有害。在真實 SRE 環境中，誤報會讓工程師追錯方向，往往比沒有找到答案更耗費時間。

評測規格：

59 個 SRE 任務（40 個公開 + 19 個保密，防止訓練集污染）
每個任務最多 100 輪對話、重複 3 次
搭載 shell 存取的沙盒環境，模型可主動查詢資訊

關鍵要點

1. 前沿模型排名（皆低於 50%）

模型	準確率	每任務成本
Claude Opus 4.7（最大努力）	47%	$5.38
GPT-5.5（超高設定）	46%	中
Qwen3.7 Max	42%	低
GLM-5.1（推理）	40%	$1.23
DeepSeek V4 Pro（推理）	38%	低
Gemma 4 31B（推理）	37%	$0.14

2. 輪數效率差異高達 3 倍

模型的對話輪數相差近三倍，但輪數多不等於準確率高。典型反例：GPT-5.5 平均 31 輪達到 46%，而 Gemini 3.1 Pro Preview 平均 83 輪僅得 30%。過度調查反而導致假陽性率升高，拉低最終得分。

3. 性價比的另一維度

Gemma 4 31B 以 $0.14 的極低成本達到 37% 準確率，是目前成本效益最高的選項。GLM-5.1 以 $1.23 達到 40%，提供中段選擇。Claude Opus 4.7 雖準確率最高，但成本是 Gemma 的近 40 倍。

4. 保密測試集設計防止過擬合

19 個保密任務（held-out）使得模型無法透過訓練集記憶提升成績，確保排行榜的真實信度。這借鑑了 Open ASR Leaderboard：私有測試集對抗基準污染的同一設計哲學。

5. 企業 IT Agent 距「可用」仍有距離

低於 50% 的頂線意味著：即使最強的模型，在生產環境中獨立處理 SRE 事件仍需要人工監督。這與 Open Agent Leaderboard：通用代理系統的開放評估框架的觀察一致——通用代理能力與垂直場景需求之間仍存在落差。

實務應用

對 AI 採購決策的意涵

ITBench-AA 的結果挑戰了「用最強模型就好」的直覺。Gemma 4 31B 在成本效益上的表現，支持了AI Eval 成本危機：評估比訓練更貴中提到的論點：評估框架的選擇決定了哪些能力被看見、哪些被遮蔽。

輪數效率是隱藏維度

企業在採用 AI Agent 執行 SRE 任務時，不應只看準確率，還需考慮：

每個任務消耗多少 token（直接影響成本）
模型是否傾向「過度調查」而產生誤報
是否需要設置最大輪數的硬性上限

Kubernetes 事件診斷的評估空白已被填補

在 ITBench-AA 之前，IT 運維 Agent 沒有標準化評估框架，企業只能靠內部驗收。這個基準的公開，讓跨廠商的能力對比成為可能，類似 SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益為社交推理建立的評估基準。

延伸觀點

ITBench-AA 呼應了 AI 評估領域的三個交匯趨勢，以下整合自多個 AI 研究機構的觀點。

趨勢一：領域特化基準成為必要

通用能力基準（如 MMLU、HumanEval）對企業 IT 任務的預測力有限。SRE 場景需要跨工具協調、增量推理與主動資訊收集，這些能力只有在垂直場景中才能被真實衡量。IBM 和 Artificial Analysis 的做法——建立保密測試集 + 真實基礎設施快照——正成為評估可信度的新標準。

趨勢二：效率與準確率必須一起看

多份研究（含 Hugging Face 2026 年評估報告）指出，模型的「輪數使用模式」是預測企業落地成本的關鍵變數。過度的工具呼叫與中間推理步驟，不只消耗成本，也增加誤報風險。未來的企業 AI 合約，可能會出現「輪數上限 SLA」條款。

趨勢三：低分不代表無用，而是需要正確部署

低於 50% 的基準成績在 SRE 脈絡中有特定解讀：Agent 可以作為初篩工具（triage assistant），協助工程師縮小排查範圍，而非完全取代人工判斷。IBM 的論點是，ITBench-AA 應被理解為「能力邊界的地圖」，而非「是否採用」的二元判斷。

反向連結

以下頁面引用了本頁：

AI Eval 成本危機：評估比訓練更貴（文章精選）
Open ASR Leaderboard：私有測試集對抗基準污染（文章精選）
Open Agent Leaderboard：通用代理系統的開放評估框架（文章精選）
SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益（文章精選）
EVA-Bench 2.0：企業語音代理三領域評估基準（文章精選）