Open Agent Leaderboard：通用代理系統的開放評估框架

核心概念

IBM Research 於 2026 年 5 月 18 日在 Hugging Face 發布 Open Agent Leaderboard——首個系統性評估完整 AI 代理系統的開放框架。其核心命題只有一句話：「代理的表現取決於其構建方式，而不僅僅是內部模型。」

傳統評估只報告模型在基準任務上的分數，忽略了實際部署涉及的工具使用、計劃步驟、記憶機制與錯誤恢復。Open Agent Leaderboard 把評估單位從「模型」升級為「完整代理系統（代理框架 × 底層模型）」，並同時追蹤成功率與每任務成本，讓開發者知道不只是「什麼有效」，還包括「值不值得部署」。

通用性的定義：通用性是頻譜而非二元標籤。真正的通用代理需要在多種不熟悉的環境下維持能力，且成本合理。

六大評估基準

基準	測試場景
SWE-Bench Verified	修復真實代碼庫的實際 bug
BrowseComp+	跨網路的複雜研究問題
AppWorld	跨百個應用的個人助理任務
tau2-Bench Airline & Retail	遵循公司政策的客服
tau2-Bench Telecom	遵循公司政策的技術支援

統一協議設計：所有基準共用三元結構——任務（what to do）、上下文（what to know）、操作集合（what's allowed）。代理不再需要分別適配各基準語言，比較因此標準化。排行榜中每一行代表一個完整代理配置，可直接對比成功率與成本效率。

關鍵要點

通用代理已具競爭力：未針對特定基準調整的通用代理，在大多數評估中匹配甚至超越專用系統，打破「特化代理一定更強」的假設。
失敗成本高於成功成本 20–54%：代理的失敗行為差異顯著——有些代理快速廉價地放棄任務，有些則在長時間昂貴執行後才宣告失敗。成本追蹤揭示了傳統評估忽視的維度，呼應了 AI Eval 成本危機：評估比訓練更貴中提到的評估資源問題。
代理架構開始超越模型選擇：模型選擇仍是主導因素，但架構已產生明顯差異。關鍵組件「工具候選列表（tool candidate list）」——讓代理聚焦於相關工具而非搜索全部工具——在所有測試模型上均提升性能，甚至將部分否則失敗的配置轉為可行。
開源模型仍有差距：新加入的 DeepSeek V3.2 與 Kimi K2.5 在特定組合有競爭力，但平均落後閉源前沿模型 18–29 個百分點（截至 2026-05）。
開放資源三件套：Open Agent Leaderboard 瀏覽結果 / Exgentic 標準化評估平台 / arXiv 論文完整方法論。

實務應用

對代理開發者：不應只看底層模型排名，而應測試完整代理配置（模型 + 工具設計 + 計劃策略 + 錯誤處理）。排行榜中頂部三個配置使用相同模型但成績與成本不同，直接證明了這一點。若要比較架構選擇，可在 Exgentic 框架中包裝自己的代理並提交結果。

對評估社群：Open Agent Leaderboard 推動「評估完整系統而非模型」的標準化，類似 Open ASR Leaderboard：私有測試集對抗基準污染在語音領域的嘗試，但代理系統的複雜度更高——多環境、多步驟、成本追蹤三重要求同時存在。SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益與此框架形成互補，前者聚焦代理的社交推理，後者覆蓋多樣化任務類型。

與安全研究的交叉：多代理配置在此排行榜中的表現數據，為多代理網絡的湧現風險：Microsoft Research 紅隊測試報告所描述的安全風險提供了性能對照——知道「能力有多強」才能更準確地評估「風險有多大」。

延伸觀點

跨三篇學術文獻的交叉驗證（arXiv 2602.22953、2510.11977、2503.16416）收斂出幾個共識：

架構優化空間大於想像：General Agent Evaluation 論文發現，在同一底層模型內，代理架構選擇可使結果相差達 12 個百分點。Holistic Agent Leaderboard（$40K 規模、21,730 次執行）同樣確認架構選擇是獨立變數，不可只看模型排名替代。兩篇論文均指向相同結論：代理評估的正確粒度是「完整配置」，而非單一模型。

成本維度是最被低估的指標：綜述論文（Survey on LLM-based Agent Evaluation）點出成本效率是現有評估「最不足」的維度之一；Holistic Agent Leaderboard 中最貴基準（Online Mind2Web）的單次評估成本是最便宜基準的 34 倍，顯示成本異質性極高。Open Agent Leaderboard 把「每任務成本」列為一級指標，是目前框架中最直接面對此問題的設計。

推理力≠準確率（僅來自 arXiv 優先論文）：Holistic Agent Leaderboard 發現，在多數執行中「更高推理力反而降低準確率」，挑戰了「更強模型必然更好」的直覺。這與排行榜中部分低成本配置表現優異的觀察相互呼應。

反向連結

以下頁面引用了本頁：

AI Eval 成本危機：評估比訓練更貴（文章精選）
Open ASR Leaderboard：私有測試集對抗基準污染（文章精選）
SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益（文章精選）
多代理網絡的湧現風險：Microsoft Research 紅隊測試報告（文章精選）
ITBench-AA：企業 IT 代理基準測試，前沿模型全部低於 50%（文章精選）
ITBench-AA：企業 SRE 代理任務首個基準測試（文章精選）
前沿 AI 第三方評估手冊：OpenAI 的信任框架與失真風險管控（文章精選）
可信任第三方 AI 評估：OpenAI 指引手冊（文章精選）
EVA-Bench 2.0：企業語音代理三領域評估基準（文章精選）
Is It Agentic Enough：Hugging Face 開源模型代理基準測試框架（文章精選）
CUGA：IBM Research 開源企業級代理框架與 24 個實作範例（文章精選）