AI Eval 成本危機：評估比訓練更貴

核心概念

AI 評估（Evals）曾被視為訓練完成後的配套工作，成本相對可控。但根據 EvalEval Coalition 在 Hugging Face 發布的研究報告，這個前提已徹底翻轉：評估成本已超越訓練成本，成為 AI 開發週期中新的計算瓶頸。

靜態基準的第一波成本浪潮

最早出現問題的是靜態 LLM 基準。以 Stanford CRFM 的 HELM 為例，一個模型的評估成本介於 $85 至 $10,926（API 方案），開源方案則需 540 至 4,200 GPU 小時。更嚴峻的是 Pythia 模型的 2,464 個訓練 checkpoints——若要對每個 checkpoint 進行完整評估，總成本可能超過整個預訓練的計算量。

研究者嘗試用壓縮技術解決問題：tinyBenchmarks 把 MMLU 從 14,000 題壓縮至 100 題（誤差僅 2%），Anchor Points 方法僅需 1-30 個示例就能為 87 個模型排序。靜態基準的壓縮率可達 100-200 倍，一時看似問題已解。

代理評估：成本爆炸的加速器

然而，AI 應用快速從靜態問答轉向 Agentic 系統，靜態壓縮技術完全無法遷移。

代理評估的成本跨越4 個數量級：

基準	單次評估成本
HAL（全域代理排行榜，9 模型 × 9 基準）	$40,000
GAIA（單次最高）	$2,829
Online Mind2Web（300 任務）	$5 - $1,610
SWE-bench（50 題）	$4 - $1,600

成本差異不只來自任務本身。Claude Opus（$15/百萬 token）與 Gemini 2.0（$0.10）之間有 200 倍定價差距；Exgentic 跨模型調查發現相同任務的成本差異高達 33 倍。

更反直覺的是：高成本不等於高準確率。Online Mind2Web 實測數據顯示，模型 A 花費 $1,577 達到 40% 準確率，模型 B 僅花費 $171 即達到 42%。代理評估的壓縮潛力也大幅縮水——相較靜態基準的 100-200 倍，代理基準只能壓縮 2-3.5 倍，因為多輪 rollout 本身就是計算的核心，無法跳過。

訓練循環評估：評估比訓練更貴的極端案例

科學機器學習（Scientific ML）領域出現最極端的案例。The Well 基準用於評估物理系統學習模型：

完整掃描：3,840 H100 小時，約 $9,600
評估單一新架構：960 H100 小時，約 $2,400
根本原因：評估一個模型等同於訓練一個新模型，無法壓縮

其他高成本訓練循環基準：PaperBench（20 篇論文）約 $9,500；MLE-Bench（75 個 Kaggle 競賽 × 24h GPU）約 $5,500；RE-Bench 約 $140-$840。

可靠性：成本的乘數效應

單次評估的數字已相當驚人，但單次數字往往不可信。τ-bench 的實驗顯示，同一個 Agent 的表現：

單次運行：60% 成功率
8 次平均：25% 成功率

這 2.4 倍的性能落差完全來自可靠性問題，而非模型能力問題。HAL 的可靠性評估將成本從 $40K 推高至 $320K（8 倍 rerun）。PaperBench 若以 3 seeds × 6 模型計算，成本超過 $150,000。

報告同時揭露代理基準的品質問題：受測的 17 個基準中有 12 個缺乏正確的 holdout 集；代理在 60% 以上的失敗任務中違反明確指令；環境錯誤率高達約 40%——這些品質問題不解決，可靠性成本會持續累積。

問責差距：誰能負擔獨立評估？

成本爆炸帶來結構性後果。GAIA 單次運行成本已超過研究生的年度旅行預算；PaperBench 的 $9,500 遠超一般學術實驗室的 GPU 預算。訓練階段業界模型已比學術模型大 29 倍（2021 年數據），70% AI 博士生現在進入業界（2020 年：21%）。評估成本差距正在複製並放大訓練計算差距——只有前沿實驗室才能獨立驗證彼此的系統，形成評估的集中化。

不顯示成本的排行榜讓問題更嚴重：研究者為了名次堆積 token。HAL 的數據發現，更多推理預算在多數情況下會降低準確率而非提升。報告提出的核心警告：「評估現在誰來支付，誰就寫排行榜。」

解方：標準化數據共享

EvalEval Coalition 提出三個行動：

統一評估元數據資料庫（Every Eval Ever）：整合 HELM、lm-eval-harness、Inspect AI 的評估數據，公開 per-trajectory 日誌，讓後續研究者在共享基線上迭代。估計 2× 數據重用率即可匹敵所有壓縮技術的累計效益。
實施 Pareto 前沿排行榜：同時呈現準確率與成本，修正只追求準確率而盲目堆積 token 的激勵扭曲。
重新定義評估預算：學術資助機構應將評估計算列為獨立類別；政策制定者應資助獨立評估基礎設施，而非依賴被評估的實驗室自我申報。

關鍵要點

三類評估的壓縮上限差異極大：靜態基準 100-200 倍、代理基準 2-3.5 倍、訓練循環基準幾乎無法壓縮——成本策略必須因類型而異，不能套用靜態基準的壓縮直覺
可靠性是隱藏的成本乘數：單次評估成本已驚人，但多次 rerun 才能得到可信數字；HAL 案例的 8 倍可靠性成本讓 $40K 變 $320K，τ-bench 顯示單次與多次平均差距達 2.4 倍
更貴不等於更好：Online Mind2Web 反例說明花 9 倍成本未必換到更高準確率；Pareto 前沿視角（準確率 vs 成本）是必要分析框架，隱藏成本的排行榜會主動扭曲研究激勵
評估集中化是系統性風險：當獨立評估成本超出學術界和監管機構的負擔，就只有被評估的實驗室有能力評估自己，問責機制實質失效；此問題與 Agentic AI 企業落地中的基礎設施不對稱問題結構相似
標準化數據共享是槓桿最高的解法：2× 數據重用率即可匹敵所有壓縮技術的累計效益，公開 per-trajectory 日誌能讓後續研究者避免重複支付相同計算成本

實務應用

對 AI 系統開發者：在評估代理系統前，先分析評估屬於哪種類型（靜態基準／代理基準／訓練循環），以選擇對應的成本控制策略。靜態基準可大膽壓縮；代理基準需優先做任務採樣設計，而非事後壓縮。設計代理系統時，留意代理系統的可靠性風險，避免單次評估給出過度樂觀的準確率數字。

對評估基準設計者：必須提供 per-trajectory 日誌並公開，讓後續研究者可在共享基線上迭代。設計 Pareto 前沿排行榜（準確率 vs 成本），而非單維度準確率排名；同時確保 holdout 集設計正確，避免環境錯誤率拖高可靠性成本。

對政策制定者與資助機構：獨立的 AI 評估已成為公共問責的基礎設施。若只有前沿實驗室能負擔評估，監管機構將無法取得獨立數據。應將評估計算列為獨立資助類別，而非視為研究的附屬成本。

延伸觀點

EvalEval Coalition 的報告並非孤立研究。多個獨立來源的交叉驗證指向同樣的核心問題。

準確率與可靠性的脫鉤是普遍現象，不只是特定基準的問題。 arxiv 的研究論文《Towards a Science of AI Agent Reliability》（2026）以航空與核能工程的可靠性科學框架，將 Agent 可靠性分解為一致性、穩健性、可預測性、安全性四個維度，發現「18 個月內準確率穩步提升，但可靠性改進幾乎微乎其微」——與 EvalEval 的 τ-bench 數據形成直接呼應。企業落地數據同樣顯示，實驗室基準分數與真實部署結果之間存在 37% 的落差，單次 vs 8 次平均的 60% → 25% 現象在企業環境中同步被觀測到。

評估的根本性挑戰：Agent 評估不是「更多題目的靜態評估」。 KDD 2025 的 LLM Agent 評估綜述提供了一個清晰的類比：「LLM 評估像是測試引擎，Agent 評估是測試整台車」——規劃、工具使用、多輪對話、環境互動都需要一並測量。綜述同時指出，目前 15 個主流基準中，只有 4 個能可靠預測生產環境的表現，其餘 11 個主要反映學術任務表現，而非實際部署能力。這個數字比 EvalEval 估計的 holdout 集問題（12/17 不合格）更悲觀，揭示了評估工具本身的成熟度落差。

「更多工具不等於更好表現」的反直覺發現值得特別關注。 企業研究發現，從代理的操作環境中移除 80% 的可用工具，任務成功率反而高於任何模型升級帶來的提升。這與 EvalEval 的「更高推理預算多數情況下降低準確率」形成共鳴——Agent 評估正在揭示一個設計反直覺：在複雜環境中，限制選項比擴充能力更能提升可靠性。這對 Agent 系統設計與評估框架的設計都有直接影響。

反向連結

以下頁面引用了本頁：

AI Agent 設計模式（技術與AI）
Agentic AI 企業落地現實：基礎建設障礙與突破策略（技術與AI）
多代理網絡的湧現風險：Microsoft Research 紅隊測試報告（文章精選）
ChatGPT 廣告測試：OpenAI 的商業化新里程碑（文章精選）
Open ASR Leaderboard：私有測試集對抗基準污染（文章精選）
AI 委派任務的文件保真度危機：Microsoft Research 深度解析（文章精選）
Databricks × GPT-5.5：企業 Agent 工作流程的新標竿（文章精選）
Parameter Golf：OpenAI AI 輔助研究競賽的三大洞察（文章精選）
Open Agent Leaderboard：通用代理系統的開放評估框架（文章精選）
AI Agent 詞彙指南：Harness、Scaffold 與 Sub-agent 層次定義（文章精選）
Braintrust × Codex：用 GPT-5.5 將客戶需求轉為程式碼（文章精選）
ITBench-AA：企業 IT 代理基準測試，前沿模型全部低於 50%（文章精選）
ITBench-AA：企業 SRE 代理任務首個基準測試（文章精選）
前沿 AI 第三方評估手冊：OpenAI 的信任框架與失真風險管控（文章精選）
可信任第三方 AI 評估：OpenAI 指引手冊（文章精選）
EVA-Bench 2.0：企業語音代理三領域評估基準（文章精選）
Is It Agentic Enough：Hugging Face 開源模型代理基準測試框架（文章精選）
LifeSciBench：OpenAI 生命科學研究 AI 基準測試（文章精選）
OpenAI 部署模擬：以生產對話預測模型上線前行為（文章精選）
EEE × Hugging Face：AI 評測結果標準化的統一入口（文章精選）
ScarfBench：企業 Java 框架遷移的 AI 代理基準測試（文章精選）
SWE-Bench Pro 評估可靠性危機：OpenAI 審計發現三成任務損壞（文章精選）