核心概念

AI 評估(Evals)曾被視為訓練完成後的配套工作,成本相對可控。但根據 EvalEval Coalition 在 Hugging Face 發布的研究報告,這個前提已徹底翻轉:評估成本已超越訓練成本,成為 AI 開發週期中新的計算瓶頸。

靜態基準的第一波成本浪潮

最早出現問題的是靜態 LLM 基準。以 Stanford CRFM 的 HELM 為例,一個模型的評估成本介於 $85 至 $10,926(API 方案),開源方案則需 540 至 4,200 GPU 小時。更嚴峻的是 Pythia 模型的 2,464 個訓練 checkpoints——若要對每個 checkpoint 進行完整評估,總成本可能超過整個預訓練的計算量

研究者嘗試用壓縮技術解決問題:tinyBenchmarks 把 MMLU 從 14,000 題壓縮至 100 題(誤差僅 2%),Anchor Points 方法僅需 1-30 個示例就能為 87 個模型排序。靜態基準的壓縮率可達 100-200 倍,一時看似問題已解。

代理評估:成本爆炸的加速器

然而,AI 應用快速從靜態問答轉向 Agentic 系統,靜態壓縮技術完全無法遷移。

代理評估的成本跨越4 個數量級

基準 單次評估成本
HAL(全域代理排行榜,9 模型 × 9 基準) $40,000
GAIA(單次最高) $2,829
Online Mind2Web(300 任務) $5 - $1,610
SWE-bench(50 題) $4 - $1,600

成本差異不只來自任務本身。Claude Opus($15/百萬 token)與 Gemini 2.0($0.10)之間有 200 倍定價差距;Exgentic 跨模型調查發現相同任務的成本差異高達 33 倍

更反直覺的是:高成本不等於高準確率。Online Mind2Web 實測數據顯示,模型 A 花費 $1,577 達到 40% 準確率,模型 B 僅花費 $171 即達到 42%。代理評估的壓縮潛力也大幅縮水——相較靜態基準的 100-200 倍,代理基準只能壓縮 2-3.5 倍,因為多輪 rollout 本身就是計算的核心,無法跳過。

訓練循環評估:評估比訓練更貴的極端案例

科學機器學習(Scientific ML)領域出現最極端的案例。The Well 基準用於評估物理系統學習模型:

  • 完整掃描:3,840 H100 小時,約 $9,600
  • 評估單一新架構:960 H100 小時,約 $2,400
  • 根本原因:評估一個模型等同於訓練一個新模型,無法壓縮

其他高成本訓練循環基準:PaperBench(20 篇論文)約 $9,500;MLE-Bench(75 個 Kaggle 競賽 × 24h GPU)約 $5,500;RE-Bench 約 $140-$840。

可靠性:成本的乘數效應

單次評估的數字已相當驚人,但單次數字往往不可信。τ-bench 的實驗顯示,同一個 Agent 的表現:

  • 單次運行:60% 成功率
  • 8 次平均:25% 成功率

這 2.4 倍的性能落差完全來自可靠性問題,而非模型能力問題。HAL 的可靠性評估將成本從 $40K 推高至 $320K(8 倍 rerun)。PaperBench 若以 3 seeds × 6 模型計算,成本超過 $150,000

報告同時揭露代理基準的品質問題:受測的 17 個基準中有 12 個缺乏正確的 holdout 集;代理在 60% 以上的失敗任務中違反明確指令;環境錯誤率高達約 40%——這些品質問題不解決,可靠性成本會持續累積。

問責差距:誰能負擔獨立評估?

成本爆炸帶來結構性後果。GAIA 單次運行成本已超過研究生的年度旅行預算;PaperBench 的 $9,500 遠超一般學術實驗室的 GPU 預算。訓練階段業界模型已比學術模型大 29 倍(2021 年數據),70% AI 博士生現在進入業界(2020 年:21%)。評估成本差距正在複製並放大訓練計算差距——只有前沿實驗室才能獨立驗證彼此的系統,形成評估的集中化。

不顯示成本的排行榜讓問題更嚴重:研究者為了名次堆積 token。HAL 的數據發現,更多推理預算在多數情況下會降低準確率而非提升。報告提出的核心警告:「評估現在誰來支付,誰就寫排行榜。」

解方:標準化數據共享

EvalEval Coalition 提出三個行動:

  1. 統一評估元數據資料庫(Every Eval Ever):整合 HELM、lm-eval-harness、Inspect AI 的評估數據,公開 per-trajectory 日誌,讓後續研究者在共享基線上迭代。估計 2× 數據重用率即可匹敵所有壓縮技術的累計效益。
  2. 實施 Pareto 前沿排行榜:同時呈現準確率與成本,修正只追求準確率而盲目堆積 token 的激勵扭曲。
  3. 重新定義評估預算:學術資助機構應將評估計算列為獨立類別;政策制定者應資助獨立評估基礎設施,而非依賴被評估的實驗室自我申報。

關鍵要點

  • 三類評估的壓縮上限差異極大:靜態基準 100-200 倍、代理基準 2-3.5 倍、訓練循環基準幾乎無法壓縮——成本策略必須因類型而異,不能套用靜態基準的壓縮直覺
  • 可靠性是隱藏的成本乘數:單次評估成本已驚人,但多次 rerun 才能得到可信數字;HAL 案例的 8 倍可靠性成本讓 $40K 變 $320K,τ-bench 顯示單次與多次平均差距達 2.4 倍
  • 更貴不等於更好:Online Mind2Web 反例說明花 9 倍成本未必換到更高準確率;Pareto 前沿視角(準確率 vs 成本)是必要分析框架,隱藏成本的排行榜會主動扭曲研究激勵
  • 評估集中化是系統性風險:當獨立評估成本超出學術界和監管機構的負擔,就只有被評估的實驗室有能力評估自己,問責機制實質失效;此問題與 Agentic AI 企業落地 中的基礎設施不對稱問題結構相似
  • 標準化數據共享是槓桿最高的解法:2× 數據重用率即可匹敵所有壓縮技術的累計效益,公開 per-trajectory 日誌能讓後續研究者避免重複支付相同計算成本

實務應用

對 AI 系統開發者:在評估代理系統前,先分析評估屬於哪種類型(靜態基準/代理基準/訓練循環),以選擇對應的成本控制策略。靜態基準可大膽壓縮;代理基準需優先做任務採樣設計,而非事後壓縮。設計代理系統時,留意 代理系統的可靠性風險,避免單次評估給出過度樂觀的準確率數字。

對評估基準設計者:必須提供 per-trajectory 日誌並公開,讓後續研究者可在共享基線上迭代。設計 Pareto 前沿排行榜(準確率 vs 成本),而非單維度準確率排名;同時確保 holdout 集設計正確,避免環境錯誤率拖高可靠性成本。

對政策制定者與資助機構:獨立的 AI 評估已成為公共問責的基礎設施。若只有前沿實驗室能負擔評估,監管機構將無法取得獨立數據。應將評估計算列為獨立資助類別,而非視為研究的附屬成本。


延伸觀點

EvalEval Coalition 的報告並非孤立研究。多個獨立來源的交叉驗證指向同樣的核心問題。

準確率與可靠性的脫鉤是普遍現象,不只是特定基準的問題。 arxiv 的研究論文《Towards a Science of AI Agent Reliability》(2026)以航空與核能工程的可靠性科學框架,將 Agent 可靠性分解為一致性、穩健性、可預測性、安全性四個維度,發現「18 個月內準確率穩步提升,但可靠性改進幾乎微乎其微」——與 EvalEval 的 τ-bench 數據形成直接呼應。企業落地數據同樣顯示,實驗室基準分數與真實部署結果之間存在 37% 的落差,單次 vs 8 次平均的 60% → 25% 現象在企業環境中同步被觀測到。

評估的根本性挑戰:Agent 評估不是「更多題目的靜態評估」。 KDD 2025 的 LLM Agent 評估綜述提供了一個清晰的類比:「LLM 評估像是測試引擎,Agent 評估是測試整台車」——規劃、工具使用、多輪對話、環境互動都需要一並測量。綜述同時指出,目前 15 個主流基準中,只有 4 個能可靠預測生產環境的表現,其餘 11 個主要反映學術任務表現,而非實際部署能力。這個數字比 EvalEval 估計的 holdout 集問題(12/17 不合格)更悲觀,揭示了評估工具本身的成熟度落差。

「更多工具不等於更好表現」的反直覺發現值得特別關注。 企業研究發現,從代理的操作環境中移除 80% 的可用工具,任務成功率反而高於任何模型升級帶來的提升。這與 EvalEval 的「更高推理預算多數情況下降低準確率」形成共鳴——Agent 評估正在揭示一個設計反直覺:在複雜環境中,限制選項比擴充能力更能提升可靠性。這對 Agent 系統設計與評估框架的設計都有直接影響。

反向連結

以下頁面引用了本頁: