核心概念
Model Card(模型卡)由 Mitchell et al.(2018)提出,是機器學習模型的標準化透明度文件,讓開發者、使用者與政策制定者能理解模型的能力、限制與潛在風險。System Card(系統卡)是 Model Card 的擴展形式,涵蓋整個 AI 系統的操作生態,包含訓練資料、安全防護、使用政策與社會影響評估。
根本差異:
- Model Card:聚焦模型本身,回答「這個模型能做什麼、不能做什麼、已知偏差有哪些」
- System Card:涵蓋整個部署系統,回答「這個 AI 產品如何安全運作、對社會有何影響、已做了哪些對齊測試」
術語上,Google 慣用 Model Card,Anthropic 與 OpenAI 則用 System Card;功能高度重疊,正逐漸成為 AI 監管基準文件(EU AI Act 的透明度義務與其高度一致)。
Model Card 標準欄位(Hugging Face 規範)
Hugging Face 是 Model Card 最廣泛採用的生態系,欄位分兩層:
YAML Metadata(機器可讀):
| 欄位 | 用途 |
|---|---|
language |
支援語言(ISO 639-1) |
license |
授權類型 |
datasets |
訓練資料集 ID |
base_model |
基礎模型(微調/量化必填) |
pipeline_tag |
任務類型(決定 Hub widget) |
model-index |
結構化 benchmark 結果 |
文字章節(人類可讀):
- Model Description:架構、參數量、訓練方法
- Intended Uses / Out-of-Scope Uses:適用與不適用情境
- Bias, Risks, and Limitations:偏差、倫理風險、技術限制(最核心章節)
- Evaluation Results:基準測試分數(MMLU、ARC、TruthfulQA 等)
- Environmental Impact(選填):CO₂ 排放估算
System Card 核心欄位(Anthropic 規範)
Anthropic 的 System Card 圍繞安全評估展開,共六大區塊:
- Model & Training Characteristics:Constitutional AI 技術、思考模式配置
- Safeguards & Behavioral Evaluations:數萬筆測試 prompt 的安全政策遵循率
- Agentic Safety:電腦控制風險、prompt injection 抵抗力、惡意程式碼防護
- Alignment Assessment:對齊欺騙(alignment faking)、隱藏目標、欺騙性推理偵測
- Model Welfare Assessment:AI 系統倫理保護的前瞻考量(Model Card 無此章節)
- Additional Evaluations:偏差測試、越獄抵抗力、過度拒絕率(Claude 4 系列為 0.07%)
偏差揭露方式
標準偏差揭露需涵蓋三個層次:
- 資料層:訓練資料集的人口統計組成(性別、種族、地域)
- 效能層:各人口統計子群的分群效能指標(不能僅報告整體平均)
- 緩解層:已採取的偏差緩解措施與剩餘偏差說明
NVIDIA 的 Model Card++ 進一步加入可解釋性(Explainability)、隱私、Safety/Security 四維度,是目前最完整的偏差揭露框架之一。
關鍵要點
- 最小必要欄位:任何 Model Card 至少需包含「用途說明、偏差與限制、評估結果」三大塊;缺少任一視為透明度不足
- 偏差報告不能只看整體:必須提供分群效能數據,整體指標可能掩蓋特定群體的系統性偏差
- System Card 額外強調對齊評估:alignment faking 偵測與 model welfare 是 Model Card 沒有的章節,反映 frontier model 的特殊風險
- 術語差異不影響評分:2025 年 Stanford Foundation Model Transparency Index 用統一標準對 13 家 AI 公司評分,無論其使用哪種術語
三大機構實作比較:
| 維度 | Anthropic | Hugging Face | |
|---|---|---|---|
| 文件名稱 | Model Card | System Card | Model Card |
| 結構重點 | 技術規格 + benchmark | 安全評估 + 對齊測試 | 可發現性 + 社群分享 |
| 偏差揭露 | 效能基準分群 | 行為評估 + 拒絕率指標 | Bias/Risks 文字章節 |
| 機器可讀格式 | 部分 | 主要為 PDF | YAML 完整標準化 |
| 對齊評估 | 無專屬章節 | 核心章節 | 無專屬章節 |
實務應用
閱讀 Model Card 的優先順序:
- 先看「Intended Use」確認用途是否符合
- 再看「Bias & Limitations」了解已知風險
- 查看 benchmark 時,確認評估資料集是否與應用情境相關
- 確認是否有針對特定人口群體的分群測試結果
評估文件品質的警示信號:缺少偏差揭露、無分群效能數據、benchmark 只選擇對該模型有利的指標,皆為透明度不足的明確信號。
相關頁面:Claude Mythos 系統卡分析
延伸觀點
文件碎片化是當前最大的結構性問題。 arxiv 的 AI Transparency Atlas(2024)分析 100 份 Hugging Face Model Card 後發現,「使用說明」這個欄位就有 97 種不同命名,導致系統性比較幾乎不可能。這個問題在大型機構(Anthropic、Microsoft、xAI)與小型發布者之間差距顯著:前緣實驗室的透明度框架合規率約 80%,多數小型模型發布者則低於 60%。
安全評估欄位填寫率遠低於技術指標。 超過 90% 的 Model Card 包含架構說明與 benchmark 分數,但僅有 65% 涵蓋安全評估,偏差與公平性章節更只有 60%——而且多為表面描述。失分最集中的項目是:欺騙性行為(deception behaviors)、幻覺(hallucinations)與兒童安全評估(child safety),三項合計損失超過 380 個標準化評分點。
Red Hat 提出的「開放系統卡」標準讓安全漏洞揭露更具可操作性:它要求文件格式機器可讀、跨版本可追蹤,且需記錄每個安全問題的修復狀態,而非僅靜態列出已知風險。這個方向代表 AI 文件正從「公關說明書」轉型為「可查核的工程承諾」。NVIDIA 的 EU AI Act 合規推動也印證了同一趨勢:監管壓力正在倒逼文件標準從自願性演化為強制性。
反向連結
以下頁面引用了本頁: