核心概念

Model Card(模型卡)由 Mitchell et al.(2018)提出,是機器學習模型的標準化透明度文件,讓開發者、使用者與政策制定者能理解模型的能力、限制與潛在風險。System Card(系統卡)是 Model Card 的擴展形式,涵蓋整個 AI 系統的操作生態,包含訓練資料、安全防護、使用政策與社會影響評估。

根本差異

  • Model Card:聚焦模型本身,回答「這個模型能做什麼、不能做什麼、已知偏差有哪些」
  • System Card:涵蓋整個部署系統,回答「這個 AI 產品如何安全運作、對社會有何影響、已做了哪些對齊測試」

術語上,Google 慣用 Model Card,Anthropic 與 OpenAI 則用 System Card;功能高度重疊,正逐漸成為 AI 監管基準文件(EU AI Act 的透明度義務與其高度一致)。

Model Card 標準欄位(Hugging Face 規範)

Hugging Face 是 Model Card 最廣泛採用的生態系,欄位分兩層:

YAML Metadata(機器可讀)

欄位 用途
language 支援語言(ISO 639-1)
license 授權類型
datasets 訓練資料集 ID
base_model 基礎模型(微調/量化必填)
pipeline_tag 任務類型(決定 Hub widget)
model-index 結構化 benchmark 結果

文字章節(人類可讀)

  1. Model Description:架構、參數量、訓練方法
  2. Intended Uses / Out-of-Scope Uses:適用與不適用情境
  3. Bias, Risks, and Limitations:偏差、倫理風險、技術限制(最核心章節)
  4. Evaluation Results:基準測試分數(MMLU、ARC、TruthfulQA 等)
  5. Environmental Impact(選填):CO₂ 排放估算

System Card 核心欄位(Anthropic 規範)

Anthropic 的 System Card 圍繞安全評估展開,共六大區塊:

  1. Model & Training Characteristics:Constitutional AI 技術、思考模式配置
  2. Safeguards & Behavioral Evaluations:數萬筆測試 prompt 的安全政策遵循率
  3. Agentic Safety:電腦控制風險、prompt injection 抵抗力、惡意程式碼防護
  4. Alignment Assessment:對齊欺騙(alignment faking)、隱藏目標、欺騙性推理偵測
  5. Model Welfare Assessment:AI 系統倫理保護的前瞻考量(Model Card 無此章節)
  6. Additional Evaluations:偏差測試、越獄抵抗力、過度拒絕率(Claude 4 系列為 0.07%)

偏差揭露方式

標準偏差揭露需涵蓋三個層次:

  • 資料層:訓練資料集的人口統計組成(性別、種族、地域)
  • 效能層:各人口統計子群的分群效能指標(不能僅報告整體平均)
  • 緩解層:已採取的偏差緩解措施與剩餘偏差說明

NVIDIA 的 Model Card++ 進一步加入可解釋性(Explainability)、隱私、Safety/Security 四維度,是目前最完整的偏差揭露框架之一。

關鍵要點

  • 最小必要欄位:任何 Model Card 至少需包含「用途說明、偏差與限制、評估結果」三大塊;缺少任一視為透明度不足
  • 偏差報告不能只看整體:必須提供分群效能數據,整體指標可能掩蓋特定群體的系統性偏差
  • System Card 額外強調對齊評估:alignment faking 偵測與 model welfare 是 Model Card 沒有的章節,反映 frontier model 的特殊風險
  • 術語差異不影響評分:2025 年 Stanford Foundation Model Transparency Index 用統一標準對 13 家 AI 公司評分,無論其使用哪種術語

三大機構實作比較

維度 Google Anthropic Hugging Face
文件名稱 Model Card System Card Model Card
結構重點 技術規格 + benchmark 安全評估 + 對齊測試 可發現性 + 社群分享
偏差揭露 效能基準分群 行為評估 + 拒絕率指標 Bias/Risks 文字章節
機器可讀格式 部分 主要為 PDF YAML 完整標準化
對齊評估 無專屬章節 核心章節 無專屬章節

實務應用

閱讀 Model Card 的優先順序

  1. 先看「Intended Use」確認用途是否符合
  2. 再看「Bias & Limitations」了解已知風險
  3. 查看 benchmark 時,確認評估資料集是否與應用情境相關
  4. 確認是否有針對特定人口群體的分群測試結果

評估文件品質的警示信號:缺少偏差揭露、無分群效能數據、benchmark 只選擇對該模型有利的指標,皆為透明度不足的明確信號。

相關頁面:Claude Mythos 系統卡分析

延伸觀點

文件碎片化是當前最大的結構性問題。 arxiv 的 AI Transparency Atlas(2024)分析 100 份 Hugging Face Model Card 後發現,「使用說明」這個欄位就有 97 種不同命名,導致系統性比較幾乎不可能。這個問題在大型機構(Anthropic、Microsoft、xAI)與小型發布者之間差距顯著:前緣實驗室的透明度框架合規率約 80%,多數小型模型發布者則低於 60%。

安全評估欄位填寫率遠低於技術指標。 超過 90% 的 Model Card 包含架構說明與 benchmark 分數,但僅有 65% 涵蓋安全評估,偏差與公平性章節更只有 60%——而且多為表面描述。失分最集中的項目是:欺騙性行為(deception behaviors)、幻覺(hallucinations)與兒童安全評估(child safety),三項合計損失超過 380 個標準化評分點。

Red Hat 提出的「開放系統卡」標準讓安全漏洞揭露更具可操作性:它要求文件格式機器可讀、跨版本可追蹤,且需記錄每個安全問題的修復狀態,而非僅靜態列出已知風險。這個方向代表 AI 文件正從「公關說明書」轉型為「可查核的工程承諾」。NVIDIA 的 EU AI Act 合規推動也印證了同一趨勢:監管壓力正在倒逼文件標準從自願性演化為強制性。

反向連結

以下頁面引用了本頁: