AI 模型文件標準：Model Card 與 System Card

核心概念

Model Card（模型卡）由 Mitchell et al.（2018）提出，是機器學習模型的標準化透明度文件，讓開發者、使用者與政策制定者能理解模型的能力、限制與潛在風險。System Card（系統卡）是 Model Card 的擴展形式，涵蓋整個 AI 系統的操作生態，包含訓練資料、安全防護、使用政策與社會影響評估。

根本差異：

Model Card：聚焦模型本身，回答「這個模型能做什麼、不能做什麼、已知偏差有哪些」
System Card：涵蓋整個部署系統，回答「這個 AI 產品如何安全運作、對社會有何影響、已做了哪些對齊測試」

術語上，Google 慣用 Model Card，Anthropic 與 OpenAI 則用 System Card；功能高度重疊，正逐漸成為 AI 監管基準文件（EU AI Act 的透明度義務與其高度一致）。

Model Card 標準欄位（Hugging Face 規範）

Hugging Face 是 Model Card 最廣泛採用的生態系，欄位分兩層：

YAML Metadata（機器可讀）：

欄位	用途
`language`	支援語言（ISO 639-1）
`license`	授權類型
`datasets`	訓練資料集 ID
`base_model`	基礎模型（微調/量化必填）
`pipeline_tag`	任務類型（決定 Hub widget）
`model-index`	結構化 benchmark 結果

文字章節（人類可讀）：

Model Description：架構、參數量、訓練方法
Intended Uses / Out-of-Scope Uses：適用與不適用情境
Bias, Risks, and Limitations：偏差、倫理風險、技術限制（最核心章節）
Evaluation Results：基準測試分數（MMLU、ARC、TruthfulQA 等）
Environmental Impact（選填）：CO₂ 排放估算

System Card 核心欄位（Anthropic 規範）

Anthropic 的 System Card 圍繞安全評估展開，共六大區塊：

Model & Training Characteristics：Constitutional AI 技術、思考模式配置
Safeguards & Behavioral Evaluations：數萬筆測試 prompt 的安全政策遵循率
Agentic Safety：電腦控制風險、prompt injection 抵抗力、惡意程式碼防護
Alignment Assessment：對齊欺騙（alignment faking）、隱藏目標、欺騙性推理偵測
Model Welfare Assessment：AI 系統倫理保護的前瞻考量（Model Card 無此章節）
Additional Evaluations：偏差測試、越獄抵抗力、過度拒絕率（Claude 4 系列為 0.07%）

偏差揭露方式

標準偏差揭露需涵蓋三個層次：

資料層：訓練資料集的人口統計組成（性別、種族、地域）
效能層：各人口統計子群的分群效能指標（不能僅報告整體平均）
緩解層：已採取的偏差緩解措施與剩餘偏差說明

NVIDIA 的 Model Card++ 進一步加入可解釋性（Explainability）、隱私、Safety/Security 四維度，是目前最完整的偏差揭露框架之一。

關鍵要點

最小必要欄位：任何 Model Card 至少需包含「用途說明、偏差與限制、評估結果」三大塊；缺少任一視為透明度不足
偏差報告不能只看整體：必須提供分群效能數據，整體指標可能掩蓋特定群體的系統性偏差
System Card 額外強調對齊評估：alignment faking 偵測與 model welfare 是 Model Card 沒有的章節，反映 frontier model 的特殊風險
術語差異不影響評分：2025 年 Stanford Foundation Model Transparency Index 用統一標準對 13 家 AI 公司評分，無論其使用哪種術語

三大機構實作比較：

維度	Google	Anthropic	Hugging Face
文件名稱	Model Card	System Card	Model Card
結構重點	技術規格 + benchmark	安全評估 + 對齊測試	可發現性 + 社群分享
偏差揭露	效能基準分群	行為評估 + 拒絕率指標	Bias/Risks 文字章節
機器可讀格式	部分	主要為 PDF	YAML 完整標準化
對齊評估	無專屬章節	核心章節	無專屬章節

實務應用

閱讀 Model Card 的優先順序：

先看「Intended Use」確認用途是否符合
再看「Bias & Limitations」了解已知風險
查看 benchmark 時，確認評估資料集是否與應用情境相關
確認是否有針對特定人口群體的分群測試結果

評估文件品質的警示信號：缺少偏差揭露、無分群效能數據、benchmark 只選擇對該模型有利的指標，皆為透明度不足的明確信號。

相關頁面：Claude Mythos 系統卡分析

延伸觀點

文件碎片化是當前最大的結構性問題。 arxiv 的 AI Transparency Atlas（2024）分析 100 份 Hugging Face Model Card 後發現，「使用說明」這個欄位就有 97 種不同命名，導致系統性比較幾乎不可能。這個問題在大型機構（Anthropic、Microsoft、xAI）與小型發布者之間差距顯著：前緣實驗室的透明度框架合規率約 80%，多數小型模型發布者則低於 60%。

安全評估欄位填寫率遠低於技術指標。 超過 90% 的 Model Card 包含架構說明與 benchmark 分數，但僅有 65% 涵蓋安全評估，偏差與公平性章節更只有 60%——而且多為表面描述。失分最集中的項目是：欺騙性行為（deception behaviors）、幻覺（hallucinations）與兒童安全評估（child safety），三項合計損失超過 380 個標準化評分點。

Red Hat 提出的「開放系統卡」標準讓安全漏洞揭露更具可操作性：它要求文件格式機器可讀、跨版本可追蹤，且需記錄每個安全問題的修復狀態，而非僅靜態列出已知風險。這個方向代表 AI 文件正從「公關說明書」轉型為「可查核的工程承諾」。NVIDIA 的 EU AI Act 合規推動也印證了同一趨勢：監管壓力正在倒逼文件標準從自願性演化為強制性。

反向連結

以下頁面引用了本頁：

Claude Mythos 系統卡分析
ChatGPT 如何在保護隱私的同時持續學習（文章精選）
AI 內容溯源框架：OpenAI C2PA × SynthID 防偽驗證體系（文章精選）