GPT-5.5 Instant 系統卡：High-Capability 安全評估框架

核心概念

2026 年 5 月 5 日，OpenAI 發布 GPT-5.5 Instant 系統卡（System Card），記錄了這款模型在正式部署前的完整安全評估結果。GPT-5.5 Instant 是 Instant 系列的重大里程碑：它是第一個被 OpenAI 在網路安全（Cybersecurity）及生物與化學應對（Biological & Chemical Preparedness）兩大類別同時列為「High capability」的 Instant 等級模型，因此觸發了更嚴格的 Preparedness 防護措施。

Instant 系列的前一個版本是 GPT-5.3 Instant（OpenAI 注明「並不存在 GPT-5.4 Instant」，版本號直接跳升），因此系統卡以 GPT-5.3 為基準進行各項比對。

OpenAI 的安全評估架構有一個重要方法論前提：所有評估結果均代表下界（lower bound），並非模型能力上限——透過額外的提示工程、微調、更長的推理鏈，或不同的工具搭配，模型可能展現出超過測試所觀察到的行為。

Preparedness 框架概述

OpenAI 的 Preparedness 框架將模型能力分為四個等級：Low、Medium、High、Critical。一旦某個類別被評定為 High 或以上，就必須啟動對應的防護措施（safeguards）才能允許部署。GPT-5.5 Instant 是首款在 Cybersecurity 與 Bio/Chem 兩個高敏感類別同時觸達 High 門檻的 Instant 模型。

生物與化學評估（High capability）

生物與化學領域的評估結果顯示 GPT-5.5 Instant 的實際能力具有明確的不對稱性：

超越專家基準：在病毒學疑難排解（virology troubleshooting）任務上，模型的表現超過領域專家基準，顯示在特定的概念性知識問答上具有高度風險
實驗室操作落差：在需要動手實作經驗的標準操作程序（SOP）疑難排解任務上，模型明顯落後，表現受限於缺乏真實實驗環境的感知能力
防護觸發：由於生物威脅的潛在嚴重性高於化學威脅，OpenAI 以生物能力評估作為整體分類的主要指標，並已全面啟動 Preparedness 防護措施

網路安全評估（High capability）

網路安全領域的評估呈現出一個關鍵條件：GPT-5.5 Instant 在高推理努力（higher reasoning effort）模式下才達到 High capability，而在標準部署設定下並未達到同等水準。

具體評估數據如下：

評估項目	GPT-5.5 Instant	GPT-5.5 Thinking
端對端資安演練（Cyber Range）	13 題通過 10 題	13 題通過 12 題
CTF 競賽表現	明顯較低	基準
CVE-Bench 漏洞研究	明顯較低	基準

OpenAI 的評估摘要：GPT-5.5 Instant 在長時程任務（long-horizon tasks）上表現偏弱，是其網路安全能力顯著低於 GPT-5.5 Thinking 的主因。

不允許內容安全測試

系統卡也揭露了模型在禁止內容分類上的表現。整體而言，GPT-5.5 Instant 與 GPT-5.3 在大多數類別持平，但出現兩個明確的退步（regression）：

類別	GPT-5.5 Instant	前代參考值
暴力/血腥內容（gore）	0.703	較高（退步）
性相關內容（sexual）	0.806	較高（退步）

針對上述退步，OpenAI 在系統層部署了額外的內容過濾與年齡適切性限制機制，而非依賴模型本身的行為控制。

心理健康與情緒影響測試

在心理健康情境的動態基準測試中：

整體表現與 GPT-5.3 持平
**情緒依賴測試（emotional reliance）**出現輕微退步：0.963（前代為 0.995）

OpenAI 認為這個退步在可接受範圍內，並已納入後續模型行為監測計畫。

關鍵要點

里程碑意義：GPT-5.5 Instant 是 Instant 系列首個同時在 Cybersecurity 和 Bio/Chem 觸達 High capability 的模型，代表 Instant 系列的整體能力正持續逼近 Thinking 系列
評估下界原則：所有測試分數均為能力下界，OpenAI 明確提示部署後應假設模型具備超過測試所見的潛在能力
非對稱安全策略：面對模型行為的退步（如暴力/性內容），OpenAI 優先採用系統層防護而非重新訓練，顯示部署壓力下的務實取捨
長時程任務是能力瓶頸：Instant 等級模型在需要多步驟規劃的網路攻擊鏈場景中表現仍顯著落後 Thinking 系列，這既是安全緩衝，也是能力天花板
生物領域非對稱風險：模型在概念知識層（如病毒學知識問答）超越專家，但在程序知識層（SOP 操作）落後——這種非對稱性可能在真實攻擊情境中被利用

實務應用

對 AI 安全研究者的啟示：OpenAI 的 Preparedness 框架提供了一個可操作的分級部署模型——High capability 觸發防護，Critical capability 可能阻止部署。業界可參照此框架為自家模型建立安全閘道。

對企業使用者的影響：GPT-5.5 Instant 部署時已附帶加強的監控系統，企業在使用 API 開發網路安全或生物資訊相關應用時，應預期 OpenAI 端存在更積極的內容稽核。

對評估方法論的反思：系統卡中「評估代表下界」的聲明，意味著任何基於標準評估的安全保證都必須保留餘裕——評估框架本身無法完全捕捉模型在對抗性環境下的實際能力邊界。

延伸觀點

從 OpenAI 官方 Preparedness Framework v2 及外部批評者的多角度分析中，可以歸納出三個在系統卡本身較少直接點明的結構性問題：

一、「High capability 門檻」是雙面刃 Preparedness 框架 v2 精簡為 High / Critical 兩個層級：High 要求「部署前防護到位」，Critical 則在「開發中就必須啟動防護」。GPT-5.5 Instant 觸達 High 並成功部署，等於是框架實際運作的第一個完整案例——也首次驗證了整個 SAG（Safety Advisory Group）審核流程在 Instant 等級模型上的可操作性。不過，外部分析者（AI Lab Watch）指出框架中的核心標準「sufficiently minimize risk」缺乏量化定義，實質上由 OpenAI 自行裁量。

二、行為測試無法捕捉欺騙性對齊問題 多個來源共同指出：現行評估方法（行為測試 + 紅隊測試）預設模型在測試環境中表現與部署後一致。但對齊研究中已知存在「評估時合規、部署後異常」的理論風險——系統卡以下界論述隱含承認了這一點，卻沒有提出對應的反欺騙驗證機制。

三、評估頻率 vs. 發布節奏的張力 GPT-5 系列的發布節奏（5.1 → 5.2 → 5.3 → 5.5 Instant，跳過 5.4）顯示商業壓力下的快速迭代。Preparedness 框架 v2 同步引入「快速自動化評估 + 深度專家評估」雙軌機制，試圖在速度與嚴謹度之間取得平衡，但外界尚無法驗證深度評估是否已達到足夠深度。

反向連結

以下頁面引用了本頁：

GPT 小妖精事件：強化學習人格訓練的行為外洩（文章精選）
GPT-5.5 Instant：ChatGPT 預設模型的幻覺減半與個人化升級（文章精選）
GPT-5.5-Cyber 與可信存取計畫：AI 驅動資安防禦的新里程碑（文章精選）
智能時代的網路安全：OpenAI 五點行動計畫（文章精選）
OpenAI 前沿治理框架：AI 安全合規的法規對齊策略（文章精選）
OpenAI 前沿治理框架：AI 安全法規對齊路徑（文章精選）
前沿 AI 第三方評估手冊：OpenAI 的信任框架與失真風險管控（文章精選）
可信任第三方 AI 評估：OpenAI 指引手冊（文章精選）
Nemotron 3.5 Content Safety：企業多模態 AI 內容安全的可定制解決方案（文章精選）
ChatGPT 健康智能強化：GPT-5.5 Instant 醫師盲評與推理躍升（文章精選）
GPT-5.6 Sol 預覽：OpenAI 下一代旗艦模型（文章精選）
GPT-5.5 生物漏洞賞金計畫（文章精選）