核心概念
2026 年 5 月 5 日,OpenAI 發布 GPT-5.5 Instant 系統卡(System Card),記錄了這款模型在正式部署前的完整安全評估結果。GPT-5.5 Instant 是 Instant 系列的重大里程碑:它是第一個被 OpenAI 在網路安全(Cybersecurity)及生物與化學應對(Biological & Chemical Preparedness)兩大類別同時列為「High capability」的 Instant 等級模型,因此觸發了更嚴格的 Preparedness 防護措施。
Instant 系列的前一個版本是 GPT-5.3 Instant(OpenAI 注明「並不存在 GPT-5.4 Instant」,版本號直接跳升),因此系統卡以 GPT-5.3 為基準進行各項比對。
OpenAI 的安全評估架構有一個重要方法論前提:所有評估結果均代表下界(lower bound),並非模型能力上限——透過額外的提示工程、微調、更長的推理鏈,或不同的工具搭配,模型可能展現出超過測試所觀察到的行為。
Preparedness 框架概述
OpenAI 的 Preparedness 框架將模型能力分為四個等級:Low、Medium、High、Critical。一旦某個類別被評定為 High 或以上,就必須啟動對應的防護措施(safeguards)才能允許部署。GPT-5.5 Instant 是首款在 Cybersecurity 與 Bio/Chem 兩個高敏感類別同時觸達 High 門檻的 Instant 模型。
生物與化學評估(High capability)
生物與化學領域的評估結果顯示 GPT-5.5 Instant 的實際能力具有明確的不對稱性:
- 超越專家基準:在病毒學疑難排解(virology troubleshooting)任務上,模型的表現超過領域專家基準,顯示在特定的概念性知識問答上具有高度風險
- 實驗室操作落差:在需要動手實作經驗的標準操作程序(SOP)疑難排解任務上,模型明顯落後,表現受限於缺乏真實實驗環境的感知能力
- 防護觸發:由於生物威脅的潛在嚴重性高於化學威脅,OpenAI 以生物能力評估作為整體分類的主要指標,並已全面啟動 Preparedness 防護措施
網路安全評估(High capability)
網路安全領域的評估呈現出一個關鍵條件:GPT-5.5 Instant 在高推理努力(higher reasoning effort)模式下才達到 High capability,而在標準部署設定下並未達到同等水準。
具體評估數據如下:
| 評估項目 | GPT-5.5 Instant | GPT-5.5 Thinking |
|---|---|---|
| 端對端資安演練(Cyber Range) | 13 題通過 10 題 | 13 題通過 12 題 |
| CTF 競賽表現 | 明顯較低 | 基準 |
| CVE-Bench 漏洞研究 | 明顯較低 | 基準 |
OpenAI 的評估摘要:GPT-5.5 Instant 在長時程任務(long-horizon tasks)上表現偏弱,是其網路安全能力顯著低於 GPT-5.5 Thinking 的主因。
不允許內容安全測試
系統卡也揭露了模型在禁止內容分類上的表現。整體而言,GPT-5.5 Instant 與 GPT-5.3 在大多數類別持平,但出現兩個明確的退步(regression):
| 類別 | GPT-5.5 Instant | 前代參考值 |
|---|---|---|
| 暴力/血腥內容(gore) | 0.703 | 較高(退步) |
| 性相關內容(sexual) | 0.806 | 較高(退步) |
針對上述退步,OpenAI 在系統層部署了額外的內容過濾與年齡適切性限制機制,而非依賴模型本身的行為控制。
心理健康與情緒影響測試
在心理健康情境的動態基準測試中:
- 整體表現與 GPT-5.3 持平
- **情緒依賴測試(emotional reliance)**出現輕微退步:0.963(前代為 0.995)
OpenAI 認為這個退步在可接受範圍內,並已納入後續模型行為監測計畫。
關鍵要點
- 里程碑意義:GPT-5.5 Instant 是 Instant 系列首個同時在 Cybersecurity 和 Bio/Chem 觸達 High capability 的模型,代表 Instant 系列的整體能力正持續逼近 Thinking 系列
- 評估下界原則:所有測試分數均為能力下界,OpenAI 明確提示部署後應假設模型具備超過測試所見的潛在能力
- 非對稱安全策略:面對模型行為的退步(如暴力/性內容),OpenAI 優先採用系統層防護而非重新訓練,顯示部署壓力下的務實取捨
- 長時程任務是能力瓶頸:Instant 等級模型在需要多步驟規劃的網路攻擊鏈場景中表現仍顯著落後 Thinking 系列,這既是安全緩衝,也是能力天花板
- 生物領域非對稱風險:模型在概念知識層(如病毒學知識問答)超越專家,但在程序知識層(SOP 操作)落後——這種非對稱性可能在真實攻擊情境中被利用
實務應用
對 AI 安全研究者的啟示:OpenAI 的 Preparedness 框架提供了一個可操作的分級部署模型——High capability 觸發防護,Critical capability 可能阻止部署。業界可參照此框架為自家模型建立安全閘道。
對企業使用者的影響:GPT-5.5 Instant 部署時已附帶加強的監控系統,企業在使用 API 開發網路安全或生物資訊相關應用時,應預期 OpenAI 端存在更積極的內容稽核。
對評估方法論的反思:系統卡中「評估代表下界」的聲明,意味著任何基於標準評估的安全保證都必須保留餘裕——評估框架本身無法完全捕捉模型在對抗性環境下的實際能力邊界。
延伸觀點
從 OpenAI 官方 Preparedness Framework v2 及外部批評者的多角度分析中,可以歸納出三個在系統卡本身較少直接點明的結構性問題:
一、「High capability 門檻」是雙面刃 Preparedness 框架 v2 精簡為 High / Critical 兩個層級:High 要求「部署前防護到位」,Critical 則在「開發中就必須啟動防護」。GPT-5.5 Instant 觸達 High 並成功部署,等於是框架實際運作的第一個完整案例——也首次驗證了整個 SAG(Safety Advisory Group)審核流程在 Instant 等級模型上的可操作性。不過,外部分析者(AI Lab Watch)指出框架中的核心標準「sufficiently minimize risk」缺乏量化定義,實質上由 OpenAI 自行裁量。
二、行為測試無法捕捉欺騙性對齊問題 多個來源共同指出:現行評估方法(行為測試 + 紅隊測試)預設模型在測試環境中表現與部署後一致。但對齊研究中已知存在「評估時合規、部署後異常」的理論風險——系統卡以下界論述隱含承認了這一點,卻沒有提出對應的反欺騙驗證機制。
三、評估頻率 vs. 發布節奏的張力 GPT-5 系列的發布節奏(5.1 → 5.2 → 5.3 → 5.5 Instant,跳過 5.4)顯示商業壓力下的快速迭代。Preparedness 框架 v2 同步引入「快速自動化評估 + 深度專家評估」雙軌機制,試圖在速度與嚴謹度之間取得平衡,但外界尚無法驗證深度評估是否已達到足夠深度。
相關頁面:GPT-5.5 Instant:ChatGPT 預設模型的幻覺減半與個人化升級 | GPT-5.5-Cyber 與可信存取計畫:AI 驅動資安防禦的新里程碑 | 智能時代的網路安全:OpenAI 五點行動計畫 | GPT 小妖精事件:強化學習人格訓練的行為外洩
反向連結
以下頁面引用了本頁: