Warp：以GPT-5.5建構開源AI開發代理

核心概念

Warp 將旗下終端機客戶端以 AGPL v3 授權開源，OpenAI 出任創始贊助商，並提出「開放代理開發（Open Agentic Development）」新典範：人類定義目標與審查結果，AI agent 負責規劃、撰寫程式碼、測試與開 PR。

GPT-5.5 是核心引擎，在 Terminal-Bench 2.0 達到 82.7% 準確率（前代 GPT-5.4 為 75.1%），且每個代理任務比 GPT-5.4 少用 30% token，使長時程 agent loop 在經濟上可行。Warp 自身工程團隊已讓代理協同產生約 90% 的 Pull Request。

Oz 雲端協調平台是整套系統的控制平面，處理 issue 分類、規格撰寫、程式實作與 PR 初審。Oz 先行審查通過後，才路由到 Warp 領域專家做最終確認。公開 Dashboard 讓任何人能即時追蹤 agent 執行過程，相比 Codex 安全生產部署：沙盒、審批工作流與可觀測性強調的企業內部可觀測性，Warp 更進一步將透明度延伸至公開社群。

技術棧以 Rust（98%+）撰寫，跨平台支援 macOS、Windows、Linux、WASM。除 GPT-5.5 外，亦支援開源模型 Kimi、MiniMax、Qwen，以及外部 CLI agent：Claude Code、Codex、Gemini CLI。

關鍵要點

Terminal-Bench 領先：GPT-5.5 在 Terminal-Bench 2.0 達 82.7%，涵蓋軟體工程、ML、系統管理、資料科學與資安等多領域複雜工作流，確立代理終端任務的當前最佳基準。
token 效率驅動規模化：每任務節省 30% token 的效果在單次互動中不顯著，但大規模 agent 工作流會以乘數放大，直接決定是否能經濟可行地運行長時程 agent loop。
90% PR 里程碑：代理從「輔助工具」轉為「主要生產者」，人類角色收斂為目標設定與品質審核——這與 NVIDIA × Codex：萬人工程師的 GPT-5.5 實戰手冊觀察到的行業趨勢一致。
開放模型支援策略：同時整合開源模型與多種 CLI agent，降低廠商鎖定風險，讓不同規模的開發團隊都能採用。

實務應用

採用 Warp + Oz 工作流的三個切入點：

審查者思維轉換：開發者從「寫程式」轉為「審查輸出」，工作重心移至精確的規格撰寫與目標定義。arXiv 研究顯示代理 PR 被拒主因是複雜度過高而非錯誤，規格先行可有效降低拒絕率。
環境標準化：容器化開發環境搭配穩定的測試套件，讓 agent 能透過自動化反饋迴圈自我修正，減少人工介入頻率。
非技術貢獻者參與：Oz 讓「描述需求」即可啟動完整實作流程，呼應 Simplex × Codex：AI 原生軟體開發的五個轉型原則中 AI 擴大非技術貢獻者參與能力的論點。

延伸觀點

多個來源交叉驗證以下共識：

開發者角色從「寫程式」轉為「指揮者」（addyo.substack.com、addyosmani.com 均提及）：人類定義目標、審查 diff，agent 自主規劃並執行；多代理平行農場（20-50 個 agent 同時運行）在工具支援下已具可操作性。

策略性模型切換成為標準實踐（addyosmani.com、主文均提及）：Claude Code、Codex CLI、Gemini CLI 各有優勢，無單一模型主導所有任務，Warp 的多模型支援設計正是回應此現實。

Harness 工程是代理性能的真正差異化因素（skywork.ai 深度分析）：驗證中介層、迴圈偵測與 context 管理的品質，決定代理在複雜任務中的成功率，遠比原始模型能力更關鍵。

反向連結

以下頁面引用了本頁：

NVIDIA × Codex：萬人工程師的 GPT-5.5 實戰手冊（文章精選）
Simplex × Codex：AI 原生軟體開發的五個轉型原則（文章精選）