MagenticLite：為小型模型優化的代理系統三層架構

核心概念

MagenticLite 是 Microsoft Research AI Frontiers 於 2026 年 5 月 21 日發布的代理系統，由三個協同運作的組件構成：MagenticLite（應用層）、MagenticBrain（協調模型）、Fara1.5（電腦操作模型）。整套系統的核心命題：代理能力取決於工具協調與行動，而非單純靠模型的知識量。

這個系統的誕生背景是「大模型不等於好代理」的現實觀察。前代的 Magentic-UI 展示了跨瀏覽器代理潛力，但依賴大型前沿模型全程運作，計算成本高，且長任務中容易因 context 過長而退化。MagenticLite 的目標：用更小的模型、更精密的執行框架，達到相同甚至更好的代理性能。

三個組件的分工

MagenticLite（應用層） 重建的代理應用框架，是下一代 Magentic-UI。核心差異在於它同時跨越瀏覽器和本地文件系統——不是分別運作，而是在單一工作流程中協同操作。介面保留視覺化推理界面與 Human-in-the-Loop 機制，讓使用者可在任意步驟暫停或修正。

MagenticBrain（協調模型） 以 Qwen 3 為基底、針對 MagenticLite 執行框架進行端對端微調的協調模型。職責涵蓋三個維度：規劃（分解任務為子步驟）、編碼（生成腳本執行本地操作）、委派（將子任務分配給 Fara1.5 等專用模型）。關鍵設計是訓練和推論時使用完全相同的工具 schema，消除訓練—推論不一致的問題。

Fara1.5（電腦操作模型） 電腦操作（Computer Use）專用模型系列，基於 Qwen3.5 訓練，提供 4B、9B、27B 三個規格，官方推薦旗艦版為 9B。訓練數據約 200 萬個樣本：網頁軌跡 60%、合成環境 12.8%、表單填寫 12.5%、其他任務 14.7%。訓練採用監督微調（SFT），以「觀察→思考→行動」循環為框架，輸入包含對話歷史與最近三張瀏覽器截圖。

關鍵要點

主動上下文管理（Active Context Curation）：執行框架在每一步主動篩選每個模型的輸入，確保小型模型在長任務中不被過量 context 淹沒。這是系統能以小模型維持長任務性能的核心機制。
增量式規劃：MagenticBrain 不是一次性生成完整計畫後交給 Fara1.5 執行，而是根據每步執行結果動態調整後續規劃。遇到意外狀況（頁面跳轉失敗、表單驗證錯誤）可即時重新規劃。
Fara1.5 基準突破：Online Mind2Web（300 個真實網頁任務）——Fara1.5-4B 57.3%、9B 63.4%、27B 72.0%，以同等規模達業界最優。9B 相較前代 Fara-7B 的 34.1% 提升 29.3 個百分點。WebVoyager 基準：9B 達 86.6%、27B 達 88.6%。
異質模型協同架構：協調模型負責高階推理與任務分解，執行模型負責具體瀏覽器互動，整體推論成本遠低於單一前沿大模型全程處理。
全部開源：三個組件均已在 GitHub 與 Microsoft Foundry 平台開源，可直接取用與評估。

實務應用

系統設計針對「日常任務」而非展示用的複雜場景，可執行的任務類型包括：

跨網站比價：蒐集多個電商平台的產品資訊後匯總回報
表單填寫與預約：餐廳訂位、政府表單、會議室預訂
本地文件整理：根據語意規則重新命名、移動、整理本地文件
信息搜尋與分析：跨頁面蒐集資料並生成摘要報告

這類任務的共同特點：需跨多頁面或系統操作、步驟數多但單步複雜度不高、傳統 RPA 需硬編碼規則而代理可以自適應變化。

延伸觀點

MagenticLite 所代表的設計哲學與 2026 年代理 AI 的整體演進方向高度吻合，可從兩個角度延伸理解：

小型特化模型優於通用大模型的場景邊界正在擴大

Fara1.5 在電腦操作任務上以 9B 模型超越許多更大的通用模型，印證了一個正在形成的共識：當任務分佈足夠聚焦、訓練數據匹配度夠高，小型特化模型在特定任務上可以超越規模更大的通用模型，且成本大幅更低。這個趨勢在多代理網絡的湧現風險：Microsoft Research 紅隊測試報告中也有類似觀察——不同能力的模型組合協作，往往比單一大模型更可靠。

Plan-and-Execute 成為代理系統的成本效率標準架構

MagenticBrain + Fara1.5 的組合本質上是 Plan-and-Execute 架構的一種實作：協調模型（能力較強）負責規劃，執行模型（成本較低）負責動作。業界多項研究表明，這種分工相較於讓前沿模型全程執行，成本可降低 90% 以上，同時在可追蹤性和可調試性上也有顯著優勢。AI 委派任務的文件保真度危機：Microsoft Research 深度解析進一步指出，任務委派中的文件品質是代理鏈失敗的主要原因——MagenticLite 的主動 context 管理機制正是針對這個問題的設計回應。

與 SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益的對照

MagenticLite 強調人類介入機制（Human-in-the-Loop），讓使用者在任意步驟介入修正，這與 Microsoft Research 同期發表的 SocialReasoning-Bench 所提出的「代理是否真正代表使用者利益」問題互相呼應——技術性能的提升（Fara1.5 基準突破）與使用者控制權的保留，在現階段是相輔相成而非對立的設計目標。

反向連結

以下頁面引用了本頁：

AI 委派任務的文件保真度危機：Microsoft Research 深度解析（文章精選）
SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益（文章精選）
多代理網絡的湧現風險：Microsoft Research 紅隊測試報告（文章精選）
AI Agent 詞彙指南：Harness、Scaffold 與 Sub-agent 層次定義（文章精選）
Google DeepMind 聯合資助多Agent安全研究：千萬美元對抗湧現風險（文章精選）
Is It Agentic Enough：Hugging Face 開源模型代理基準測試框架（文章精選）
Gemini 3.5 Flash Computer Use：從獨立模型到內建工具（文章精選）
CUGA：IBM Research 開源企業級代理框架與 24 個實作範例（文章精選）
Memora：調和記憶表示，讓 AI Agent 擁有可擴展的長期記憶（文章精選）