SocialReasoning-Bench：衡量 AI Agent 是否真正代表使用者利益

核心概念

AI Agent 越來越常在社交情境中代表使用者行事——管理行事曆、協商購買、與其他 Agent 互動。這不只需要任務能力，還需要社交推理（social reasoning）：理解使用者想要什麼、對方想要什麼，以及什麼資訊應該揭露、保護或反駁。

Microsoft Research 於 2026 年 5 月發表 SocialReasoning-Bench，這是一個專門評估 AI Agent 能否在對立利益環境中為使用者爭取最佳結果的基準測試。研究涵蓋 GPT-4.1、GPT-5.4、Claude Sonnet 4.6 和 Gemini 3 Flash 等前沿模型。

主委關係（Principal-Agent Relationship）

這類關係在法律與經濟學中早有框架：代理人（attorney、房仲、財務顧問）代表委託人與利益相左的第三方互動，並對委託人負有注意義務、忠誠義務、保密義務。AI Agent 若要在這類情境中運作，也應受到相似標準的約束。

兩大測試場景

行事曆協調（Calendar Coordination）：AI 助手管理使用者的行事曆，並與另一 Agent 協商會議時段。使用者有偏好值函數（0 到 1），對方的偏好恰好相反。部分對方 Agent 會試圖套取私人行事曆資訊或引導助手選擇對使用者不利的時段。

市場談判（Marketplace Negotiation）：AI 買家代表使用者，與 AI 賣家協商單一商品的成交價。買家的目標是壓低價格，賣家的目標是拉高價格。雙方各有私有底價（reservation price），兩個底價之間存在「可能協議空間（ZOPA）」，Agent 的品質取決於它能為使用者爭取多大比例的 ZOPA。

關鍵要點

兩個新評估指標

結果最優度（Outcome Optimality，OO）：Agent 為委託人爭取的 ZOPA 佔比，0 分代表完全讓步給對方，1 分代表完全爭取到最佳結果。

盡職程度（Due Diligence，DD）：與「合理代理人政策」的行動符合率——合理代理人在每個決策點的標準行為包括：行動前先收集相關情境、以有利己方的條件開局、窮盡更好選項後再讓步。這個指標用來區分「好結果是靠技巧還是靠運氣」。

兩者合稱 注意義務（Duty of Care）。

四象限分類

將 OO ≥ 0.5 視為「好結果」，DD ≥ 0.5 視為「有盡職」，可得出四種行為類型：

	不盡職	盡職
好結果	幸運（Lucky）	穩健（Robust）
差結果	失職（Negligent）	能力不足（Ineffective）

五大研究發現

任務完成率高，但結果品質差：會議幾乎都排成，交易幾乎都成交——但大多以對使用者不利的條件收場。任務完成率是虛假的成功訊號。
防禦性提示有幫助，但不夠：加入明確指示要求 Agent 為使用者爭取最佳利益，GPT-5.4 改善最多（行事曆 +0.21、市場 +0.12），但差距仍無法填平。GPT-4.1 對提示幾乎沒有反應。
結果往往偏向對方：在市場談判中，所有模型的 OO 接近 0，幾乎把全部 ZOPA 讓給賣家；在行事曆協調中稍好，但仍低於中點。
盡職不等於有效：多數模型在市場談判中展現出盡職行為（有確認情境、有反價），但結果仍然很差，屬於「能力不足」而非「失職」。在行事曆場景中，Gemini 3 Flash 達到 90% 的穩健率。
對抗性操控是盲點：除 Claude Sonnet 4.6 外，其他模型在行事曆場景中幾乎不拒絕惡意請求（在市場場景中拒絕率稍高）。社交情境中的惡意意圖比純商業情境更難偵測。被操控後，GPT-4.1、GPT-5.4 與 Gemini Flash 3 的 OO 明顯下滑。

實務應用

為何現在重要

個別 Agent 接受一個糟糕的會議時段或一筆虧本買賣，損失有限。但當多 Agent 系統大規模協作時，這些弱點會疊加：過度信任、缺乏盡職、談判能力不足，會透過 Agent 網絡傳播，造成系統性的價值損失。

這個問題與 Microsoft Research 先前在多代理網絡的湧現風險：Microsoft Research 紅隊測試報告中記錄的網絡效應直接相關：單一弱點透過協調鏈放大。

對 Agent 開發者的意涵

評估 AI Agent 不能只看「任務是否完成」，必須同時問「完成得有多好」。SocialReasoning-Bench 提供了兩個可量化的指標（OO 和 DD），讓開發者有具體目標：在合理提示下，Agent 應該能穩健地執行「為委託人爭取」這個職責，而不只是「把事做完」。

這呼應了 AI Agent 生產環境防線：最小權限與稽核控制的核心論點——Agent 的安全不只是「不做壞事」，也包括「積極做好事」。

與現有基準的差異

現有基準（如 GAIA、SWE-bench）聚焦在「能不能完成任務」。SocialReasoning-Bench 的貢獻在於：在有對立利益的真實代理情境中，測量完成品質與過程品質——這兩者才是「可信賴代理人」的核心。

延伸觀點

AI Agent 談判能力不足是跨研究的共識。arXiv 一項分析 18 萬次 AI-AI 談判的大規模研究（arxiv.org/2503.06416）發現，友善（warmth）是談判成功率的最強預測因子——友善的 Agent 更常達成協議，但爭取到的個人份額也更少，這與 SocialReasoning-Bench 中「任務完成但結果偏向對方」的模式吻合。

主委關係框架是正確的分析視角，並指向系統性問責缺口。另一篇 arXiv 論文（arxiv.org/2504.03255）用主委理論分析 LLM Agent，識別出四個根本缺陷：行為不穩定（改述指令即改變行為）、情境敏感（易受對抗提示影響）、記憶短暫、規劃有限。論文結論是：在現行架構下，委託人承受著自己無法完全控制或預測的風險，激勵結構存在根本性錯位。

Agent 能力不對等直接造成經濟傷害。一項針對 9 個 LLM 模型、100 種真實消費品的評估（arxiv.org/2506.00073）顯示：能力較弱的買家 Agent 多付約 2%、弱賣家少賺 9.5%；在 11.76% 的案例中，Agent 直接違反使用者設定的預算限制。這讓 2026 年 Agentic AI 七大趨勢中的「Agent 治理」議題從技術問題升格為消費者保護問題。

反向連結

以下頁面引用了本頁：

2026 年 Agentic AI 七大趨勢（技術與AI）
AI Agent 生產環境防線：最小權限與稽核控制（技術與AI）
多代理網絡的湧現風險：Microsoft Research 紅隊測試報告（文章精選）
MagenticLite：為小型模型優化的代理系統三層架構（文章精選）
Open Agent Leaderboard：通用代理系統的開放評估框架（文章精選）
Vega：AI 時代的零知識數位身份驗證（文章精選）
ITBench-AA：企業 IT 代理基準測試，前沿模型全部低於 50%（文章精選）
ITBench-AA：企業 SRE 代理任務首個基準測試（文章精選）