核心概念
微軟研究院於 2026 年 5 月 27 日發布這篇由 Ken Archer(負責任 AI 產品經理)與 Harald Wiltsche(林雪平大學哲學教授)共同撰寫的文章,核心命題只有一句話:AI 的強大之處不在於複製人類智能,而在於擴展人類認知中已存在的結構。
這個命題聽起來細微,但對 AI 開發與治理的意義截然不同。若 AI 只是「延伸」而非「複製」,那麼它的局限性就不是工程缺陷,而是結構性的——需要的不是讓 AI 更像人,而是設計讓 AI 與人類認知互補的系統。
人類感知不是被動接收
文章首先從現象學出發:人類感知並非相機式的資料輸入,而是一種主動建構。我們看到的不是原始感官資料,而是「穩定事物在時間中展開」——物體、意圖、因果關係。這種建構能力讓人類能在雜訊中辨識模式、在新情境中遷移知識。
語言將這些感知結構以概念形式表達出來。「椅子」這個詞不只是聲音,它承載著無數次坐、站、搬移椅子的身體記憶與使用脈絡。語言是感知結構的外殼,而非感知本身。
LLM 捕捉了什麼,遺漏了什麼
大型語言模型(LLM)本質上是在學習人類語言的統計關係:哪些詞彙共現、哪些句型重複、哪些概念在什麼情境下出現。這解釋了 LLM 的連貫性——它學到了人類思想的語言形狀——也解釋了它的局限性。
LLM 遺漏的是感知結構本身的來源:身體與世界的接觸。作者用一個簡單說法:AI「缺乏將意義和真實錨定在世界中的生活接觸(lived contact)」。語言模型學到的是概念的投影,而非概念所指向的現實。
這產生兩個可觀察的缺口:
- 組合性差距(Compositional Gap):AI 在熟悉模式上表現良好,但難以將全新概念組合起來。人類可以理解「一位左撇子的鋼琴家在月球上演奏」,是因為我們有身體感知;AI 只能從語料中尋找相似結構。
- 多模態系統的脆弱性:視覺語言模型學習的是視覺特徵與詞彙的統計關聯,而非穩定物體的認知。當情境偏離訓練分佈,系統就會產生令人信服但無根據的輸出——即「幻覺」。
從模型安全到系統安全
文章最重要的實踐轉向在於安全框架。傳統觀點將 AI 安全視為「模型對齊問題」:讓模型本身更安全。但作者主張,這個框架低估了問題的複雜度。
真正有效的框架是系統安全:AI 不是孤立的決策者,而是嵌入在組織流程、人類監督、制度責任中的元件。分層治理意味著:
- 模型層面的技術對齊
- 使用者介面層面的透明度設計
- 組織層面的問責機制
- 制度層面的外部稽核
這個框架的含義是:信任 AI 系統不等於信任 AI 模型,而是信任整個「人機協作系統」的設計是否足夠嚴謹。
關鍵要點
- AI 預設人類智能的存在:LLM 的連貫性來自人類語言,它是人類認知的映像,而非獨立的第二智能
- 身體接地的不可替代性:概念意義根植於身體經驗,純語言訓練無法習得「現實感」,這是結構性局限而非訓練不足
- 組合性是 AI 當前最大缺口:熟悉模式→高表現,全新組合→不可預測;這影響高風險決策場景的可靠性
- 多模態系統學到關聯,非認知:視覺語言模型的「穩定物體理解」比語言模型更脆弱,因為視覺中的接地問題更難被語料統計補償
- 安全框架必須從模型升至系統:分層保護機制 + 組織責任,不能期望模型自帶安全性
相關研究:多代理網絡的湧現風險:Microsoft Research 紅隊測試報告、AI 委派任務的文件保真度危機:Microsoft Research 深度解析
實務應用
這篇文章的最直接應用場景是AI 系統設計決策:
- 對於需要「創意組合」的任務(廣告文案、產品命名、設計提案),AI 的組合性差距意味著人類複審仍不可省略
- 多模態應用(醫療影像分析、自動駕駛感知)的可靠性驗證不能只看平均性能,要特別測試分佈外(out-of-distribution)樣本
- 部署 AI 系統時,問責機制的設計應優先於模型本身的對齊工作
對Vega:AI 時代的零知識數位身份驗證等 AI 信任基礎設施而言,這篇文章提供了哲學層面的支撐:AI 系統的可信度最終來自人類制度設計,而非模型本身的「誠實性」。
延伸觀點
三篇獨立研究驗證並補充了微軟研究院的核心命題:
AI 是放大器還是平衡器?取決於任務複雜度
arxiv 研究《AI as Equalizer or Amplifier》(2024)發現任務複雜度是關鍵調節變數:在低複雜度任務中,AI 縮小專業與非專業人士的能力差距(平衡器效應);在高複雜度任務中,AI 強化具備深度專業知識者的優勢(放大器效應)。這與微軟研究院「延伸已存在結構」的論點高度吻合——AI 放大的是人類已有的認知資產,而非憑空補足空白。
LLM 謬誤:誤將 AI 輔助當成自身能力的系統性偏差
arxiv 研究《The LLM Fallacy》(2026)提出一個與本文密切相關的風險:使用者在 AI 輔助工作後,容易將輸出的連貫與品質歸因為自己的獨立能力。這種「認知外包後的能力幻覺」在教育評估、招聘、能力認證等場景中會產生系統性失真。從微軟研究院的框架看,這正是「AI 輸出聽起來很有根據,但缺乏現實錨定」的制度性後果。
視覺語言模型的接地問題比語言模型更嚴峻
arxiv 研究《LVLMs and Humans Ground Differently》(2025)用互動實驗直接測試視覺語言模型在指稱接地上的能力,發現人類採用「協商式共享參考」——動態調整表達方式直到對方確認理解——而 LVLMs 傾向於依賴視覺特徵的靜態對應,無法處理需要對話協商的模糊指稱。這與微軟研究院「多模態系統學習關聯而非穩定物體認知」的觀點形成實驗層面的支撐。
三篇研究共同指向同一個設計原則:AI 系統的可靠性邊界由人類認知基礎決定,超出這個邊界的應用必須有對應的人類監督機制。
反向連結
以下頁面引用了本頁: