AI 作為人類智能的延伸：微軟研究院認知科學視角

核心概念

微軟研究院於 2026 年 5 月 27 日發布這篇由 Ken Archer（負責任 AI 產品經理）與 Harald Wiltsche（林雪平大學哲學教授）共同撰寫的文章，核心命題只有一句話：AI 的強大之處不在於複製人類智能，而在於擴展人類認知中已存在的結構。

這個命題聽起來細微，但對 AI 開發與治理的意義截然不同。若 AI 只是「延伸」而非「複製」，那麼它的局限性就不是工程缺陷，而是結構性的——需要的不是讓 AI 更像人，而是設計讓 AI 與人類認知互補的系統。

人類感知不是被動接收

文章首先從現象學出發：人類感知並非相機式的資料輸入，而是一種主動建構。我們看到的不是原始感官資料，而是「穩定事物在時間中展開」——物體、意圖、因果關係。這種建構能力讓人類能在雜訊中辨識模式、在新情境中遷移知識。

語言將這些感知結構以概念形式表達出來。「椅子」這個詞不只是聲音，它承載著無數次坐、站、搬移椅子的身體記憶與使用脈絡。語言是感知結構的外殼，而非感知本身。

LLM 捕捉了什麼，遺漏了什麼

大型語言模型（LLM）本質上是在學習人類語言的統計關係：哪些詞彙共現、哪些句型重複、哪些概念在什麼情境下出現。這解釋了 LLM 的連貫性——它學到了人類思想的語言形狀——也解釋了它的局限性。

LLM 遺漏的是感知結構本身的來源：身體與世界的接觸。作者用一個簡單說法：AI「缺乏將意義和真實錨定在世界中的生活接觸（lived contact）」。語言模型學到的是概念的投影，而非概念所指向的現實。

這產生兩個可觀察的缺口：

組合性差距（Compositional Gap）：AI 在熟悉模式上表現良好，但難以將全新概念組合起來。人類可以理解「一位左撇子的鋼琴家在月球上演奏」，是因為我們有身體感知；AI 只能從語料中尋找相似結構。
多模態系統的脆弱性：視覺語言模型學習的是視覺特徵與詞彙的統計關聯，而非穩定物體的認知。當情境偏離訓練分佈，系統就會產生令人信服但無根據的輸出——即「幻覺」。

從模型安全到系統安全

文章最重要的實踐轉向在於安全框架。傳統觀點將 AI 安全視為「模型對齊問題」：讓模型本身更安全。但作者主張，這個框架低估了問題的複雜度。

真正有效的框架是系統安全：AI 不是孤立的決策者，而是嵌入在組織流程、人類監督、制度責任中的元件。分層治理意味著：

模型層面的技術對齊
使用者介面層面的透明度設計
組織層面的問責機制
制度層面的外部稽核

這個框架的含義是：信任 AI 系統不等於信任 AI 模型，而是信任整個「人機協作系統」的設計是否足夠嚴謹。

關鍵要點

AI 預設人類智能的存在：LLM 的連貫性來自人類語言，它是人類認知的映像，而非獨立的第二智能
身體接地的不可替代性：概念意義根植於身體經驗，純語言訓練無法習得「現實感」，這是結構性局限而非訓練不足
組合性是 AI 當前最大缺口：熟悉模式→高表現，全新組合→不可預測；這影響高風險決策場景的可靠性
多模態系統學到關聯，非認知：視覺語言模型的「穩定物體理解」比語言模型更脆弱，因為視覺中的接地問題更難被語料統計補償
安全框架必須從模型升至系統：分層保護機制 + 組織責任，不能期望模型自帶安全性

實務應用

這篇文章的最直接應用場景是AI 系統設計決策：

對於需要「創意組合」的任務（廣告文案、產品命名、設計提案），AI 的組合性差距意味著人類複審仍不可省略
多模態應用（醫療影像分析、自動駕駛感知）的可靠性驗證不能只看平均性能，要特別測試分佈外（out-of-distribution）樣本
部署 AI 系統時，問責機制的設計應優先於模型本身的對齊工作

對Vega：AI 時代的零知識數位身份驗證等 AI 信任基礎設施而言，這篇文章提供了哲學層面的支撐：AI 系統的可信度最終來自人類制度設計，而非模型本身的「誠實性」。

延伸觀點

三篇獨立研究驗證並補充了微軟研究院的核心命題：

AI 是放大器還是平衡器？取決於任務複雜度

arxiv 研究《AI as Equalizer or Amplifier》（2024）發現任務複雜度是關鍵調節變數：在低複雜度任務中，AI 縮小專業與非專業人士的能力差距（平衡器效應）；在高複雜度任務中，AI 強化具備深度專業知識者的優勢（放大器效應）。這與微軟研究院「延伸已存在結構」的論點高度吻合——AI 放大的是人類已有的認知資產，而非憑空補足空白。

LLM 謬誤：誤將 AI 輔助當成自身能力的系統性偏差

arxiv 研究《The LLM Fallacy》（2026）提出一個與本文密切相關的風險：使用者在 AI 輔助工作後，容易將輸出的連貫與品質歸因為自己的獨立能力。這種「認知外包後的能力幻覺」在教育評估、招聘、能力認證等場景中會產生系統性失真。從微軟研究院的框架看，這正是「AI 輸出聽起來很有根據，但缺乏現實錨定」的制度性後果。

視覺語言模型的接地問題比語言模型更嚴峻

arxiv 研究《LVLMs and Humans Ground Differently》（2025）用互動實驗直接測試視覺語言模型在指稱接地上的能力，發現人類採用「協商式共享參考」——動態調整表達方式直到對方確認理解——而 LVLMs 傾向於依賴視覺特徵的靜態對應，無法處理需要對話協商的模糊指稱。這與微軟研究院「多模態系統學習關聯而非穩定物體認知」的觀點形成實驗層面的支撐。

三篇研究共同指向同一個設計原則：AI 系統的可靠性邊界由人類認知基礎決定，超出這個邊界的應用必須有對應的人類監督機制。

反向連結

以下頁面引用了本頁：

AI 委派任務的文件保真度危機：Microsoft Research 深度解析（文章精選）
Vega：AI 時代的零知識數位身份驗證（文章精選）
多代理網絡的湧現風險：Microsoft Research 紅隊測試報告（文章精選）
生成式因果測試：用 AI 解碼大腦語言神經編碼（文章精選）
Memora：調和記憶表示，讓 AI Agent 擁有可擴展的長期記憶（文章精選）