功能感知機器人抓取：MLLM推理驅動框架

論文資訊

作者：Zhou Zhao、Jie Gao、Dongyuan Zheng
發表場地：IEEE Transactions on Automation Science and Engineering
發表日期：2026-01

核心概念

機器人抓取（Robotic Grasping）是具身 AI 的核心能力之一。然而傳統方法長期只聚焦在一個問題：「如何穩定地握住物體」——也就是讓機械手以幾何上合適的接觸點夾住物件，避免掉落或滑動。這種思路在受控環境下運作良好，但放到真實的人類生活場景就不夠用了。

問題的關鍵在於，物體除了幾何形狀之外，還有功能語義（Functional Semantics）。一個杯子有把手，你應該抓把手而不是杯口，因為把手就是為了被拿而設計的；一把剪刀有兩個孔，用途決定了你該抓哪裡。這種「物體某部位可以支援哪種互動」的屬性，在認知科學中稱為 Affordance（功能可見性／可供性）。

傳統機器人抓取系統缺乏對 Affordance 的理解，導致在非結構化、以人為中心的場景中效能受限——它能把杯子夾起來，但可能夾在杯口；能拿起剪刀，但可能握住刀刃。這不只是效率問題，在人機協作場景中更是安全隱患。

MLLM 驅動的功能可見性推理

本論文提出的解法：以**多模態大型語言模型（MLLM）**作為推理核心，驅動功能感知的機器人抓取框架。

MLLM 的優勢在於它本身就積累了龐大的世界知識與常識推理能力。它知道杯子的把手是用來拿的、螺絲起子的握柄是工作端的對立面、菜刀的安全握持點在刀柄而非刀刃。這些知識不需要重新標注大量資料集，也不需要額外的記憶模組——MLLM 本身就是這個知識庫。

這是本論文相較於先前研究的核心差異：先前的 Affordance 感知方法依賴大型標注資料集或額外的外部記憶模組，本框架直接利用 MLLM 的內建知識與推理能力推斷物體可供性，大幅降低了資料標注成本與系統複雜度。

三模組架構

框架由三個關鍵模組組成：

1. MLLM 功能推理模組（MLLM-based Affordance Reasoning Module） 接收場景視覺輸入，結合 MLLM 的語言與視覺理解能力，推斷場景中每個物體的功能可見性區域——即「哪個部位適合在什麼任務情境下被抓取或操作」。這一步是整個框架的語義核心，輸出的是帶有功能標記的物體區域。

2. 功能引導的抓取規劃模組 以 Affordance Reasoning 模組的輸出為約束，規劃具體的抓取姿態（Grasp Pose）。傳統規劃只最佳化幾何穩定性，本模組在此基礎上加入功能語義約束：抓取姿態不只要穩定，還必須符合物體的使用語義。

3. 多模態感知整合模組 整合 RGB 影像、深度資訊與 MLLM 的推理輸出，確保框架能在真實的三維場景中準確定位功能區域並轉換為可執行的機械臂指令。

關鍵要點

Affordance 是機器人抓取的語義缺口：只懂幾何穩定性的抓取系統在人類場景中天生有限，功能可見性推理是連接物理操作與語義理解的橋樑。
MLLM 作為零樣本知識源：不需要為每種物體標注 Affordance 資料，直接利用 MLLM 的預訓練知識進行推理，具有良好的泛化能力，可應對長尾物體類別。
端對端語義—動作對齊：從語言層面的功能理解，到幾何層面的抓取規劃，再到執行層面的機械臂控制，三個模組共同打通「語義理解 → 物理動作」的全鏈路。
IEEE TASE 發表：IEEE Transactions on Automation Science and Engineering 是機器人與自動化領域的頂級期刊，本論文的發表代表方法具備工程可實施性，不只是理論框架。
具身 AI 的關鍵進展：Affordance 感知是從「能抓取」到「懂得如何抓取」的質變。這一能力在家庭助理機器人、手術輔助系統、工廠人機協作等場景中至關重要。

實務應用

家庭服務機器人：當機器人被要求「把那杯茶遞給我」，它不只需要找到杯子，還需要以讓人能接手的姿態拿起——握把手，杯口朝上。這正是 Affordance 推理所解決的問題。

手術與醫療輔助：手術器械的正確握持方式攸關安全，MLLM 的常識知識可提供初始 Affordance 推斷，再由領域微調進一步精緻化。

工廠人機協作：工人與機械臂協同作業時，機械臂需理解工具的功能區域（螺絲起子的握柄、錘子的柄部），才能安全地遞交工具給人類。

與現有知識的連結：本論文的核心架構思路與多模態視覺語言模型的人類中心區域自適應中「以人為中心的區域理解」高度呼應——兩者都強調模型需要理解場景中哪些區域對人類行為具有語義意義，而不只是做像素級的分類。Affordance 推理可以視為「人類中心視覺理解」在機器人執行端的延伸。

延伸觀點

對照同期三篇 arXiv 論文（LLM+Affordance Prompting、PAVLM、PhyGrasp），可以看出整個領域的幾個共同收斂方向：

Affordance 是語言與物理動作的核心中介層（三篇共同）。無論用純語言提示、3D 點雲整合還是物理屬性建模，這些研究都在做同一件事：把「語言指令中的語義意圖」轉換為「可執行的空間定位」。Affordance 不只是抓取的工程手段，更是語言—動作對齊問題的根本解法。

凍結預訓練模型 + 輕量橋接已成業界主流做法（三篇共同）。從本論文直接利用 MLLM 內建知識，到 PAVLM 凍結 Llama 接橋接層，再到 PhyGrasp 凍結雙編碼器用橋接網路整合——大家都在避免全量重訓。這說明預訓練模型的知識已足夠豐富，問題轉為如何有效萃取和對齊，而非從頭學習。

物理屬性是 2D 視覺之外的必要維度（PhyGrasp，arxiv）。外觀幾乎相同但密度或材質差異極大的物件，純視覺方法會完全失效。未來的功能感知抓取系統可能需要顯式建模材質、脆性等物理屬性，而非僅依賴幾何或語義。本論文以 MLLM 常識推理隱式覆蓋這一維度，但隨任務精度提升，顯式物理屬性建模或許是下一步。

情境感知增強（Context-Aware Prompting）可顯著提升語義理解深度（PAVLM，arxiv）。讓 LLM 為每個 affordance 類別生成更豐富的語義描述作為輸入增強，能改善模型對任務意圖的理解，這一思路可以直接套用在本論文的 Affordance Reasoning 模組設計中。

反向連結

以下頁面引用了本頁：