核心概念
VLA(Vision-Language-Action)模型是當前機器人研究的主流框架——讓模型同時理解視覺畫面、語言指令並輸出機器人動作。然而,要讓 VLA 真正具備泛化能力,光靠「看圖做動作」不夠,模型還必須建立對環境動態的預測能力,也就是世界模型(World Modeling)。
FRAPPE(Future Representation Alignment via Parallel Progressive Expansion)針對現有世界模型方法的兩個核心問題提出解法:
問題一:過度強調像素重建(Pixel-level Reconstruction) 當訓練目標要求模型預測未來「每個像素的精確值」時,模型被迫投入大量容量在視覺細節上,壓縮了語意理解(Semantic Understanding)的空間。模型學會了「畫出未來」,但不一定「理解未來」。
問題二:推理時依賴預測觀測值導致誤差累積(Error Accumulation) 許多方法在執行任務時,把「預測出的未來觀測畫面」作為下一步決策的輸入。第一步的預測誤差被帶入第二步、第三步,隨著執行步驟增加,誤差以指數速度放大,最終導致任務失敗。
FRAPPE 的解法:兩階段微調
FRAPPE 以**潛在表示(Latent Representation)**取代像素預測,設計了兩個連續的微調階段:
第一階段:中間訓練(Mid-Training) 模型學習預測「未來觀測的潛在表示」,而非原始像素畫面。潛在表示是視覺基礎模型(Visual Foundation Models)提取的高層語意特徵,含更豐富的語意資訊,但維度遠低於像素空間,大幅降低學習難度。
第二階段:後訓練(Post-Training) 系統透過平行漸進展開(Parallel Progressive Expansion)增加計算量,同時對齊多個視覺基礎模型的表示。推理時不依賴「預測的未來畫面」,直接從語意對齊中獲得世界感知能力,從根本上切斷誤差累積的路徑。
不同的視覺基礎模型擅長捕捉不同維度的語意特徵(物體辨識、空間關係、場景理解),多模型對齊讓 VLA 同時學習多種「理解未來的語言」,提升泛化到陌生環境的能力。
關鍵要點
- 語意 > 像素:放棄逐像素預測,轉而預測潛在語意表示,解決語意學習被壓縮的問題
- 推理去耦合:執行任務時不依賴預測觀測值,消除誤差累積的根源
- 兩階段策略:中間訓練建立語意預測能力,後訓練以並行展開強化對齊效率
- 資料高效(Data-Efficient):降低對大量帶標注動作資料的依賴,提供可擴展的微調路徑
- 實驗驗證:在 RoboTwin 基準測試與真實機器人任務上超越現有方法,長時程與陌生環境泛化尤其突出
實務應用
- 降低訓練資料門檻:傳統方法需要大量帶動作標注的示範資料,FRAPPE 的資料高效設計讓較小資料集也能達到良好效果
- 陌生環境泛化:對機器人實際部署而言,「在沒見過的環境中仍能完成任務」是最關鍵挑戰;FRAPPE 在語意層面理解環境動態,而非死記特定場景
- 可疊加現有架構:FRAPPE 是微調策略,不需從頭訓練新架構,可疊加在現有 VLA 基礎模型上
相關的具身 AI 工作見 功能感知機器人抓取:MLLM推理驅動框架。
延伸觀點
來自近期三篇研究的交叉驗證觀點:
世界模型作為「內部模擬器」的共識(2 篇共同支持) WorldVLA(arXiv 2506.21539)與具身 AI 世界模型綜述(arXiv 2508.10399)均指出:世界模型最重要的價值是作為內部模擬器,讓機器人在物理互動前先在腦中試錯。從像素預測到語意對齊的轉變,本質上是讓內部模擬更接近語意推理——這與 FRAPPE 的方向高度一致。
潛在空間推理是大方向(優先來源驗證) LaST₀(arXiv 2601.05248)獨立提出:在壓縮潛在空間進行鏈式推理(Chain-of-Thought)而非像素空間,在計算效率與推理能力之間取得平衡。與 FRAPPE 的潛在表示預測路線不謀而合,放棄像素空間、轉向語意潛在空間正成為具身 AI 社群主流共識。
仍待解決的系統性挑戰 具身 AI 綜述明確指出三個長期瓶頸:具身資料稀缺(Embodied Data Scarcity)、持續學習(Continual Learning)、Sim-to-Real 差距。FRAPPE 的「資料高效」路線直接回應第一個挑戰,但後兩者需要更完整的解法,是這個領域接下來的研究主戰場。
反向連結
以下頁面引用了本頁:
- 功能感知機器人抓取:MLLM推理驅動框架(研究速遞)