FRAPPE：世界模型驅動的機器人通用策略對齊框架

核心概念

VLA（Vision-Language-Action）模型是當前機器人研究的主流框架——讓模型同時理解視覺畫面、語言指令並輸出機器人動作。然而，要讓 VLA 真正具備泛化能力，光靠「看圖做動作」不夠，模型還必須建立對環境動態的預測能力，也就是世界模型（World Modeling）。

FRAPPE（Future Representation Alignment via Parallel Progressive Expansion）針對現有世界模型方法的兩個核心問題提出解法：

問題一：過度強調像素重建（Pixel-level Reconstruction） 當訓練目標要求模型預測未來「每個像素的精確值」時，模型被迫投入大量容量在視覺細節上，壓縮了語意理解（Semantic Understanding）的空間。模型學會了「畫出未來」，但不一定「理解未來」。

問題二：推理時依賴預測觀測值導致誤差累積（Error Accumulation） 許多方法在執行任務時，把「預測出的未來觀測畫面」作為下一步決策的輸入。第一步的預測誤差被帶入第二步、第三步，隨著執行步驟增加，誤差以指數速度放大，最終導致任務失敗。

FRAPPE 的解法：兩階段微調

FRAPPE 以**潛在表示（Latent Representation）**取代像素預測，設計了兩個連續的微調階段：

第一階段：中間訓練（Mid-Training） 模型學習預測「未來觀測的潛在表示」，而非原始像素畫面。潛在表示是視覺基礎模型（Visual Foundation Models）提取的高層語意特徵，含更豐富的語意資訊，但維度遠低於像素空間，大幅降低學習難度。

第二階段：後訓練（Post-Training） 系統透過平行漸進展開（Parallel Progressive Expansion）增加計算量，同時對齊多個視覺基礎模型的表示。推理時不依賴「預測的未來畫面」，直接從語意對齊中獲得世界感知能力，從根本上切斷誤差累積的路徑。

不同的視覺基礎模型擅長捕捉不同維度的語意特徵（物體辨識、空間關係、場景理解），多模型對齊讓 VLA 同時學習多種「理解未來的語言」，提升泛化到陌生環境的能力。

關鍵要點

語意 > 像素：放棄逐像素預測，轉而預測潛在語意表示，解決語意學習被壓縮的問題
推理去耦合：執行任務時不依賴預測觀測值，消除誤差累積的根源
兩階段策略：中間訓練建立語意預測能力，後訓練以並行展開強化對齊效率
資料高效（Data-Efficient）：降低對大量帶標注動作資料的依賴，提供可擴展的微調路徑
實驗驗證：在 RoboTwin 基準測試與真實機器人任務上超越現有方法，長時程與陌生環境泛化尤其突出

實務應用

降低訓練資料門檻：傳統方法需要大量帶動作標注的示範資料，FRAPPE 的資料高效設計讓較小資料集也能達到良好效果
陌生環境泛化：對機器人實際部署而言，「在沒見過的環境中仍能完成任務」是最關鍵挑戰；FRAPPE 在語意層面理解環境動態，而非死記特定場景
可疊加現有架構：FRAPPE 是微調策略，不需從頭訓練新架構，可疊加在現有 VLA 基礎模型上

相關的具身 AI 工作見功能感知機器人抓取：MLLM推理驅動框架。

延伸觀點

來自近期三篇研究的交叉驗證觀點：

世界模型作為「內部模擬器」的共識（2 篇共同支持） WorldVLA（arXiv 2506.21539）與具身 AI 世界模型綜述（arXiv 2508.10399）均指出：世界模型最重要的價值是作為內部模擬器，讓機器人在物理互動前先在腦中試錯。從像素預測到語意對齊的轉變，本質上是讓內部模擬更接近語意推理——這與 FRAPPE 的方向高度一致。

潛在空間推理是大方向（優先來源驗證） LaST₀（arXiv 2601.05248）獨立提出：在壓縮潛在空間進行鏈式推理（Chain-of-Thought）而非像素空間，在計算效率與推理能力之間取得平衡。與 FRAPPE 的潛在表示預測路線不謀而合，放棄像素空間、轉向語意潛在空間正成為具身 AI 社群主流共識。

仍待解決的系統性挑戰 具身 AI 綜述明確指出三個長期瓶頸：具身資料稀缺（Embodied Data Scarcity）、持續學習（Continual Learning）、Sim-to-Real 差距。FRAPPE 的「資料高效」路線直接回應第一個挑戰，但後兩者需要更完整的解法，是這個領域接下來的研究主戰場。

反向連結

以下頁面引用了本頁：

功能感知機器人抓取：MLLM推理驅動框架（研究速遞）
MolmoMotion：語言引導的 3D 運動預測框架（文章精選）
LeRobot v0.6.0：世界模型、評估框架與端到端機器人學習閉環（文章精選）