OlmoEarth v1.1：地球觀測基礎模型的三倍效率突破

核心概念

OlmoEarth v1.1 是 Allen Institute for AI（Ai2）發布的地球觀測基礎模型家族，相比 v1 版本在相同性能下將計算成本降低三倍。這個模型家族（Base / Tiny / Nano 三種尺寸）專為 Sentinel-1、Sentinel-2 與 Landsat 衛星影像設計，核心用途涵蓋追蹤紅樹林變化、森林損失分類、作物類型製圖等大規模地球觀測任務。

效率提升的關鍵突破在於 Token 設計的重新思考。在 Transformer 架構中，計算成本與序列長度成二次方關係——序列縮短三倍，計算量約降為九分之一。OlmoEarth v1.1 的核心創新，就是找到一種方法將 Sentinel-2 多解析度波段的 Token 數量從 v1 的每補丁三個（分別對應 10m / 20m / 60m 三個解析度）壓縮到一個，實現計算成本的顯著削減。

難在哪裡：直接合併 Token 並不可行。Ai2 的測試發現，天真的合併方式會導致 m-eurosat kNN 基準性能下降 10 個百分點——原因是分離不同解析度的波段，有助於模型學習波段之間的跨解析度關係。這種關係一旦被強制壓縮進單一 Token，模型就失去了從多解析度特徵中提取細節的能力。

解法是修改預訓練程序，讓模型在合併 Token 的前提下仍能學到跨波段關係。最終結果：Token 減少三倍，計算成本對應下降，性能維持不變。

為什麼這很重要：衛星影像的特殊性在於它既有空間維度（H × W 像素）、時間維度（T 個時間步）、又有多感測器波段維度（Sentinel-2 共 12 個波段）。序列長度在行星尺度應用中非常龐大。三倍效率提升意味著同樣的算力可以更頻繁地更新全球地圖，或讓資源受限的研究機構能夠實際使用這些模型。

關鍵要點

Token 壓縮是核心：三倍 Token 減少 → 計算量大幅下降（二次方縮放），在行星尺度部署中影響巨大
多解析度學習的難點：Sentinel-2 的 12 個波段跨三個空間解析度（10m / 20m / 60m），不同解析度的跨波段關係必須在 Token 設計中加以保留，否則性能下降 10 個百分點
控制變量設計：v1 與 v1.1 使用相同訓練數據，讓兩版本的對比成為乾淨的方法論比較實驗
三個模型尺寸：Base / Tiny / Nano，覆蓋從高精度研究到輕量推論的不同部署場景
已驗證的實際應用：國家級作物製圖、紅樹林生態追蹤、森林損失驅動因素分類

實務應用

OlmoEarth 的合作夥伴案例包括：在數天內完成國家級作物類型製圖、追蹤特定地區紅樹林隨時間的擴張或退縮、以及對森林損失的驅動因素進行分類（伐木 vs 火災 vs 農業開墾）。

三倍效率提升的實際意涵不只是省錢，而是讓行星級地圖更新頻率得以提高。若監測系統原本每季更新一次，成本降低三倍意味著可改為每月更新，對氣候監測與土地利用管理的決策時效性有實質影響。

延伸觀點

遙感基礎模型的效率問題，近年已成為這個領域的核心研究方向。OlmoEarth v1.1 的方法論體現了三個普遍性趨勢：

序列壓縮是跨領域共識：不只是遙感，影像、影片、長文本等高維度模態的基礎模型都面臨序列長度爆炸問題。Token 合併、分層壓縮等技術正在成為效率工程的標準工具，OlmoEarth 的貢獻是在多解析度多時序的特殊約束下找到可行解法。

預訓練策略決定壓縮上限：直接合併 Token 會損失信息，這個現象在多模態模型中普遍存在。Ai2 的解法——修改預訓練程序而非架構——說明模型學習到的表徵品質，比結構設計更能決定壓縮是否可行。這與 Masked Image Modeling 領域的共識一致：遮罩策略的設計對下游性能的影響往往大於架構調整（OlmoEarth v1 論文即以自訂遮罩策略和損失函數為核心貢獻）。

環境監測的可及性問題：根據 Frontiers in Climate 2025 年的研究，遙感基礎模型的主要障礙不只是計算成本，還有非技術用戶的操作門檻。OlmoEarth 系列的尺寸設計與效率提升，正在讓這類模型從「需要大型 GPU 叢集」往「輕量設備可推論」的方向靠近，對資源有限的環保 NGO 和政府機構意義重大。

反向連結

以下頁面引用了本頁：

AI for the Planet：Google DeepMind 亞太環境加速器（文章精選）
EMO：混合專家模型的湧現式模組化（文章精選）
olmo-eval：LLM 開發循環的持續評估工作台（文章精選）
Aurora 1.5：氣象 AI 基礎模型的集成預報突破（文章精選）