核心概念
OlmoEarth v1.1 是 Allen Institute for AI(Ai2)發布的地球觀測基礎模型家族,相比 v1 版本在相同性能下將計算成本降低三倍。這個模型家族(Base / Tiny / Nano 三種尺寸)專為 Sentinel-1、Sentinel-2 與 Landsat 衛星影像設計,核心用途涵蓋追蹤紅樹林變化、森林損失分類、作物類型製圖等大規模地球觀測任務。
效率提升的關鍵突破在於 Token 設計的重新思考。在 Transformer 架構中,計算成本與序列長度成二次方關係——序列縮短三倍,計算量約降為九分之一。OlmoEarth v1.1 的核心創新,就是找到一種方法將 Sentinel-2 多解析度波段的 Token 數量從 v1 的每補丁三個(分別對應 10m / 20m / 60m 三個解析度)壓縮到一個,實現計算成本的顯著削減。
難在哪裡:直接合併 Token 並不可行。Ai2 的測試發現,天真的合併方式會導致 m-eurosat kNN 基準性能下降 10 個百分點——原因是分離不同解析度的波段,有助於模型學習波段之間的跨解析度關係。這種關係一旦被強制壓縮進單一 Token,模型就失去了從多解析度特徵中提取細節的能力。
解法是修改預訓練程序,讓模型在合併 Token 的前提下仍能學到跨波段關係。最終結果:Token 減少三倍,計算成本對應下降,性能維持不變。
為什麼這很重要:衛星影像的特殊性在於它既有空間維度(H × W 像素)、時間維度(T 個時間步)、又有多感測器波段維度(Sentinel-2 共 12 個波段)。序列長度在行星尺度應用中非常龐大。三倍效率提升意味著同樣的算力可以更頻繁地更新全球地圖,或讓資源受限的研究機構能夠實際使用這些模型。
關鍵要點
- Token 壓縮是核心:三倍 Token 減少 → 計算量大幅下降(二次方縮放),在行星尺度部署中影響巨大
- 多解析度學習的難點:Sentinel-2 的 12 個波段跨三個空間解析度(10m / 20m / 60m),不同解析度的跨波段關係必須在 Token 設計中加以保留,否則性能下降 10 個百分點
- 控制變量設計:v1 與 v1.1 使用相同訓練數據,讓兩版本的對比成為乾淨的方法論比較實驗
- 三個模型尺寸:Base / Tiny / Nano,覆蓋從高精度研究到輕量推論的不同部署場景
- 已驗證的實際應用:國家級作物製圖、紅樹林生態追蹤、森林損失驅動因素分類
實務應用
OlmoEarth 的合作夥伴案例包括:在數天內完成國家級作物類型製圖、追蹤特定地區紅樹林隨時間的擴張或退縮、以及對森林損失的驅動因素進行分類(伐木 vs 火災 vs 農業開墾)。
三倍效率提升的實際意涵不只是省錢,而是讓行星級地圖更新頻率得以提高。若監測系統原本每季更新一次,成本降低三倍意味著可改為每月更新,對氣候監測與土地利用管理的決策時效性有實質影響。
延伸觀點
遙感基礎模型的效率問題,近年已成為這個領域的核心研究方向。OlmoEarth v1.1 的方法論體現了三個普遍性趨勢:
序列壓縮是跨領域共識:不只是遙感,影像、影片、長文本等高維度模態的基礎模型都面臨序列長度爆炸問題。Token 合併、分層壓縮等技術正在成為效率工程的標準工具,OlmoEarth 的貢獻是在多解析度多時序的特殊約束下找到可行解法。
預訓練策略決定壓縮上限:直接合併 Token 會損失信息,這個現象在多模態模型中普遍存在。Ai2 的解法——修改預訓練程序而非架構——說明模型學習到的表徵品質,比結構設計更能決定壓縮是否可行。這與 Masked Image Modeling 領域的共識一致:遮罩策略的設計對下游性能的影響往往大於架構調整(OlmoEarth v1 論文即以自訂遮罩策略和損失函數為核心貢獻)。
環境監測的可及性問題:根據 Frontiers in Climate 2025 年的研究,遙感基礎模型的主要障礙不只是計算成本,還有非技術用戶的操作門檻。OlmoEarth 系列的尺寸設計與效率提升,正在讓這類模型從「需要大型 GPU 叢集」往「輕量設備可推論」的方向靠近,對資源有限的環保 NGO 和政府機構意義重大。
相關頁面:EMO:混合專家模型的湧現式模組化(同為 Ai2 研究)、AI for the Planet:Google DeepMind 亞太環境加速器
反向連結
以下頁面引用了本頁: