Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
論文ID : 2509.25026タイトル : GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning著者 : Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan所属機関 : IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia分類 : cs.CV (コンピュータビジョン)発表日 : 2025年10月14日 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2509.25026 近年、強化学習は自然画像領域の推論能力において顕著な進展を遂げているが、地球観測(EO)領域におけるその可能性はまだ十分に探索されていない。EO タスクは、指示対象検出、画像/領域記述、変化検出、位置特定、時系列分析など、タスク認識推論能力を必要とする独特の課題をもたらす。本論文は、タスク認識報酬メカニズムを組み合わせた新規な事後学習フレームワークを提案し、推論ベースの強化学習モデルが多様な EO タスクに効果的に適応できるようにする。この学習戦略は、遠隔感知画像の推論能力を強化し、最適化プロセスを安定化させ、堅牢性を向上させる。複数の EO ベンチマークにおける広範な実験により、既存の最先端の汎用および専門的視覚言語モデルと比較して、一貫したパフォーマンス向上が実現されたことが示されている。
遠隔感知視覚言語モデル(RS-VLMs)は高解像度地球観測画像で優れた性能を示すが、浅層推論の問題が存在する:
推論能力の不足 : 既存モデルはテキスト事前知識と教師あり微調整(SFT)に大きく依存し、思考の連鎖推論が欠けており、汎化能力が低いタスク特異性の不足 : UAV-VL-R1などの初期 RL 試行は視覚質問応答タスクに限定され、検出、記述、位置特定などのより広範な EO タスクでの性能が低い報酬信号の弱化 : 既存 EO 領域の RL 方法は弱くタスク無関連な報酬信号を受け取り、報酬ハッキング問題が生じやすく、複雑な EO シーンに必要な構造化多段階推論を捉えられない地球観測タスクは分類、検出、記述、変化検出、災害評価など複数の次元にわたる独特の複雑性と多様性を持ち、複数センサー入力と複雑な時空間関係を処理するための構造化推論を実行できる強力な VLM システムが必要である。
教師あり学習の限界 : 従来の SFT とコントラスティブ学習目標はモデルの堅牢性と推論能力を制限する汎用 RL 方法の不適用性 : PPO などの従来的 RL 方法は複雑な構造化推論タスクにおいて高分散と不安定なポリシー更新の問題を抱える不適切な報酬設計 : EO タスクの特性に対応した専門的報酬メカニズムが欠けているGeoVLM-R1 フレームワークの提案 : 多様な EO タスク推論能力に特化した事後学習 RL フレームワークの開発革新的な二重目標報酬メカニズム : GRPO フレームワーク内に形式準拠と精度準拠の二重報酬を導入し、安定した RL 学習を強化し、正確で構造化された解釈可能な推論経路を生成タスク認識報酬設計 : 異なる EO タスク向けの専門的報酬関数の設計(再現率報酬、検出報酬、SBERT 報酬など)広範な実験検証 : 28 の下流ベンチマークにおいて既存 VLM との優位性を実証EO マルチモーダルサンプル Q i = { i , q i } Q_i = \{i, q_i\} Q i = { i , q i } が与えられ、衛星画像 i i i と対応するテキストプロンプト q i q_i q i を含む場合、推論ステップと最終回答を含む構造化出力の生成が目標である:
<think>推論プロセス</think>
<answer>最終回答</answer>
段階1: 教師あり微調整(SFT)
目的関数: L S F T ( π θ ) = − E ( i , q i , y i ) ∼ D [ ∑ t = 1 T log π θ ( y i , t ∣ i , q i , y i , < t ) ] L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right] L SFT ( π θ ) = − E ( i , q i , y i ) ∼ D [ ∑ t = 1 T log π θ ( y i , t ∣ i , q i , y i , < t ) ] 役割: モデルに核心的な EO 知識と基礎推論能力を提供 段階2: GRPO ベースの強化学習
従来的 PPO ではなく群体相対ポリシー最適化(GRPO)を採用 候補応答間の相対的優位性を利用して学習分散を削減し、構造化推論を向上 マルチモーダルサンプル Q i Q_i Q i に対して、GRPO は K 個の候補応答 S Q i = { s 1 , s 2 , . . . , s K } S_{Q_i} = \{s_1, s_2, ..., s_K\} S Q i = { s 1 , s 2 , ... , s K } を生成し、最適化目標は:
J G R P O ( θ ) = E { s i } i = 1 K ∼ π θ o l d ( Q i ) [ 1 K ∑ i = 1 K min [ ρ i A i , clip ( ρ i , 1 − ϵ , 1 + ϵ ) A i ] ] − β D K L [ π θ ∥ π r e f ] J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}] J GRPO ( θ ) = E { s i } i = 1 K ∼ π θ o l d ( Q i ) [ K 1 ∑ i = 1 K min [ ρ i A i , clip ( ρ i , 1 − ϵ , 1 + ϵ ) A i ] ] − β D K L [ π θ ∥ π re f ]
ここで相対的優位性の計算は: A i = r i − r ˉ σ r A_i = \frac{r_i - \bar{r}}{\sigma_r} A i = σ r r i − r ˉ
総報酬関数: R ( a ) = R f o r m a t + R t a s k _ a c c R(a) = R_{format} + R_{task\_acc} R ( a ) = R f or ma t + R t a s k _ a cc
形式報酬 (R f o r m a t R_{format} R f or ma t ) :
Think 報酬: <think>...</think> タグの包含を確保 Answer 報酬: <answer>...</answer> タグの包含を確保 タスク認識精度報酬 (R t a s k _ a c c R_{task\_acc} R t a s k _ a cc ) :
再現率報酬 (分類タスク): R R e c a l l = T P T P + F N R_{Recall} = \frac{TP}{TP+FN} R R ec a ll = TP + FN TP 検出報酬 (物体検出): R D e t e c t i o n = 1 N ∑ n = 1 N max m I o U ( s i m , g i n ) R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n) R De t ec t i o n = N 1 ∑ n = 1 N max m I o U ( s i m , g i n ) SBERT 報酬 (領域記述): R S B E R T = max ( 0 , cos ( e s i , e g i ) ) R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i})) R SBERT = max ( 0 , cos ( e s i , e g i )) 語彙度量ベース位置特定報酬 (LMGR): R L M G R = R L M + R D e t e c t i o n 2 R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2} R L MGR = 2 R L M + R De t ec t i o n 混合 SBERT と語彙度量報酬 (HSLR): R H S L R = R S B E R T + R L M 2 R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2} R H S L R = 2 R SBERT + R L M RL 学習に回転バウンディングボックスではなく水平バウンディングボックス(HBB)を使用し、角度予測誤差の IoU への影響を削減 グループ内相対的優位性の正規化により報酬分散を削減 KL 散度制約によりポリシーの過度な逸脱を防止 複数の EO データセットを学習と評価に使用:
データセット 時系列タイプ タスクタイプ QA ペア数 報酬関数 BigEarthNet 単時相 分類 30,000 再現率報酬 RSCIS 単時相 画像記述 43,670 Levenshtein 類似度 RSVQA-LRBEN 単時相 視覚質問応答 57,223 Jaccard 類似度 GeoChat-Instruct 単時相 マルチタスク 69,269-73,000 複数報酬 xBD 二時相 災害検出 2,283-4,202 検出報酬
分類タスク : 精度、再現率検出タスク : mAP@0.5, mAP@0.25記述タスク : Rouge-1, Rouge-L, Meteor質問応答タスク : Jaccard 類似度基盤モデル : Qwen2.5VL-3B-Instruct画像サイズ : 448×448SFT 設定 : 8×A100 GPU、2 エポック、学習率 1e-5GRPO 設定 : 4×A100 GPU、2 エポック、学習率 1e-6、温度 0.9、KL 比率 0.04ゼロショットおよびマルチラベル分類タスクにおいて、GeoVLM-R1 は BigEarthNet で EarthDial と比較して 7.88% の向上を達成し、時系列データセット xBD と FMoW でそれぞれ 2.56% と 6.9% の絶対的優位性を獲得した。
指示対象検出タスクにおいて、GeoVLM-R1 は複数物体検出で EarthDial と比較して 21.63% の顕著な向上を達成した。NWPU VHR-10 データセットでは、すべてのサイズの物体検出で大幅な改善が見られた。
領域記述タスクにおいて、Rouge 指標は基線方法を全面的に上回った。位置特定記述タスクでは、@0.5 と @0.25 指標がそれぞれ 38.74% と 61.45% に達した。
xBD データセットでは、物体検出 mAP@0.5 が 30.55% の絶対的向上を達成し、複雑な時系列分析タスクでの優位性を示した。
分類タスク: 再現率報酬が最も有効で、BigEarthNet で 80.91% に達した 画像記述: Levenshtein 比率報酬が最良の性能を示した 変化検出: 混合 SBERT と語彙度量報酬(HSLR)が最良の効果を示した RL 学習に水平バウンディングボックス(HBB)を使用することは、回転バウンディングボックス(RBB)よりも安定しており、角度予測誤差の累積を回避した。
SFT のみを使用した GeoVLM-SFT と比較して、GRPO 最適化を追加した後、すべてのタスクで顕著な向上が見られた。
論文は、モデルが生成した推論プロセスの例を示し、GeoVLM-R1 が以下を実行できることを示している:
構造化された思考プロセスの生成 正確な空間位置特定の提供 複数段階の論理推論の実行 複雑な時系列変化分析の処理 初期の研究 : RS-GPT が EO 画像テキストペアデータセットを初めて導入ゼロショット能力 : RemoteCLIP が分類と検索タスクで強いゼロショット性能を示した領域レベルの理解 : GeoChat、SkyEyeGPT などが領域レベルの視覚位置特定に拡張マルチモーダル融合 : EarthGPT、EarthDial が異種 EO モダリティを統合アライメント技術 : DPO と PPO が VLM アライメントに広く応用されている推論強化 : GRPO が DeepSeek-R1 で優れた構造化推論能力を示した領域の限界 : 既存の推論モデルは主に数学、プログラミングなどの領域に焦点を当て、遠隔感知タスクの可能性を見落としている有効性の検証 : GeoVLM-R1 は 28 の EO ベンチマークで既存方法を一貫して上回った推論能力の向上 : 構造化推論により複雑な EO タスクのパフォーマンスが大幅に改善された安定した学習 : GRPO とタスク認識報酬の組み合わせにより、安定で効果的な RL 学習が実現された計算コスト : RL 学習には追加の計算リソースと時間が必要報酬設計の複雑性 : 異なるタスクには専門的な報酬関数の慎重な設計が必要データ依存性 : パフォーマンスは高品質の EO 指示データに大きく依存しているマルチモーダル拡張 : より多くの EO センサーデータ(SAR、ハイパースペクトルなど)の統合ゼロショット汎化 : 未見タスクでのモデルの汎化能力の向上効率最適化 : より効率的な RL 学習戦略の開発革新性が強い : R1 スタイルの推論学習を遠隔感知領域に初めて適用し、重要なギャップを埋めた方法が完全 : 問題定義から解決策までの完全な技術パス実験が充分 : 複数のデータセットとタスクにおける包括的な評価実用価値が高い : 遠隔感知 VLM の推論能力不足という実際の問題を解決基盤モデルへの依存 : 方法の効果は基盤 VLM の品質に大きく依存している報酬エンジニアリングの複雑性 : 各タスクタイプに対して報酬関数を手動で設計する必要がある計算オーバーヘッド : 直接微調整と比較して、RL 学習は顕著な計算コストを増加させる汎化性分析の不足 : クロスドメイン汎化能力に関する深い分析が欠けている学術的貢献 : 遠隔感知 AI 領域に新しい学習パラダイムをもたらした実用価値 : 実際の遠隔感知応用シーンに直接適用可能技術的示唆 : 他の専門領域の VLM 推論能力向上への参考を提供遠隔感知画像分析 : 衛星画像分類、物体検出、変化検出災害監視 : 自然災害被害評価、緊急対応都市計画 : 土地利用変化監視、インフラ計画環境監視 : 生態系変化追跡、気候変動研究論文は遠隔感知 VLM、強化学習、視覚言語モデルなど複数の領域の重要な研究を含む 82 篇の関連文献を引用しており、研究に堅実な理論的基礎を提供している。
総合評価 : これはコンピュータビジョン領域の高品質な論文であり、遠隔感知画像理解というこの重要な応用領域で顕著な貢献を行っている。方法は革新的で、実験は充分で、結果は説得力があり、遠隔感知 AI 技術の発展を推進するための価値ある技術パスを提供している。