2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1: 遠隔感知推論の改善のための強化学習ファインチューニング

基本情報

論文ID: 2509.25026
タイトル: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
著者: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
所属機関: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
分類: cs.CV (コンピュータビジョン)
発表日: 2025年10月14日 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2509.25026

要約

近年、強化学習は自然画像領域の推論能力において顕著な進展を遂げているが、地球観測(EO)領域におけるその可能性はまだ十分に探索されていない。EO タスクは、指示対象検出、画像/領域記述、変化検出、位置特定、時系列分析など、タスク認識推論能力を必要とする独特の課題をもたらす。本論文は、タスク認識報酬メカニズムを組み合わせた新規な事後学習フレームワークを提案し、推論ベースの強化学習モデルが多様な EO タスクに効果的に適応できるようにする。この学習戦略は、遠隔感知画像の推論能力を強化し、最適化プロセスを安定化させ、堅牢性を向上させる。複数の EO ベンチマークにおける広範な実験により、既存の最先端の汎用および専門的視覚言語モデルと比較して、一貫したパフォーマンス向上が実現されたことが示されている。

研究背景と動機

問題定義

遠隔感知視覚言語モデル(RS-VLMs)は高解像度地球観測画像で優れた性能を示すが、浅層推論の問題が存在する:

推論能力の不足: 既存モデルはテキスト事前知識と教師あり微調整(SFT)に大きく依存し、思考の連鎖推論が欠けており、汎化能力が低い
タスク特異性の不足: UAV-VL-R1などの初期 RL 試行は視覚質問応答タスクに限定され、検出、記述、位置特定などのより広範な EO タスクでの性能が低い
報酬信号の弱化: 既存 EO 領域の RL 方法は弱くタスク無関連な報酬信号を受け取り、報酬ハッキング問題が生じやすく、複雑な EO シーンに必要な構造化多段階推論を捉えられない

研究の重要性

地球観測タスクは分類、検出、記述、変化検出、災害評価など複数の次元にわたる独特の複雑性と多様性を持ち、複数センサー入力と複雑な時空間関係を処理するための構造化推論を実行できる強力な VLM システムが必要である。

既存方法の限界

教師あり学習の限界: 従来の SFT とコントラスティブ学習目標はモデルの堅牢性と推論能力を制限する
汎用 RL 方法の不適用性: PPO などの従来的 RL 方法は複雑な構造化推論タスクにおいて高分散と不安定なポリシー更新の問題を抱える
不適切な報酬設計: EO タスクの特性に対応した専門的報酬メカニズムが欠けている

核心的貢献

GeoVLM-R1 フレームワークの提案: 多様な EO タスク推論能力に特化した事後学習 RL フレームワークの開発
革新的な二重目標報酬メカニズム: GRPO フレームワーク内に形式準拠と精度準拠の二重報酬を導入し、安定した RL 学習を強化し、正確で構造化された解釈可能な推論経路を生成
タスク認識報酬設計: 異なる EO タスク向けの専門的報酬関数の設計(再現率報酬、検出報酬、SBERT 報酬など)
広範な実験検証: 28 の下流ベンチマークにおいて既存 VLM との優位性を実証

方法の詳細説明

タスク定義

EO マルチモーダルサンプル $Q_i = \{i, q_i\}$ が与えられ、衛星画像 $i$ と対応するテキストプロンプト $q_i$ を含む場合、推論ステップと最終回答を含む構造化出力の生成が目標である:

<think>推論プロセス</think>
<answer>最終回答</answer>

モデルアーキテクチャ

1. 二段階学習パラダイム

段階1: 教師あり微調整(SFT)

目的関数: $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
役割: モデルに核心的な EO 知識と基礎推論能力を提供

段階2: GRPO ベースの強化学習

従来的 PPO ではなく群体相対ポリシー最適化(GRPO)を採用
候補応答間の相対的優位性を利用して学習分散を削減し、構造化推論を向上

2. GRPO 最適化メカニズム

マルチモーダルサンプル $Q_i$ に対して、GRPO は K 個の候補応答 $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ を生成し、最適化目標は:

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

ここで相対的優位性の計算は: $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

技術的革新点

1. タスク認識報酬設計

総報酬関数: $R(a) = R_{format} + R_{task\_acc}$

形式報酬 ( $R_{format}$ ):

Think 報酬: <think>...</think> タグの包含を確保
Answer 報酬: <answer>...</answer> タグの包含を確保

タスク認識精度報酬 ( $R_{task\_acc}$ ):

再現率報酬(分類タスク): $R_{Recall} = \frac{TP}{TP+FN}$
検出報酬(物体検出): $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
SBERT 報酬(領域記述): $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
語彙度量ベース位置特定報酬(LMGR): $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
混合 SBERT と語彙度量報酬(HSLR): $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. 安定化学習戦略

RL 学習に回転バウンディングボックスではなく水平バウンディングボックス(HBB)を使用し、角度予測誤差の IoU への影響を削減
グループ内相対的優位性の正規化により報酬分散を削減
KL 散度制約によりポリシーの過度な逸脱を防止

実験設定

データセット

複数の EO データセットを学習と評価に使用:

データセット	時系列タイプ	タスクタイプ	QA ペア数	報酬関数
BigEarthNet	単時相	分類	30,000	再現率報酬
RSCIS	単時相	画像記述	43,670	Levenshtein 類似度
RSVQA-LRBEN	単時相	視覚質問応答	57,223	Jaccard 類似度
GeoChat-Instruct	単時相	マルチタスク	69,269-73,000	複数報酬
xBD	二時相	災害検出	2,283-4,202	検出報酬