2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

基本信息

论文ID: 2509.25026
标题: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
作者: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
机构: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
分类: cs.CV (Computer Vision)
发表时间: 2025年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2509.25026

摘要

近期强化学习在自然图像领域的推理能力取得了显著进展，但其在地球观测(EO)领域的潜力仍未得到充分探索。EO任务引入了独特的挑战，涵盖指代目标检测、图像/区域描述、变化检测、定位和时序分析等，需要任务感知的推理能力。本文提出了一个新颖的后训练框架，结合任务感知奖励机制，使基于推理的强化学习模型能够有效适应多样化的EO任务。该训练策略增强了遥感图像的推理能力，稳定了优化过程，并提高了鲁棒性。在多个EO基准测试上的广泛实验表明，相比最先进的通用和专业视觉语言模型，该方法实现了一致的性能提升。

研究背景与动机

问题定义

遥感视觉语言模型(RS-VLMs)在高分辨率地球观测图像上表现出色，但存在浅层推理问题：

推理能力不足：现有模型严重依赖文本先验和监督微调(SFT)，缺乏链式思维推理，导致泛化能力差
任务特异性不足：早期RL尝试如UAV-VL-R1仅限于视觉问答任务，在检测、描述、定位等更广泛EO任务上表现不佳
奖励信号弱化：现有EO领域RL方法接收弱且任务无关的奖励信号，容易产生奖励欺骗问题，无法捕获复杂EO场景所需的结构化多步推理

研究重要性

地球观测任务具有独特的复杂性和多样性，涵盖分类、检测、描述、变化检测、灾害评估等多个维度，需要能够进行结构化推理的强大VLM系统来处理多传感器输入和复杂的时空关系。

现有方法局限性

监督学习局限：传统SFT和对比学习目标限制了模型的鲁棒性和推理能力
通用RL方法不适用：PPO等传统RL方法在复杂结构化推理任务中存在高方差和不稳定策略更新问题
奖励设计不当：缺乏针对EO任务特点的专门奖励机制

核心贡献

提出GeoVLM-R1框架：开发了专门针对多样化EO任务推理能力的后训练RL框架
创新双目标奖励机制：在GRPO框架内引入格式合规和准确性合规的双重奖励，增强稳定RL学习并产生准确、结构化、可解释的推理路径
任务感知奖励设计：针对不同EO任务设计了专门的奖励函数，包括召回奖励、检测奖励、SBERT奖励等
广泛实验验证：在28个下游基准测试上展示了相比现有VLM的优越性能

方法详解

任务定义

给定EO多模态样本 $Q_i = \{i, q_i\}$ ，包含卫星图像 $i$ 和对应文本提示 $q_i$ ，目标是生成包含推理步骤和最终答案的结构化输出：

<think>推理过程</think>
<answer>最终答案</answer>

模型架构

1. 两阶段训练范式

阶段一：监督微调(SFT)

目标函数： $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
作用：为模型提供核心EO知识和基础推理能力

阶段二：基于GRPO的强化学习

采用群体相对策略优化(GRPO)而非传统PPO
利用候选响应间的相对优势减少训练方差，提升结构化推理

2. GRPO优化机制

对于多模态样本 $Q_i$ ，GRPO生成K个候选响应 $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ ，优化目标：

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

其中相对优势计算为： $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

技术创新点

1. 任务感知奖励设计

总奖励函数： $R(a) = R_{format} + R_{task\_acc}$

格式奖励 ( $R_{format}$ )：

Think奖励：确保包含 <think>...</think> 标签
Answer奖励：确保包含 <answer>...</answer> 标签

任务感知准确性奖励 ( $R_{task\_acc}$ )：

召回奖励（分类任务）： $R_{Recall} = \frac{TP}{TP+FN}$
检测奖励（目标检测）： $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
SBERT奖励（区域描述）： $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
词汇度量基础定位奖励（LMGR）： $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
混合SBERT和词汇度量奖励（HSLR）： $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. 稳定化训练策略

使用水平边界框(HBB)而非旋转边界框进行RL训练，减少角度预测误差对IoU的影响
群内相对优势归一化减少奖励方差
KL散度约束防止策略偏离过远

实验设置

数据集

使用多个EO数据集进行训练和评估：

数据集	时序类型	任务类型	QA对数量	奖励函数
BigEarthNet	单时相	分类	30,000	召回奖励
RSCIS	单时相	图像描述	43,670	Levenshtein相似度
RSVQA-LRBEN	单时相	视觉问答	57,223	Jaccard相似度
GeoChat-Instruct	单时相	多任务	69,269-73,000	多种奖励
xBD	双时相	灾害检测	2,283-4,202	检测奖励