Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
论文ID : 2509.25026标题 : GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning作者 : Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan机构 : IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia分类 : cs.CV (Computer Vision)发表时间 : 2025年10月14日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2509.25026 近期强化学习在自然图像领域的推理能力取得了显著进展,但其在地球观测(EO)领域的潜力仍未得到充分探索。EO任务引入了独特的挑战,涵盖指代目标检测、图像/区域描述、变化检测、定位和时序分析等,需要任务感知的推理能力。本文提出了一个新颖的后训练框架,结合任务感知奖励机制,使基于推理的强化学习模型能够有效适应多样化的EO任务。该训练策略增强了遥感图像的推理能力,稳定了优化过程,并提高了鲁棒性。在多个EO基准测试上的广泛实验表明,相比最先进的通用和专业视觉语言模型,该方法实现了一致的性能提升。
遥感视觉语言模型(RS-VLMs)在高分辨率地球观测图像上表现出色,但存在浅层推理问题:
推理能力不足 :现有模型严重依赖文本先验和监督微调(SFT),缺乏链式思维推理,导致泛化能力差任务特异性不足 :早期RL尝试如UAV-VL-R1仅限于视觉问答任务,在检测、描述、定位等更广泛EO任务上表现不佳奖励信号弱化 :现有EO领域RL方法接收弱且任务无关的奖励信号,容易产生奖励欺骗问题,无法捕获复杂EO场景所需的结构化多步推理地球观测任务具有独特的复杂性和多样性,涵盖分类、检测、描述、变化检测、灾害评估等多个维度,需要能够进行结构化推理的强大VLM系统来处理多传感器输入和复杂的时空关系。
监督学习局限 :传统SFT和对比学习目标限制了模型的鲁棒性和推理能力通用RL方法不适用 :PPO等传统RL方法在复杂结构化推理任务中存在高方差和不稳定策略更新问题奖励设计不当 :缺乏针对EO任务特点的专门奖励机制提出GeoVLM-R1框架 :开发了专门针对多样化EO任务推理能力的后训练RL框架创新双目标奖励机制 :在GRPO框架内引入格式合规和准确性合规的双重奖励,增强稳定RL学习并产生准确、结构化、可解释的推理路径任务感知奖励设计 :针对不同EO任务设计了专门的奖励函数,包括召回奖励、检测奖励、SBERT奖励等广泛实验验证 :在28个下游基准测试上展示了相比现有VLM的优越性能给定EO多模态样本 Q i = { i , q i } Q_i = \{i, q_i\} Q i = { i , q i } ,包含卫星图像 i i i 和对应文本提示 q i q_i q i ,目标是生成包含推理步骤和最终答案的结构化输出:
<think>推理过程</think>
<answer>最终答案</answer>
阶段一:监督微调(SFT)
目标函数:L S F T ( π θ ) = − E ( i , q i , y i ) ∼ D [ ∑ t = 1 T log π θ ( y i , t ∣ i , q i , y i , < t ) ] L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right] L SFT ( π θ ) = − E ( i , q i , y i ) ∼ D [ ∑ t = 1 T log π θ ( y i , t ∣ i , q i , y i , < t ) ] 作用:为模型提供核心EO知识和基础推理能力 阶段二:基于GRPO的强化学习
采用群体相对策略优化(GRPO)而非传统PPO 利用候选响应间的相对优势减少训练方差,提升结构化推理 对于多模态样本 Q i Q_i Q i ,GRPO生成K个候选响应 S Q i = { s 1 , s 2 , . . . , s K } S_{Q_i} = \{s_1, s_2, ..., s_K\} S Q i = { s 1 , s 2 , ... , s K } ,优化目标:
J G R P O ( θ ) = E { s i } i = 1 K ∼ π θ o l d ( Q i ) [ 1 K ∑ i = 1 K min [ ρ i A i , clip ( ρ i , 1 − ϵ , 1 + ϵ ) A i ] ] − β D K L [ π θ ∥ π r e f ] J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}] J GRPO ( θ ) = E { s i } i = 1 K ∼ π θ o l d ( Q i ) [ K 1 ∑ i = 1 K min [ ρ i A i , clip ( ρ i , 1 − ϵ , 1 + ϵ ) A i ] ] − β D K L [ π θ ∥ π re f ]
其中相对优势计算为:A i = r i − r ˉ σ r A_i = \frac{r_i - \bar{r}}{\sigma_r} A i = σ r r i − r ˉ
总奖励函数:R ( a ) = R f o r m a t + R t a s k _ a c c R(a) = R_{format} + R_{task\_acc} R ( a ) = R f or ma t + R t a s k _ a cc
格式奖励 (R f o r m a t R_{format} R f or ma t ) :
Think奖励:确保包含 <think>...</think> 标签 Answer奖励:确保包含 <answer>...</answer> 标签 任务感知准确性奖励 (R t a s k _ a c c R_{task\_acc} R t a s k _ a cc ) :
召回奖励 (分类任务):R R e c a l l = T P T P + F N R_{Recall} = \frac{TP}{TP+FN} R R ec a ll = TP + FN TP 检测奖励 (目标检测):R D e t e c t i o n = 1 N ∑ n = 1 N max m I o U ( s i m , g i n ) R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n) R De t ec t i o n = N 1 ∑ n = 1 N max m I o U ( s i m , g i n ) SBERT奖励 (区域描述):R S B E R T = max ( 0 , cos ( e s i , e g i ) ) R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i})) R SBERT = max ( 0 , cos ( e s i , e g i )) 词汇度量基础定位奖励 (LMGR):R L M G R = R L M + R D e t e c t i o n 2 R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2} R L MGR = 2 R L M + R De t ec t i o n 混合SBERT和词汇度量奖励 (HSLR):R H S L R = R S B E R T + R L M 2 R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2} R H S L R = 2 R SBERT + R L M 使用水平边界框(HBB)而非旋转边界框进行RL训练,减少角度预测误差对IoU的影响 群内相对优势归一化减少奖励方差 KL散度约束防止策略偏离过远 使用多个EO数据集进行训练和评估:
数据集 时序类型 任务类型 QA对数量 奖励函数 BigEarthNet 单时相 分类 30,000 召回奖励 RSCIS 单时相 图像描述 43,670 Levenshtein相似度 RSVQA-LRBEN 单时相 视觉问答 57,223 Jaccard相似度 GeoChat-Instruct 单时相 多任务 69,269-73,000 多种奖励 xBD 双时相 灾害检测 2,283-4,202 检测奖励
分类任务 :准确率、召回率检测任务 :mAP@0.5, mAP@0.25描述任务 :Rouge-1, Rouge-L, Meteor问答任务 :Jaccard相似度基础模型 :Qwen2.5VL-3B-Instruct图像尺寸 :448×448SFT设置 :8×A100 GPU,2 epochs,学习率1e-5GRPO设置 :4×A100 GPU,2 epochs,学习率1e-6,温度0.9,KL比率0.04在零样本和多标签分类任务上,GeoVLM-R1相比EarthDial在BigEarthNet上获得7.88%的提升,在时序数据集xBD和FMoW上分别获得2.56%和6.9%的绝对优势。
在指代目标检测任务中,GeoVLM-R1在多目标检测上相比EarthDial获得21.63%的显著提升。在NWPU VHR-10数据集上,各尺寸目标检测均有大幅改善。
在区域描述任务中,Rouge指标全面超越基线方法。在定位描述任务中,@0.5和@0.25指标分别达到38.74%和61.45%。
在xBD数据集上,目标检测mAP@0.5获得30.55%的绝对提升,展示了在复杂时序分析任务上的优势。
分类任务:召回奖励最有效,在BigEarthNet上达到80.91% 图像描述:Levenshtein比率奖励表现最佳 变化检测:混合SBERT和词汇度量奖励(HSLR)效果最好 使用水平边界框(HBB)进行RL训练比旋转边界框(RBB)更稳定,避免了角度预测误差的累积。
相比仅使用SFT的GeoVLM-SFT,加入GRPO优化后在各项任务上均有显著提升。
论文展示了模型生成的推理过程示例,显示GeoVLM-R1能够:
生成结构化的思考过程 提供准确的空间定位 进行多步逻辑推理 处理复杂的时序变化分析 早期工作 :RS-GPT首次引入EO图文配对数据集零样本能力 :RemoteCLIP在分类和检索任务上展现强零样本性能区域级理解 :GeoChat、SkyEyeGPT等扩展到区域级视觉定位多模态融合 :EarthGPT、EarthDial整合异构EO模态对齐技术 :DPO和PPO广泛应用于VLM对齐推理增强 :GRPO在DeepSeek-R1中展现出色的结构化推理能力领域局限 :现有推理模型主要关注数学、编程等领域,忽视了遥感任务的潜力有效性验证 :GeoVLM-R1在28个EO基准测试上一致超越现有方法推理能力提升 :通过结构化推理显著改善了复杂EO任务的性能稳定训练 :GRPO结合任务感知奖励实现了稳定且有效的RL训练计算成本 :RL训练需要额外的计算资源和时间奖励设计复杂性 :不同任务需要精心设计专门的奖励函数数据依赖 :性能很大程度上依赖于高质量的EO指令数据多模态扩展 :整合更多EO传感器数据(SAR、高光谱等)零样本泛化 :提升模型在未见任务上的泛化能力效率优化 :开发更高效的RL训练策略创新性强 :首次将R1风格的推理训练应用于遥感领域,填补了重要空白方法完整 :从问题定义到解决方案的完整技术路径实验充分 :在多个数据集和任务上进行了全面评估实用价值高 :解决了遥感VLM推理能力不足的实际问题基础模型依赖 :方法效果很大程度上依赖于基础VLM的质量奖励工程复杂 :需要为每个任务类型手工设计奖励函数计算开销 :相比直接微调,RL训练增加了显著的计算成本泛化性分析不足 :缺乏对跨域泛化能力的深入分析学术贡献 :为遥感AI领域引入了新的训练范式实用价值 :可直接应用于实际遥感应用场景技术启发 :为其他专业领域VLM的推理能力提升提供了参考遥感图像分析 :卫星图像分类、目标检测、变化检测灾害监测 :自然灾害损失评估、应急响应城市规划 :土地利用变化监测、基础设施规划环境监测 :生态系统变化跟踪、气候变化研究论文引用了82篇相关文献,涵盖了遥感VLM、强化学习、视觉语言模型等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价 :这是一篇高质量的计算机视觉领域论文,在遥感图像理解这一重要应用领域做出了显著贡献。方法新颖、实验充分、结果令人信服,为推进遥感AI技术发展提供了有价值的技术路径。