2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic

GeoVLM-R1: Ajuste Fino por Refuerzo para Razonamiento Mejorado en Teledetección

Información Básica

  • ID del Artículo: 2509.25026
  • Título: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
  • Autores: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
  • Instituciones: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2509.25026

Resumen

Los avances recientes en aprendizaje por refuerzo han logrado progresos significativos en capacidades de razonamiento en imágenes naturales, pero su potencial en el campo de la observación terrestre (EO) aún no ha sido completamente explorado. Las tareas de EO introducen desafíos únicos que abarcan detección de objetos referenciados, descripción de imágenes/regiones, detección de cambios, localización y análisis temporal, requiriendo capacidades de razonamiento conscientes de la tarea. Este artículo propone un marco novedoso de post-entrenamiento que combina mecanismos de recompensa conscientes de la tarea, permitiendo que modelos de aprendizaje por refuerzo basados en razonamiento se adapten efectivamente a diversas tareas de EO. Esta estrategia de entrenamiento mejora las capacidades de razonamiento en imágenes de teledetección, estabiliza el proceso de optimización y aumenta la robustez. Experimentos extensos en múltiples puntos de referencia de EO demuestran mejoras de rendimiento consistentes en comparación con modelos de lenguaje visual de última generación, tanto generales como especializados.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje visual de teledetección (RS-VLMs) muestran un desempeño excelente en imágenes de observación terrestre de alta resolución, pero presentan problemas de razonamiento superficial:

  1. Capacidad de Razonamiento Insuficiente: Los modelos existentes dependen fuertemente de priors textuales y ajuste fino supervisado (SFT), careciendo de razonamiento de cadena de pensamiento, lo que resulta en pobre capacidad de generalización
  2. Especificidad de Tarea Insuficiente: Intentos tempranos de RL como UAV-VL-R1 se limitan a tareas de preguntas y respuestas visuales, mostrando desempeño deficiente en tareas EO más amplias como detección, descripción y localización
  3. Debilitamiento de Señales de Recompensa: Los métodos RL existentes en el dominio de EO reciben señales de recompensa débiles e independientes de la tarea, propensos a problemas de engaño de recompensa, incapaces de capturar el razonamiento estructurado de múltiples pasos requerido para escenarios complejos de EO

Importancia de la Investigación

Las tareas de observación terrestre poseen complejidad y diversidad únicas, abarcando múltiples dimensiones incluyendo clasificación, detección, descripción, detección de cambios y evaluación de desastres, requiriendo sistemas VLM robustos capaces de realizar razonamiento estructurado para procesar entradas multisensor y relaciones espacio-temporales complejas.

Limitaciones de Métodos Existentes

  • Limitaciones del Aprendizaje Supervisado: Los objetivos tradicionales de SFT y aprendizaje contrastivo limitan la robustez y capacidades de razonamiento del modelo
  • Inaplicabilidad de Métodos RL Generales: Métodos RL tradicionales como PPO presentan problemas de alta varianza e inestabilidad en actualizaciones de política en tareas de razonamiento estructurado complejo
  • Diseño Inadecuado de Recompensas: Falta de mecanismos de recompensa especializados que consideren las características de las tareas de EO

Contribuciones Principales

  1. Propuesta del Marco GeoVLM-R1: Desarrollo de un marco de post-entrenamiento RL especializado para capacidades de razonamiento en diversas tareas de EO
  2. Mecanismo Innovador de Recompensa Dual: Introducción de recompensas duales de conformidad de formato y conformidad de precisión dentro del marco GRPO, mejorando el aprendizaje RL estable y produciendo rutas de razonamiento precisas, estructuradas e interpretables
  3. Diseño de Recompensa Consciente de la Tarea: Diseño de funciones de recompensa especializadas para diferentes tareas de EO, incluyendo recompensas de recuperación, recompensas de detección, recompensas SBERT, etc.
  4. Verificación Experimental Extensiva: Demostración de rendimiento superior en comparación con VLMs existentes en 28 puntos de referencia descendentes

Explicación Detallada del Método

Definición de Tarea

Dado un ejemplo multimodal de EO Qi={i,qi}Q_i = \{i, q_i\}, que contiene una imagen satelital ii y su correspondiente indicación de texto qiq_i, el objetivo es generar una salida estructurada que contenga pasos de razonamiento y respuesta final:

<think>proceso de razonamiento</think>
<answer>respuesta final</answer>

Arquitectura del Modelo

1. Paradigma de Entrenamiento de Dos Etapas

Etapa Uno: Ajuste Fino Supervisado (SFT)

  • Función Objetivo: LSFT(πθ)=E(i,qi,yi)D[t=1Tlogπθ(yi,ti,qi,yi,<t)]L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]
  • Propósito: Proporcionar al modelo conocimiento fundamental de EO y capacidades básicas de razonamiento

Etapa Dos: Aprendizaje por Refuerzo Basado en GRPO

  • Adopción de Optimización de Política Relativa de Grupo (GRPO) en lugar de PPO tradicional
  • Utilización de ventajas relativas entre respuestas candidatas para reducir varianza de entrenamiento y mejorar razonamiento estructurado

2. Mecanismo de Optimización GRPO

Para una muestra multimodal QiQ_i, GRPO genera K respuestas candidatas SQi={s1,s2,...,sK}S_{Q_i} = \{s_1, s_2, ..., s_K\}, con objetivo de optimización:

JGRPO(θ)=E{si}i=1Kπθold(Qi)[1Ki=1Kmin[ρiAi,clip(ρi,1ϵ,1+ϵ)Ai]]βDKL[πθπref]J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]

Donde el cálculo de ventaja relativa es: Ai=rirˉσrA_i = \frac{r_i - \bar{r}}{\sigma_r}

Puntos de Innovación Técnica

1. Diseño de Recompensa Consciente de la Tarea

Función de recompensa total: R(a)=Rformat+Rtask_accR(a) = R_{format} + R_{task\_acc}

Recompensa de Formato (RformatR_{format}):

  • Recompensa Think: Asegura la inclusión de etiquetas <think>...</think>
  • Recompensa Answer: Asegura la inclusión de etiquetas <answer>...</answer>

Recompensa de Precisión Consciente de la Tarea (Rtask_accR_{task\_acc}):

  • Recompensa de Recuperación (tareas de clasificación): RRecall=TPTP+FNR_{Recall} = \frac{TP}{TP+FN}
  • Recompensa de Detección (detección de objetos): RDetection=1Nn=1NmaxmIoU(sim,gin)R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)
  • Recompensa SBERT (descripción de regiones): RSBERT=max(0,cos(esi,egi))R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))
  • Recompensa de Localización Basada en Métrica Léxica (LMGR): RLMGR=RLM+RDetection2R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}
  • Recompensa Híbrida SBERT y Métrica Léxica (HSLR): RHSLR=RSBERT+RLM2R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}

2. Estrategias de Entrenamiento Estabilizado

  • Uso de cuadros delimitadores horizontales (HBB) en lugar de cuadros delimitadores rotados para entrenamiento RL, reduciendo el impacto de errores de predicción de ángulo en IoU
  • Normalización de ventaja relativa dentro del grupo para reducir varianza de recompensa
  • Restricción de divergencia KL para prevenir que la política se desvíe demasiado

Configuración Experimental

Conjuntos de Datos

Uso de múltiples conjuntos de datos de EO para entrenamiento y evaluación:

Conjunto de DatosTipo TemporalTipo de TareaCantidad de Pares QAFunción de Recompensa
BigEarthNetMonotemporalClasificación30,000Recompensa de Recuperación
RSCISMonotemporalDescripción de Imagen43,670Similitud de Levenshtein
RSVQA-LRBENMonotemporalPreguntas y Respuestas Visuales57,223Similitud de Jaccard
GeoChat-InstructMonotemporalMultitarea69,269-73,000Múltiples Recompensas
xBDBitemporalDetección de Desastres2,283-4,202Recompensa de Detección

Métricas de Evaluación

  • Tareas de Clasificación: Precisión, Recuperación
  • Tareas de Detección: mAP@0.5, mAP@0.25
  • Tareas de Descripción: Rouge-1, Rouge-L, Meteor
  • Tareas de Preguntas y Respuestas: Similitud de Jaccard

Detalles de Implementación

  • Modelo Base: Qwen2.5VL-3B-Instruct
  • Tamaño de Imagen: 448×448
  • Configuración SFT: 8×A100 GPU, 2 épocas, tasa de aprendizaje 1e-5
  • Configuración GRPO: 4×A100 GPU, 2 épocas, tasa de aprendizaje 1e-6, temperatura 0.9, relación KL 0.04

Resultados Experimentales

Resultados Principales

1. Tareas de Clasificación de Escenas

En tareas de clasificación de cero ejemplos y multietiqueta, GeoVLM-R1 logra una mejora del 7.88% en comparación con EarthDial en BigEarthNet, con ventajas absolutas del 2.56% y 6.9% en conjuntos de datos temporales xBD y FMoW respectivamente.

2. Tareas de Detección y Localización de Objetos

En tareas de detección de objetos referenciados, GeoVLM-R1 logra una mejora significativa del 21.63% en detección multiobjetiva en comparación con EarthDial. En el conjunto de datos NWPU VHR-10, se observan mejoras sustanciales en la detección de objetos de todos los tamaños.

3. Tareas de Descripción y Localización

En tareas de descripción de regiones, las métricas Rouge superan completamente los métodos de línea base. En tareas de localización descriptiva, los indicadores @0.5 y @0.25 alcanzan 38.74% y 61.45% respectivamente.

4. Evaluación de Desastres Temporal

En el conjunto de datos xBD, la detección de objetos mAP@0.5 logra una mejora absoluta del 30.55%, demostrando ventajas en tareas complejas de análisis temporal.

Experimentos de Ablación

1. Efectividad de la Función de Recompensa

  • Tareas de clasificación: La recompensa de recuperación es más efectiva, alcanzando 80.91% en BigEarthNet
  • Descripción de imagen: La recompensa de relación de Levenshtein muestra el mejor desempeño
  • Detección de cambios: La recompensa híbrida SBERT y métrica léxica (HSLR) produce los mejores resultados

2. Impacto de la Representación de Cuadro Delimitador

El uso de cuadros delimitadores horizontales (HBB) para entrenamiento RL es más estable que cuadros delimitadores rotados (RBB), evitando la acumulación de errores de predicción de ángulo.

3. GRPO vs Línea Base

En comparación con GeoVLM-SFT que utiliza solo SFT, la incorporación de optimización GRPO produce mejoras significativas en todas las tareas.

Análisis de Casos

El artículo presenta ejemplos de procesos de razonamiento generados por el modelo, demostrando que GeoVLM-R1 puede:

  1. Generar procesos de pensamiento estructurados
  2. Proporcionar localización espacial precisa
  3. Realizar razonamiento lógico multietapa
  4. Procesar análisis de cambios temporales complejos

Trabajo Relacionado

Desarrollo de VLM de Teledetección

  • Trabajos Tempranos: RS-GPT introduce por primera vez conjuntos de datos de pares imagen-texto de EO
  • Capacidades de Cero Ejemplos: RemoteCLIP demuestra un fuerte desempeño de cero ejemplos en tareas de clasificación y recuperación
  • Comprensión a Nivel de Región: GeoChat, SkyEyeGPT extienden a localización visual a nivel de región
  • Fusión Multimodal: EarthGPT, EarthDial integran modalidades heterogéneas de EO

Técnicas de Post-Entrenamiento de VLM

  • Técnicas de Alineación: DPO y PPO se aplican ampliamente en alineación de VLM
  • Razonamiento Mejorado: GRPO demuestra capacidades excepcionales de razonamiento estructurado en DeepSeek-R1
  • Limitaciones de Dominio: Los modelos de razonamiento existentes se enfocan principalmente en dominios como matemáticas y programación, descuidando el potencial de tareas de teledetección

Conclusiones y Discusión

Conclusiones Principales

  1. Validación de Efectividad: GeoVLM-R1 supera consistentemente los métodos existentes en 28 puntos de referencia de EO
  2. Mejora de Capacidades de Razonamiento: El razonamiento estructurado mejora significativamente el desempeño en tareas complejas de EO
  3. Entrenamiento Estable: GRPO combinado con recompensas conscientes de la tarea logra entrenamiento RL estable y efectivo

Limitaciones

  1. Costo Computacional: El entrenamiento RL requiere recursos computacionales y tiempo adicionales
  2. Complejidad del Diseño de Recompensas: Diferentes tareas requieren diseño cuidadoso de funciones de recompensa especializadas
  3. Dependencia de Datos: El desempeño depende en gran medida de datos de instrucciones de EO de alta calidad

Direcciones Futuras

  1. Expansión Multimodal: Integración de más datos de sensores de EO (SAR, hiperespectrales, etc.)
  2. Generalización de Cero Ejemplos: Mejora de la capacidad de generalización del modelo en tareas no vistas
  3. Optimización de Eficiencia: Desarrollo de estrategias de entrenamiento RL más eficientes

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación de entrenamiento de razonamiento estilo R1 al dominio de teledetección, llenando un vacío importante
  2. Método Completo: Ruta técnica completa desde definición del problema hasta solución
  3. Evaluación Exhaustiva: Evaluación integral en múltiples conjuntos de datos y tareas
  4. Alto Valor Práctico: Resuelve el problema práctico de capacidades de razonamiento insuficientes en VLM de teledetección

Insuficiencias

  1. Dependencia del Modelo Base: La efectividad del método depende en gran medida de la calidad del VLM base
  2. Complejidad de Ingeniería de Recompensas: Requiere diseño manual de funciones de recompensa para cada tipo de tarea
  3. Sobrecarga Computacional: El entrenamiento RL añade costo computacional significativo en comparación con ajuste fino directo
  4. Análisis Insuficiente de Generalización: Falta análisis profundo de capacidades de generalización entre dominios

Impacto

  1. Contribución Académica: Introduce un nuevo paradigma de entrenamiento para el campo de IA de teledetección
  2. Valor Práctico: Aplicable directamente a escenarios de aplicación de teledetección real
  3. Inspiración Técnica: Proporciona referencias para mejora de capacidades de razonamiento de VLM en otros dominios especializados

Escenarios Aplicables

  1. Análisis de Imágenes de Teledetección: Clasificación de imágenes satelitales, detección de objetos, detección de cambios
  2. Monitoreo de Desastres: Evaluación de pérdidas por desastres naturales, respuesta de emergencia
  3. Planificación Urbana: Monitoreo de cambios de uso del suelo, planificación de infraestructura
  4. Monitoreo Ambiental: Seguimiento de cambios de ecosistemas, investigación del cambio climático

Referencias Bibliográficas

El artículo cita 82 referencias relacionadas, abarcando múltiples campos incluyendo VLM de teledetección, aprendizaje por refuerzo y modelos de lenguaje visual, proporcionando una base teórica sólida para la investigación.


Evaluación General: Este es un artículo de alta calidad en el campo de la visión por computadora que realiza contribuciones significativas en el importante dominio de aplicación de comprensión de imágenes de teledetección. El método es novedoso, la experimentación es exhaustiva, los resultados son convincentes y proporciona una ruta técnica valiosa para avanzar en el desarrollo de tecnología de IA de teledetección.