2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1: Ajuste Fino por Refuerzo para Razonamiento Mejorado en Teledetección

Información Básica

ID del Artículo: 2509.25026
Título: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Autores: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
Instituciones: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2509.25026

Resumen

Los avances recientes en aprendizaje por refuerzo han logrado progresos significativos en capacidades de razonamiento en imágenes naturales, pero su potencial en el campo de la observación terrestre (EO) aún no ha sido completamente explorado. Las tareas de EO introducen desafíos únicos que abarcan detección de objetos referenciados, descripción de imágenes/regiones, detección de cambios, localización y análisis temporal, requiriendo capacidades de razonamiento conscientes de la tarea. Este artículo propone un marco novedoso de post-entrenamiento que combina mecanismos de recompensa conscientes de la tarea, permitiendo que modelos de aprendizaje por refuerzo basados en razonamiento se adapten efectivamente a diversas tareas de EO. Esta estrategia de entrenamiento mejora las capacidades de razonamiento en imágenes de teledetección, estabiliza el proceso de optimización y aumenta la robustez. Experimentos extensos en múltiples puntos de referencia de EO demuestran mejoras de rendimiento consistentes en comparación con modelos de lenguaje visual de última generación, tanto generales como especializados.

Antecedentes de Investigación y Motivación

Definición del Problema

Los modelos de lenguaje visual de teledetección (RS-VLMs) muestran un desempeño excelente en imágenes de observación terrestre de alta resolución, pero presentan problemas de razonamiento superficial:

Capacidad de Razonamiento Insuficiente: Los modelos existentes dependen fuertemente de priors textuales y ajuste fino supervisado (SFT), careciendo de razonamiento de cadena de pensamiento, lo que resulta en pobre capacidad de generalización
Especificidad de Tarea Insuficiente: Intentos tempranos de RL como UAV-VL-R1 se limitan a tareas de preguntas y respuestas visuales, mostrando desempeño deficiente en tareas EO más amplias como detección, descripción y localización
Debilitamiento de Señales de Recompensa: Los métodos RL existentes en el dominio de EO reciben señales de recompensa débiles e independientes de la tarea, propensos a problemas de engaño de recompensa, incapaces de capturar el razonamiento estructurado de múltiples pasos requerido para escenarios complejos de EO

Importancia de la Investigación

Las tareas de observación terrestre poseen complejidad y diversidad únicas, abarcando múltiples dimensiones incluyendo clasificación, detección, descripción, detección de cambios y evaluación de desastres, requiriendo sistemas VLM robustos capaces de realizar razonamiento estructurado para procesar entradas multisensor y relaciones espacio-temporales complejas.

Limitaciones de Métodos Existentes

Limitaciones del Aprendizaje Supervisado: Los objetivos tradicionales de SFT y aprendizaje contrastivo limitan la robustez y capacidades de razonamiento del modelo
Inaplicabilidad de Métodos RL Generales: Métodos RL tradicionales como PPO presentan problemas de alta varianza e inestabilidad en actualizaciones de política en tareas de razonamiento estructurado complejo
Diseño Inadecuado de Recompensas: Falta de mecanismos de recompensa especializados que consideren las características de las tareas de EO

Contribuciones Principales

Propuesta del Marco GeoVLM-R1: Desarrollo de un marco de post-entrenamiento RL especializado para capacidades de razonamiento en diversas tareas de EO
Mecanismo Innovador de Recompensa Dual: Introducción de recompensas duales de conformidad de formato y conformidad de precisión dentro del marco GRPO, mejorando el aprendizaje RL estable y produciendo rutas de razonamiento precisas, estructuradas e interpretables
Diseño de Recompensa Consciente de la Tarea: Diseño de funciones de recompensa especializadas para diferentes tareas de EO, incluyendo recompensas de recuperación, recompensas de detección, recompensas SBERT, etc.
Verificación Experimental Extensiva: Demostración de rendimiento superior en comparación con VLMs existentes en 28 puntos de referencia descendentes

Explicación Detallada del Método

Definición de Tarea

Dado un ejemplo multimodal de EO $Q_i = \{i, q_i\}$ , que contiene una imagen satelital $i$ y su correspondiente indicación de texto $q_i$ , el objetivo es generar una salida estructurada que contenga pasos de razonamiento y respuesta final:

<think>proceso de razonamiento</think>
<answer>respuesta final</answer>

Arquitectura del Modelo

1. Paradigma de Entrenamiento de Dos Etapas

Etapa Uno: Ajuste Fino Supervisado (SFT)

Función Objetivo: $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
Propósito: Proporcionar al modelo conocimiento fundamental de EO y capacidades básicas de razonamiento

Etapa Dos: Aprendizaje por Refuerzo Basado en GRPO

Adopción de Optimización de Política Relativa de Grupo (GRPO) en lugar de PPO tradicional
Utilización de ventajas relativas entre respuestas candidatas para reducir varianza de entrenamiento y mejorar razonamiento estructurado

2. Mecanismo de Optimización GRPO

Para una muestra multimodal $Q_i$ , GRPO genera K respuestas candidatas $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ , con objetivo de optimización:

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

Donde el cálculo de ventaja relativa es: $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

Puntos de Innovación Técnica

1. Diseño de Recompensa Consciente de la Tarea

Función de recompensa total: $R(a) = R_{format} + R_{task\_acc}$

Recompensa de Formato ( $R_{format}$ ):

Recompensa Think: Asegura la inclusión de etiquetas <think>...</think>
Recompensa Answer: Asegura la inclusión de etiquetas <answer>...</answer>

Recompensa de Precisión Consciente de la Tarea ( $R_{task\_acc}$ ):

Recompensa de Recuperación (tareas de clasificación): $R_{Recall} = \frac{TP}{TP+FN}$
Recompensa de Detección (detección de objetos): $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
Recompensa SBERT (descripción de regiones): $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
Recompensa de Localización Basada en Métrica Léxica (LMGR): $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
Recompensa Híbrida SBERT y Métrica Léxica (HSLR): $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. Estrategias de Entrenamiento Estabilizado

Uso de cuadros delimitadores horizontales (HBB) en lugar de cuadros delimitadores rotados para entrenamiento RL, reduciendo el impacto de errores de predicción de ángulo en IoU
Normalización de ventaja relativa dentro del grupo para reducir varianza de recompensa
Restricción de divergencia KL para prevenir que la política se desvíe demasiado

Configuración Experimental

Conjuntos de Datos

Uso de múltiples conjuntos de datos de EO para entrenamiento y evaluación:

Conjunto de Datos	Tipo Temporal	Tipo de Tarea	Cantidad de Pares QA	Función de Recompensa
BigEarthNet	Monotemporal	Clasificación	30,000	Recompensa de Recuperación
RSCIS	Monotemporal	Descripción de Imagen	43,670	Similitud de Levenshtein
RSVQA-LRBEN	Monotemporal	Preguntas y Respuestas Visuales	57,223	Similitud de Jaccard
GeoChat-Instruct	Monotemporal	Multitarea	69,269-73,000	Múltiples Recompensas
xBD	Bitemporal	Detección de Desastres	2,283-4,202	Recompensa de Detección

Métricas de Evaluación

Tareas de Clasificación: Precisión, Recuperación
Tareas de Detección: mAP@0.5, mAP@0.25
Tareas de Descripción: Rouge-1, Rouge-L, Meteor
Tareas de Preguntas y Respuestas: Similitud de Jaccard

Detalles de Implementación

Modelo Base: Qwen2.5VL-3B-Instruct
Tamaño de Imagen: 448×448
Configuración SFT: 8×A100 GPU, 2 épocas, tasa de aprendizaje 1e-5
Configuración GRPO: 4×A100 GPU, 2 épocas, tasa de aprendizaje 1e-6, temperatura 0.9, relación KL 0.04

Resultados Experimentales

Resultados Principales

1. Tareas de Clasificación de Escenas

En tareas de clasificación de cero ejemplos y multietiqueta, GeoVLM-R1 logra una mejora del 7.88% en comparación con EarthDial en BigEarthNet, con ventajas absolutas del 2.56% y 6.9% en conjuntos de datos temporales xBD y FMoW respectivamente.

2. Tareas de Detección y Localización de Objetos

En tareas de detección de objetos referenciados, GeoVLM-R1 logra una mejora significativa del 21.63% en detección multiobjetiva en comparación con EarthDial. En el conjunto de datos NWPU VHR-10, se observan mejoras sustanciales en la detección de objetos de todos los tamaños.

3. Tareas de Descripción y Localización

En tareas de descripción de regiones, las métricas Rouge superan completamente los métodos de línea base. En tareas de localización descriptiva, los indicadores @0.5 y @0.25 alcanzan 38.74% y 61.45% respectivamente.

4. Evaluación de Desastres Temporal

En el conjunto de datos xBD, la detección de objetos mAP@0.5 logra una mejora absoluta del 30.55%, demostrando ventajas en tareas complejas de análisis temporal.

Experimentos de Ablación

1. Efectividad de la Función de Recompensa

Tareas de clasificación: La recompensa de recuperación es más efectiva, alcanzando 80.91% en BigEarthNet
Descripción de imagen: La recompensa de relación de Levenshtein muestra el mejor desempeño
Detección de cambios: La recompensa híbrida SBERT y métrica léxica (HSLR) produce los mejores resultados

2. Impacto de la Representación de Cuadro Delimitador

El uso de cuadros delimitadores horizontales (HBB) para entrenamiento RL es más estable que cuadros delimitadores rotados (RBB), evitando la acumulación de errores de predicción de ángulo.

3. GRPO vs Línea Base

En comparación con GeoVLM-SFT que utiliza solo SFT, la incorporación de optimización GRPO produce mejoras significativas en todas las tareas.

Análisis de Casos

El artículo presenta ejemplos de procesos de razonamiento generados por el modelo, demostrando que GeoVLM-R1 puede:

Generar procesos de pensamiento estructurados
Proporcionar localización espacial precisa
Realizar razonamiento lógico multietapa
Procesar análisis de cambios temporales complejos

Trabajo Relacionado

Desarrollo de VLM de Teledetección

Trabajos Tempranos: RS-GPT introduce por primera vez conjuntos de datos de pares imagen-texto de EO
Capacidades de Cero Ejemplos: RemoteCLIP demuestra un fuerte desempeño de cero ejemplos en tareas de clasificación y recuperación
Comprensión a Nivel de Región: GeoChat, SkyEyeGPT extienden a localización visual a nivel de región
Fusión Multimodal: EarthGPT, EarthDial integran modalidades heterogéneas de EO

Técnicas de Post-Entrenamiento de VLM

Técnicas de Alineación: DPO y PPO se aplican ampliamente en alineación de VLM
Razonamiento Mejorado: GRPO demuestra capacidades excepcionales de razonamiento estructurado en DeepSeek-R1
Limitaciones de Dominio: Los modelos de razonamiento existentes se enfocan principalmente en dominios como matemáticas y programación, descuidando el potencial de tareas de teledetección

Conclusiones y Discusión

Conclusiones Principales

Validación de Efectividad: GeoVLM-R1 supera consistentemente los métodos existentes en 28 puntos de referencia de EO
Mejora de Capacidades de Razonamiento: El razonamiento estructurado mejora significativamente el desempeño en tareas complejas de EO
Entrenamiento Estable: GRPO combinado con recompensas conscientes de la tarea logra entrenamiento RL estable y efectivo

Limitaciones

Costo Computacional: El entrenamiento RL requiere recursos computacionales y tiempo adicionales
Complejidad del Diseño de Recompensas: Diferentes tareas requieren diseño cuidadoso de funciones de recompensa especializadas
Dependencia de Datos: El desempeño depende en gran medida de datos de instrucciones de EO de alta calidad

Direcciones Futuras

Expansión Multimodal: Integración de más datos de sensores de EO (SAR, hiperespectrales, etc.)
Generalización de Cero Ejemplos: Mejora de la capacidad de generalización del modelo en tareas no vistas
Optimización de Eficiencia: Desarrollo de estrategias de entrenamiento RL más eficientes

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación de entrenamiento de razonamiento estilo R1 al dominio de teledetección, llenando un vacío importante
Método Completo: Ruta técnica completa desde definición del problema hasta solución
Evaluación Exhaustiva: Evaluación integral en múltiples conjuntos de datos y tareas
Alto Valor Práctico: Resuelve el problema práctico de capacidades de razonamiento insuficientes en VLM de teledetección

Insuficiencias

Dependencia del Modelo Base: La efectividad del método depende en gran medida de la calidad del VLM base
Complejidad de Ingeniería de Recompensas: Requiere diseño manual de funciones de recompensa para cada tipo de tarea
Sobrecarga Computacional: El entrenamiento RL añade costo computacional significativo en comparación con ajuste fino directo
Análisis Insuficiente de Generalización: Falta análisis profundo de capacidades de generalización entre dominios

Impacto

Contribución Académica: Introduce un nuevo paradigma de entrenamiento para el campo de IA de teledetección
Valor Práctico: Aplicable directamente a escenarios de aplicación de teledetección real
Inspiración Técnica: Proporciona referencias para mejora de capacidades de razonamiento de VLM en otros dominios especializados

Escenarios Aplicables

Análisis de Imágenes de Teledetección: Clasificación de imágenes satelitales, detección de objetos, detección de cambios
Monitoreo de Desastres: Evaluación de pérdidas por desastres naturales, respuesta de emergencia
Planificación Urbana: Monitoreo de cambios de uso del suelo, planificación de infraestructura
Monitoreo Ambiental: Seguimiento de cambios de ecosistemas, investigación del cambio climático

Referencias Bibliográficas

El artículo cita 82 referencias relacionadas, abarcando múltiples campos incluyendo VLM de teledetección, aprendizaje por refuerzo y modelos de lenguaje visual, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un artículo de alta calidad en el campo de la visión por computadora que realiza contribuciones significativas en el importante dominio de aplicación de comprensión de imágenes de teledetección. El método es novedoso, la experimentación es exhaustiva, los resultados son convincentes y proporciona una ruta técnica valiosa para avanzar en el desarrollo de tecnología de IA de teledetección.