GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic
GeoVLM-R1: Ajuste Fino por Refuerzo para Razonamiento Mejorado en Teledetección
Los avances recientes en aprendizaje por refuerzo han logrado progresos significativos en capacidades de razonamiento en imágenes naturales, pero su potencial en el campo de la observación terrestre (EO) aún no ha sido completamente explorado. Las tareas de EO introducen desafíos únicos que abarcan detección de objetos referenciados, descripción de imágenes/regiones, detección de cambios, localización y análisis temporal, requiriendo capacidades de razonamiento conscientes de la tarea. Este artículo propone un marco novedoso de post-entrenamiento que combina mecanismos de recompensa conscientes de la tarea, permitiendo que modelos de aprendizaje por refuerzo basados en razonamiento se adapten efectivamente a diversas tareas de EO. Esta estrategia de entrenamiento mejora las capacidades de razonamiento en imágenes de teledetección, estabiliza el proceso de optimización y aumenta la robustez. Experimentos extensos en múltiples puntos de referencia de EO demuestran mejoras de rendimiento consistentes en comparación con modelos de lenguaje visual de última generación, tanto generales como especializados.
Los modelos de lenguaje visual de teledetección (RS-VLMs) muestran un desempeño excelente en imágenes de observación terrestre de alta resolución, pero presentan problemas de razonamiento superficial:
Capacidad de Razonamiento Insuficiente: Los modelos existentes dependen fuertemente de priors textuales y ajuste fino supervisado (SFT), careciendo de razonamiento de cadena de pensamiento, lo que resulta en pobre capacidad de generalización
Especificidad de Tarea Insuficiente: Intentos tempranos de RL como UAV-VL-R1 se limitan a tareas de preguntas y respuestas visuales, mostrando desempeño deficiente en tareas EO más amplias como detección, descripción y localización
Debilitamiento de Señales de Recompensa: Los métodos RL existentes en el dominio de EO reciben señales de recompensa débiles e independientes de la tarea, propensos a problemas de engaño de recompensa, incapaces de capturar el razonamiento estructurado de múltiples pasos requerido para escenarios complejos de EO
Las tareas de observación terrestre poseen complejidad y diversidad únicas, abarcando múltiples dimensiones incluyendo clasificación, detección, descripción, detección de cambios y evaluación de desastres, requiriendo sistemas VLM robustos capaces de realizar razonamiento estructurado para procesar entradas multisensor y relaciones espacio-temporales complejas.
Limitaciones del Aprendizaje Supervisado: Los objetivos tradicionales de SFT y aprendizaje contrastivo limitan la robustez y capacidades de razonamiento del modelo
Inaplicabilidad de Métodos RL Generales: Métodos RL tradicionales como PPO presentan problemas de alta varianza e inestabilidad en actualizaciones de política en tareas de razonamiento estructurado complejo
Diseño Inadecuado de Recompensas: Falta de mecanismos de recompensa especializados que consideren las características de las tareas de EO
Propuesta del Marco GeoVLM-R1: Desarrollo de un marco de post-entrenamiento RL especializado para capacidades de razonamiento en diversas tareas de EO
Mecanismo Innovador de Recompensa Dual: Introducción de recompensas duales de conformidad de formato y conformidad de precisión dentro del marco GRPO, mejorando el aprendizaje RL estable y produciendo rutas de razonamiento precisas, estructuradas e interpretables
Diseño de Recompensa Consciente de la Tarea: Diseño de funciones de recompensa especializadas para diferentes tareas de EO, incluyendo recompensas de recuperación, recompensas de detección, recompensas SBERT, etc.
Verificación Experimental Extensiva: Demostración de rendimiento superior en comparación con VLMs existentes en 28 puntos de referencia descendentes
Dado un ejemplo multimodal de EO Qi={i,qi}, que contiene una imagen satelital i y su correspondiente indicación de texto qi, el objetivo es generar una salida estructurada que contenga pasos de razonamiento y respuesta final:
<think>proceso de razonamiento</think>
<answer>respuesta final</answer>
Uso de cuadros delimitadores horizontales (HBB) en lugar de cuadros delimitadores rotados para entrenamiento RL, reduciendo el impacto de errores de predicción de ángulo en IoU
Normalización de ventaja relativa dentro del grupo para reducir varianza de recompensa
Restricción de divergencia KL para prevenir que la política se desvíe demasiado
En tareas de clasificación de cero ejemplos y multietiqueta, GeoVLM-R1 logra una mejora del 7.88% en comparación con EarthDial en BigEarthNet, con ventajas absolutas del 2.56% y 6.9% en conjuntos de datos temporales xBD y FMoW respectivamente.
En tareas de detección de objetos referenciados, GeoVLM-R1 logra una mejora significativa del 21.63% en detección multiobjetiva en comparación con EarthDial. En el conjunto de datos NWPU VHR-10, se observan mejoras sustanciales en la detección de objetos de todos los tamaños.
En tareas de descripción de regiones, las métricas Rouge superan completamente los métodos de línea base. En tareas de localización descriptiva, los indicadores @0.5 y @0.25 alcanzan 38.74% y 61.45% respectivamente.
En el conjunto de datos xBD, la detección de objetos mAP@0.5 logra una mejora absoluta del 30.55%, demostrando ventajas en tareas complejas de análisis temporal.
El uso de cuadros delimitadores horizontales (HBB) para entrenamiento RL es más estable que cuadros delimitadores rotados (RBB), evitando la acumulación de errores de predicción de ángulo.
Técnicas de Alineación: DPO y PPO se aplican ampliamente en alineación de VLM
Razonamiento Mejorado: GRPO demuestra capacidades excepcionales de razonamiento estructurado en DeepSeek-R1
Limitaciones de Dominio: Los modelos de razonamiento existentes se enfocan principalmente en dominios como matemáticas y programación, descuidando el potencial de tareas de teledetección
El artículo cita 82 referencias relacionadas, abarcando múltiples campos incluyendo VLM de teledetección, aprendizaje por refuerzo y modelos de lenguaje visual, proporcionando una base teórica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad en el campo de la visión por computadora que realiza contribuciones significativas en el importante dominio de aplicación de comprensión de imágenes de teledetección. El método es novedoso, la experimentación es exhaustiva, los resultados son convincentes y proporciona una ruta técnica valiosa para avanzar en el desarrollo de tecnología de IA de teledetección.