2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1 : Affinage par Renforcement pour un Raisonnement Amélioré en Télédétection

Informations Fondamentales

ID de l'article : 2509.25026
Titre : GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Auteurs : Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
Institutions : IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
Classification : cs.CV (Vision par Ordinateur)
Date de publication : 14 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2509.25026

Résumé

Les récents progrès de l'apprentissage par renforcement dans le domaine des images naturelles ont démontré des capacités de raisonnement remarquables, mais son potentiel dans le domaine de l'observation terrestre (OT) reste largement inexploré. Les tâches d'OT introduisent des défis uniques, englobant la détection d'objets référencés, la description d'images/régions, la détection de changements, la localisation et l'analyse temporelle, nécessitant des capacités de raisonnement sensibles aux tâches. Cet article propose un nouveau cadre de post-entraînement combinant des mécanismes de récompense sensibles aux tâches, permettant aux modèles d'apprentissage par renforcement basés sur le raisonnement de s'adapter efficacement à diverses tâches d'OT. Cette stratégie d'entraînement améliore les capacités de raisonnement sur les images de télédétection, stabilise le processus d'optimisation et améliore la robustesse. Des expériences approfondies sur plusieurs repères d'OT démontrent des améliorations de performance cohérentes par rapport aux modèles de vision-langage génériques et spécialisés de pointe.

Contexte et Motivation de la Recherche

Définition du Problème

Les modèles de vision-langage en télédétection (RS-VLMs) excellent sur les images d'observation terrestre haute résolution, mais présentent des problèmes de raisonnement superficiel :

Capacités de raisonnement insuffisantes : Les modèles existants dépendent fortement des priors textuels et de l'affinage supervisé (SFT), manquent de raisonnement en chaîne de pensée, entraînant une mauvaise généralisation
Spécificité des tâches insuffisante : Les tentatives précoces d'RL comme UAV-VL-R1 se limitent aux tâches de réponse aux questions visuelles, avec des performances médiocres sur les tâches d'OT plus larges telles que la détection, la description et la localisation
Affaiblissement des signaux de récompense : Les méthodes d'RL existantes dans le domaine d'OT reçoivent des signaux de récompense faibles et indépendants des tâches, susceptibles de produire des problèmes de tromperie de récompense, incapables de capturer le raisonnement multi-étapes structuré requis pour les scènes d'OT complexes

Importance de la Recherche

Les tâches d'observation terrestre présentent une complexité et une diversité uniques, englobant plusieurs dimensions telles que la classification, la détection, la description, la détection de changements et l'évaluation des catastrophes, nécessitant des systèmes VLM puissants capables de raisonnement structuré pour traiter les entrées multi-capteurs et les relations spatio-temporelles complexes.

Limitations des Approches Existantes

Limitations de l'apprentissage supervisé : Les objectifs traditionnels de SFT et d'apprentissage contrastif limitent la robustesse et les capacités de raisonnement du modèle
Inadéquation des méthodes d'RL génériques : Les méthodes d'RL traditionnelles comme PPO présentent une variance élevée et des problèmes de mise à jour de politique instable dans les tâches de raisonnement structuré complexe
Conception inappropriée des récompenses : Absence de mécanismes de récompense spécialisés adaptés aux caractéristiques des tâches d'OT

Contributions Principales

Proposition du cadre GeoVLM-R1 : Développement d'un cadre d'RL de post-entraînement spécialisé pour les capacités de raisonnement sur diverses tâches d'OT
Mécanisme de récompense à double objectif innovant : Introduction de récompenses de conformité de format et de conformité de précision dans le cadre GRPO, améliorant l'apprentissage d'RL stable et produisant des chemins de raisonnement précis, structurés et interprétables
Conception de récompenses sensibles aux tâches : Conception de fonctions de récompense spécialisées pour différentes tâches d'OT, incluant les récompenses de rappel, les récompenses de détection, les récompenses SBERT, etc.
Vérification expérimentale approfondie : Démonstration de performances supérieures par rapport aux VLMs existants sur 28 repères en aval

Explication Détaillée de la Méthode

Définition des Tâches

Étant donné un échantillon multimodal d'OT $Q_i = \{i, q_i\}$ , contenant une image satellite $i$ et une invite textuelle correspondante $q_i$ , l'objectif est de générer une sortie structurée contenant des étapes de raisonnement et une réponse finale :

<think>processus de raisonnement</think>
<answer>réponse finale</answer>

Architecture du Modèle

1. Paradigme d'Entraînement en Deux Étapes

Étape Un : Affinage Supervisé (SFT)

Fonction objectif : $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
Rôle : Fournir au modèle les connaissances fondamentales d'OT et les capacités de raisonnement de base

Étape Deux : Apprentissage par Renforcement Basé sur GRPO

Adoption de l'optimisation de politique relative de groupe (GRPO) plutôt que du PPO traditionnel
Utilisation de l'avantage relatif entre les réponses candidates pour réduire la variance d'entraînement et améliorer le raisonnement structuré

2. Mécanisme d'Optimisation GRPO

Pour un échantillon multimodal $Q_i$ , GRPO génère K réponses candidates $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ , avec l'objectif d'optimisation :

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

où le calcul de l'avantage relatif est : $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

Points d'Innovation Technique

1. Conception de Récompenses Sensibles aux Tâches

Fonction de récompense totale : $R(a) = R_{format} + R_{task\_acc}$

Récompense de Format ( $R_{format}$ ) :

Récompense Think : Assure l'inclusion des balises <think>...</think>
Récompense Answer : Assure l'inclusion des balises <answer>...</answer>

Récompense de Précision Sensible aux Tâches ( $R_{task\_acc}$ ) :

Récompense de Rappel (tâches de classification) : $R_{Recall} = \frac{TP}{TP+FN}$
Récompense de Détection (détection d'objets) : $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
Récompense SBERT (description de régions) : $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
Récompense de Localisation Basée sur Métrique Lexicale (LMGR) : $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
Récompense Hybride SBERT et Métrique Lexicale (HSLR) : $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. Stratégies de Stabilisation de l'Entraînement

Utilisation de boîtes englobantes horizontales (HBB) plutôt que de boîtes englobantes tournées pour l'entraînement d'RL, réduisant l'impact des erreurs de prédiction d'angle sur l'IoU
Normalisation de l'avantage relatif intra-groupe réduisant la variance des récompenses
Contrainte de divergence KL prévenant une déviation excessive de la politique

Configuration Expérimentale

Ensembles de Données

Utilisation de plusieurs ensembles de données d'OT pour l'entraînement et l'évaluation :

Ensemble de Données	Type Temporel	Type de Tâche	Nombre de Paires QA	Fonction de Récompense
BigEarthNet	Mono-temporel	Classification	30 000	Récompense de Rappel
RSCIS	Mono-temporel	Description d'Image	43 670	Similarité Levenshtein
RSVQA-LRBEN	Mono-temporel	Réponse aux Questions Visuelles	57 223	Similarité Jaccard
GeoChat-Instruct	Mono-temporel	Multi-tâches	69 269-73 000	Récompenses Multiples
xBD	Bi-temporel	Détection de Catastrophes	2 283-4 202	Récompense de Détection

Métriques d'Évaluation

Tâches de Classification : Précision, Rappel
Tâches de Détection : mAP@0.5, mAP@0.25
Tâches de Description : Rouge-1, Rouge-L, Meteor
Tâches de Questions-Réponses : Similarité Jaccard

Détails d'Implémentation

Modèle de Base : Qwen2.5VL-3B-Instruct
Taille d'Image : 448×448
Configuration SFT : 8×A100 GPU, 2 epochs, taux d'apprentissage 1e-5
Configuration GRPO : 4×A100 GPU, 2 epochs, taux d'apprentissage 1e-6, température 0.9, ratio KL 0.04

Résultats Expérimentaux

Résultats Principaux

1. Tâches de Classification de Scènes

Sur les tâches de classification zéro-shot et multi-étiquettes, GeoVLM-R1 obtient une amélioration de 7,88% par rapport à EarthDial sur BigEarthNet, avec des avantages absolus respectifs de 2,56% et 6,9% sur les ensembles de données temporels xBD et FMoW.

2. Tâches de Détection et Localisation d'Objets

Dans les tâches de détection d'objets référencés, GeoVLM-R1 obtient une amélioration significative de 21,63% par rapport à EarthDial sur la détection multi-objets. Sur l'ensemble de données NWPU VHR-10, les détections d'objets de toutes tailles montrent des améliorations substantielles.

3. Tâches de Description et Localisation

Dans les tâches de description de régions, les métriques Rouge surpassent globalement les méthodes de base. Dans les tâches de localisation descriptive, les métriques @0.5 et @0.25 atteignent respectivement 38,74% et 61,45%.

4. Évaluation de Catastrophes Temporelles

Sur l'ensemble de données xBD, la détection d'objets mAP@0.5 obtient une amélioration absolue de 30,55%, démontrant les avantages dans les tâches complexes d'analyse temporelle.

Études d'Ablation

1. Efficacité des Fonctions de Récompense

Tâches de classification : La récompense de rappel est la plus efficace, atteignant 80,91% sur BigEarthNet
Description d'images : La récompense de ratio Levenshtein montre les meilleures performances
Détection de changements : La récompense hybride SBERT et métrique lexicale (HSLR) est la plus efficace

2. Impact de la Représentation des Boîtes Englobantes

L'utilisation de boîtes englobantes horizontales (HBB) pour l'entraînement d'RL est plus stable que les boîtes englobantes tournées (RBB), évitant l'accumulation d'erreurs de prédiction d'angle.

3. GRPO vs Méthodes de Base

Par rapport au GeoVLM-SFT utilisant uniquement le SFT, l'ajout de l'optimisation GRPO produit des améliorations significatives sur toutes les tâches.

Analyse de Cas

L'article présente des exemples de processus de raisonnement générés par le modèle, montrant que GeoVLM-R1 peut :

Générer des processus de pensée structurés
Fournir une localisation spatiale précise
Effectuer un raisonnement logique multi-étapes
Traiter l'analyse de changements temporels complexes

Travaux Connexes

Développement des VLMs en Télédétection

Travaux Précoces : RS-GPT introduit pour la première fois les ensembles de données d'appariement image-texte d'OT
Capacités Zéro-Shot : RemoteCLIP démontre des performances zéro-shot fortes sur les tâches de classification et récupération
Compréhension au Niveau Régional : GeoChat, SkyEyeGPT étendent à la localisation visuelle au niveau régional
Fusion Multimodale : EarthGPT, EarthDial intègrent des modalités d'OT hétérogènes

Techniques de Post-Entraînement des VLMs

Techniques d'Alignement : DPO et PPO largement appliqués à l'alignement des VLMs
Amélioration du Raisonnement : GRPO démontre des capacités de raisonnement structuré exceptionnelles dans DeepSeek-R1
Limitations Sectorielles : Les modèles de raisonnement existants se concentrent principalement sur les domaines mathématiques et de programmation, négligeant le potentiel des tâches de télédétection

Conclusions et Discussion

Conclusions Principales

Validation de l'Efficacité : GeoVLM-R1 surpasse systématiquement les méthodes existantes sur 28 repères d'OT
Amélioration des Capacités de Raisonnement : Le raisonnement structuré améliore significativement les performances sur les tâches d'OT complexes
Entraînement Stable : GRPO combiné avec les récompenses sensibles aux tâches réalise un entraînement d'RL stable et efficace

Limitations

Coûts Computationnels : L'entraînement d'RL nécessite des ressources computationnelles et du temps supplémentaires
Complexité de la Conception des Récompenses : Différentes tâches nécessitent la conception minutieuse de fonctions de récompense spécialisées
Dépendance aux Données : Les performances dépendent largement de la qualité des données d'instructions d'OT

Directions Futures

Extension Multimodale : Intégration de davantage de données de capteurs d'OT (SAR, hyperspectral, etc.)
Généralisation Zéro-Shot : Amélioration de la capacité de généralisation du modèle sur les tâches non vues
Optimisation de l'Efficacité : Développement de stratégies d'entraînement d'RL plus efficaces

Évaluation Approfondie

Points Forts

Innovation Forte : Première application de l'entraînement de raisonnement de style R1 au domaine de la télédétection, comblant un vide important
Méthode Complète : Chemin technique complet de la définition du problème à la solution
Expérimentation Approfondie : Évaluation complète sur plusieurs ensembles de données et tâches
Valeur Pratique Élevée : Résout le problème pratique des capacités de raisonnement insuffisantes des VLMs en télédétection

Insuffisances

Dépendance au Modèle de Base : L'efficacité de la méthode dépend largement de la qualité du VLM de base
Complexité de l'Ingénierie des Récompenses : Nécessite la conception manuelle de fonctions de récompense pour chaque type de tâche
Surcharge Computationnelle : L'entraînement d'RL ajoute des coûts computationnels significatifs par rapport à l'affinage direct
Analyse Insuffisante de la Généralisation : Manque d'analyse approfondie des capacités de généralisation inter-domaines

Impact

Contribution Académique : Introduction d'un nouveau paradigme d'entraînement pour le domaine de l'IA en télédétection
Valeur Pratique : Applicable directement aux scénarios d'applications de télédétection réelles
Inspiration Technique : Fournit une référence pour l'amélioration des capacités de raisonnement des VLMs dans d'autres domaines spécialisés

Scénarios d'Application

Analyse d'Images de Télédétection : Classification d'images satellites, détection d'objets, détection de changements
Surveillance des Catastrophes : Évaluation des dégâts de catastrophes naturelles, réponse d'urgence
Planification Urbaine : Surveillance des changements d'utilisation des terres, planification des infrastructures
Surveillance Environnementale : Suivi des changements d'écosystèmes, recherche sur le changement climatique

Références Bibliographiques

L'article cite 82 travaux connexes, couvrant plusieurs domaines tels que les VLMs en télédétection, l'apprentissage par renforcement et les modèles de vision-langage, fournissant une base théorique solide pour la recherche.

Évaluation Globale : Cet article de haute qualité dans le domaine de la vision par ordinateur apporte des contributions significatives à la compréhension des images de télédétection, un domaine d'application important. La méthode est novatrice, l'expérimentation approfondie et les résultats convaincants, fournissant un chemin technique précieux pour faire progresser le développement de la technologie d'IA en télédétection.