2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic

GeoVLM-R1 : Affinage par Renforcement pour un Raisonnement Amélioré en Télédétection

Informations Fondamentales

  • ID de l'article : 2509.25026
  • Titre : GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
  • Auteurs : Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
  • Institutions : IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
  • Classification : cs.CV (Vision par Ordinateur)
  • Date de publication : 14 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2509.25026

Résumé

Les récents progrès de l'apprentissage par renforcement dans le domaine des images naturelles ont démontré des capacités de raisonnement remarquables, mais son potentiel dans le domaine de l'observation terrestre (OT) reste largement inexploré. Les tâches d'OT introduisent des défis uniques, englobant la détection d'objets référencés, la description d'images/régions, la détection de changements, la localisation et l'analyse temporelle, nécessitant des capacités de raisonnement sensibles aux tâches. Cet article propose un nouveau cadre de post-entraînement combinant des mécanismes de récompense sensibles aux tâches, permettant aux modèles d'apprentissage par renforcement basés sur le raisonnement de s'adapter efficacement à diverses tâches d'OT. Cette stratégie d'entraînement améliore les capacités de raisonnement sur les images de télédétection, stabilise le processus d'optimisation et améliore la robustesse. Des expériences approfondies sur plusieurs repères d'OT démontrent des améliorations de performance cohérentes par rapport aux modèles de vision-langage génériques et spécialisés de pointe.

Contexte et Motivation de la Recherche

Définition du Problème

Les modèles de vision-langage en télédétection (RS-VLMs) excellent sur les images d'observation terrestre haute résolution, mais présentent des problèmes de raisonnement superficiel :

  1. Capacités de raisonnement insuffisantes : Les modèles existants dépendent fortement des priors textuels et de l'affinage supervisé (SFT), manquent de raisonnement en chaîne de pensée, entraînant une mauvaise généralisation
  2. Spécificité des tâches insuffisante : Les tentatives précoces d'RL comme UAV-VL-R1 se limitent aux tâches de réponse aux questions visuelles, avec des performances médiocres sur les tâches d'OT plus larges telles que la détection, la description et la localisation
  3. Affaiblissement des signaux de récompense : Les méthodes d'RL existantes dans le domaine d'OT reçoivent des signaux de récompense faibles et indépendants des tâches, susceptibles de produire des problèmes de tromperie de récompense, incapables de capturer le raisonnement multi-étapes structuré requis pour les scènes d'OT complexes

Importance de la Recherche

Les tâches d'observation terrestre présentent une complexité et une diversité uniques, englobant plusieurs dimensions telles que la classification, la détection, la description, la détection de changements et l'évaluation des catastrophes, nécessitant des systèmes VLM puissants capables de raisonnement structuré pour traiter les entrées multi-capteurs et les relations spatio-temporelles complexes.

Limitations des Approches Existantes

  • Limitations de l'apprentissage supervisé : Les objectifs traditionnels de SFT et d'apprentissage contrastif limitent la robustesse et les capacités de raisonnement du modèle
  • Inadéquation des méthodes d'RL génériques : Les méthodes d'RL traditionnelles comme PPO présentent une variance élevée et des problèmes de mise à jour de politique instable dans les tâches de raisonnement structuré complexe
  • Conception inappropriée des récompenses : Absence de mécanismes de récompense spécialisés adaptés aux caractéristiques des tâches d'OT

Contributions Principales

  1. Proposition du cadre GeoVLM-R1 : Développement d'un cadre d'RL de post-entraînement spécialisé pour les capacités de raisonnement sur diverses tâches d'OT
  2. Mécanisme de récompense à double objectif innovant : Introduction de récompenses de conformité de format et de conformité de précision dans le cadre GRPO, améliorant l'apprentissage d'RL stable et produisant des chemins de raisonnement précis, structurés et interprétables
  3. Conception de récompenses sensibles aux tâches : Conception de fonctions de récompense spécialisées pour différentes tâches d'OT, incluant les récompenses de rappel, les récompenses de détection, les récompenses SBERT, etc.
  4. Vérification expérimentale approfondie : Démonstration de performances supérieures par rapport aux VLMs existants sur 28 repères en aval

Explication Détaillée de la Méthode

Définition des Tâches

Étant donné un échantillon multimodal d'OT Qi={i,qi}Q_i = \{i, q_i\}, contenant une image satellite ii et une invite textuelle correspondante qiq_i, l'objectif est de générer une sortie structurée contenant des étapes de raisonnement et une réponse finale :

<think>processus de raisonnement</think>
<answer>réponse finale</answer>

Architecture du Modèle

1. Paradigme d'Entraînement en Deux Étapes

Étape Un : Affinage Supervisé (SFT)

  • Fonction objectif : LSFT(πθ)=E(i,qi,yi)D[t=1Tlogπθ(yi,ti,qi,yi,<t)]L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]
  • Rôle : Fournir au modèle les connaissances fondamentales d'OT et les capacités de raisonnement de base

Étape Deux : Apprentissage par Renforcement Basé sur GRPO

  • Adoption de l'optimisation de politique relative de groupe (GRPO) plutôt que du PPO traditionnel
  • Utilisation de l'avantage relatif entre les réponses candidates pour réduire la variance d'entraînement et améliorer le raisonnement structuré

2. Mécanisme d'Optimisation GRPO

Pour un échantillon multimodal QiQ_i, GRPO génère K réponses candidates SQi={s1,s2,...,sK}S_{Q_i} = \{s_1, s_2, ..., s_K\}, avec l'objectif d'optimisation :

JGRPO(θ)=E{si}i=1Kπθold(Qi)[1Ki=1Kmin[ρiAi,clip(ρi,1ϵ,1+ϵ)Ai]]βDKL[πθπref]J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]

où le calcul de l'avantage relatif est : Ai=rirˉσrA_i = \frac{r_i - \bar{r}}{\sigma_r}

Points d'Innovation Technique

1. Conception de Récompenses Sensibles aux Tâches

Fonction de récompense totale : R(a)=Rformat+Rtask_accR(a) = R_{format} + R_{task\_acc}

Récompense de Format (RformatR_{format}) :

  • Récompense Think : Assure l'inclusion des balises <think>...</think>
  • Récompense Answer : Assure l'inclusion des balises <answer>...</answer>

Récompense de Précision Sensible aux Tâches (Rtask_accR_{task\_acc}) :

  • Récompense de Rappel (tâches de classification) : RRecall=TPTP+FNR_{Recall} = \frac{TP}{TP+FN}
  • Récompense de Détection (détection d'objets) : RDetection=1Nn=1NmaxmIoU(sim,gin)R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)
  • Récompense SBERT (description de régions) : RSBERT=max(0,cos(esi,egi))R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))
  • Récompense de Localisation Basée sur Métrique Lexicale (LMGR) : RLMGR=RLM+RDetection2R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}
  • Récompense Hybride SBERT et Métrique Lexicale (HSLR) : RHSLR=RSBERT+RLM2R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}

2. Stratégies de Stabilisation de l'Entraînement

  • Utilisation de boîtes englobantes horizontales (HBB) plutôt que de boîtes englobantes tournées pour l'entraînement d'RL, réduisant l'impact des erreurs de prédiction d'angle sur l'IoU
  • Normalisation de l'avantage relatif intra-groupe réduisant la variance des récompenses
  • Contrainte de divergence KL prévenant une déviation excessive de la politique

Configuration Expérimentale

Ensembles de Données

Utilisation de plusieurs ensembles de données d'OT pour l'entraînement et l'évaluation :

Ensemble de DonnéesType TemporelType de TâcheNombre de Paires QAFonction de Récompense
BigEarthNetMono-temporelClassification30 000Récompense de Rappel
RSCISMono-temporelDescription d'Image43 670Similarité Levenshtein
RSVQA-LRBENMono-temporelRéponse aux Questions Visuelles57 223Similarité Jaccard
GeoChat-InstructMono-temporelMulti-tâches69 269-73 000Récompenses Multiples
xBDBi-temporelDétection de Catastrophes2 283-4 202Récompense de Détection

Métriques d'Évaluation

  • Tâches de Classification : Précision, Rappel
  • Tâches de Détection : mAP@0.5, mAP@0.25
  • Tâches de Description : Rouge-1, Rouge-L, Meteor
  • Tâches de Questions-Réponses : Similarité Jaccard

Détails d'Implémentation

  • Modèle de Base : Qwen2.5VL-3B-Instruct
  • Taille d'Image : 448×448
  • Configuration SFT : 8×A100 GPU, 2 epochs, taux d'apprentissage 1e-5
  • Configuration GRPO : 4×A100 GPU, 2 epochs, taux d'apprentissage 1e-6, température 0.9, ratio KL 0.04

Résultats Expérimentaux

Résultats Principaux

1. Tâches de Classification de Scènes

Sur les tâches de classification zéro-shot et multi-étiquettes, GeoVLM-R1 obtient une amélioration de 7,88% par rapport à EarthDial sur BigEarthNet, avec des avantages absolus respectifs de 2,56% et 6,9% sur les ensembles de données temporels xBD et FMoW.

2. Tâches de Détection et Localisation d'Objets

Dans les tâches de détection d'objets référencés, GeoVLM-R1 obtient une amélioration significative de 21,63% par rapport à EarthDial sur la détection multi-objets. Sur l'ensemble de données NWPU VHR-10, les détections d'objets de toutes tailles montrent des améliorations substantielles.

3. Tâches de Description et Localisation

Dans les tâches de description de régions, les métriques Rouge surpassent globalement les méthodes de base. Dans les tâches de localisation descriptive, les métriques @0.5 et @0.25 atteignent respectivement 38,74% et 61,45%.

4. Évaluation de Catastrophes Temporelles

Sur l'ensemble de données xBD, la détection d'objets mAP@0.5 obtient une amélioration absolue de 30,55%, démontrant les avantages dans les tâches complexes d'analyse temporelle.

Études d'Ablation

1. Efficacité des Fonctions de Récompense

  • Tâches de classification : La récompense de rappel est la plus efficace, atteignant 80,91% sur BigEarthNet
  • Description d'images : La récompense de ratio Levenshtein montre les meilleures performances
  • Détection de changements : La récompense hybride SBERT et métrique lexicale (HSLR) est la plus efficace

2. Impact de la Représentation des Boîtes Englobantes

L'utilisation de boîtes englobantes horizontales (HBB) pour l'entraînement d'RL est plus stable que les boîtes englobantes tournées (RBB), évitant l'accumulation d'erreurs de prédiction d'angle.

3. GRPO vs Méthodes de Base

Par rapport au GeoVLM-SFT utilisant uniquement le SFT, l'ajout de l'optimisation GRPO produit des améliorations significatives sur toutes les tâches.

Analyse de Cas

L'article présente des exemples de processus de raisonnement générés par le modèle, montrant que GeoVLM-R1 peut :

  1. Générer des processus de pensée structurés
  2. Fournir une localisation spatiale précise
  3. Effectuer un raisonnement logique multi-étapes
  4. Traiter l'analyse de changements temporels complexes

Travaux Connexes

Développement des VLMs en Télédétection

  • Travaux Précoces : RS-GPT introduit pour la première fois les ensembles de données d'appariement image-texte d'OT
  • Capacités Zéro-Shot : RemoteCLIP démontre des performances zéro-shot fortes sur les tâches de classification et récupération
  • Compréhension au Niveau Régional : GeoChat, SkyEyeGPT étendent à la localisation visuelle au niveau régional
  • Fusion Multimodale : EarthGPT, EarthDial intègrent des modalités d'OT hétérogènes

Techniques de Post-Entraînement des VLMs

  • Techniques d'Alignement : DPO et PPO largement appliqués à l'alignement des VLMs
  • Amélioration du Raisonnement : GRPO démontre des capacités de raisonnement structuré exceptionnelles dans DeepSeek-R1
  • Limitations Sectorielles : Les modèles de raisonnement existants se concentrent principalement sur les domaines mathématiques et de programmation, négligeant le potentiel des tâches de télédétection

Conclusions et Discussion

Conclusions Principales

  1. Validation de l'Efficacité : GeoVLM-R1 surpasse systématiquement les méthodes existantes sur 28 repères d'OT
  2. Amélioration des Capacités de Raisonnement : Le raisonnement structuré améliore significativement les performances sur les tâches d'OT complexes
  3. Entraînement Stable : GRPO combiné avec les récompenses sensibles aux tâches réalise un entraînement d'RL stable et efficace

Limitations

  1. Coûts Computationnels : L'entraînement d'RL nécessite des ressources computationnelles et du temps supplémentaires
  2. Complexité de la Conception des Récompenses : Différentes tâches nécessitent la conception minutieuse de fonctions de récompense spécialisées
  3. Dépendance aux Données : Les performances dépendent largement de la qualité des données d'instructions d'OT

Directions Futures

  1. Extension Multimodale : Intégration de davantage de données de capteurs d'OT (SAR, hyperspectral, etc.)
  2. Généralisation Zéro-Shot : Amélioration de la capacité de généralisation du modèle sur les tâches non vues
  3. Optimisation de l'Efficacité : Développement de stratégies d'entraînement d'RL plus efficaces

Évaluation Approfondie

Points Forts

  1. Innovation Forte : Première application de l'entraînement de raisonnement de style R1 au domaine de la télédétection, comblant un vide important
  2. Méthode Complète : Chemin technique complet de la définition du problème à la solution
  3. Expérimentation Approfondie : Évaluation complète sur plusieurs ensembles de données et tâches
  4. Valeur Pratique Élevée : Résout le problème pratique des capacités de raisonnement insuffisantes des VLMs en télédétection

Insuffisances

  1. Dépendance au Modèle de Base : L'efficacité de la méthode dépend largement de la qualité du VLM de base
  2. Complexité de l'Ingénierie des Récompenses : Nécessite la conception manuelle de fonctions de récompense pour chaque type de tâche
  3. Surcharge Computationnelle : L'entraînement d'RL ajoute des coûts computationnels significatifs par rapport à l'affinage direct
  4. Analyse Insuffisante de la Généralisation : Manque d'analyse approfondie des capacités de généralisation inter-domaines

Impact

  1. Contribution Académique : Introduction d'un nouveau paradigme d'entraînement pour le domaine de l'IA en télédétection
  2. Valeur Pratique : Applicable directement aux scénarios d'applications de télédétection réelles
  3. Inspiration Technique : Fournit une référence pour l'amélioration des capacités de raisonnement des VLMs dans d'autres domaines spécialisés

Scénarios d'Application

  1. Analyse d'Images de Télédétection : Classification d'images satellites, détection d'objets, détection de changements
  2. Surveillance des Catastrophes : Évaluation des dégâts de catastrophes naturelles, réponse d'urgence
  3. Planification Urbaine : Surveillance des changements d'utilisation des terres, planification des infrastructures
  4. Surveillance Environnementale : Suivi des changements d'écosystèmes, recherche sur le changement climatique

Références Bibliographiques

L'article cite 82 travaux connexes, couvrant plusieurs domaines tels que les VLMs en télédétection, l'apprentissage par renforcement et les modèles de vision-langage, fournissant une base théorique solide pour la recherche.


Évaluation Globale : Cet article de haute qualité dans le domaine de la vision par ordinateur apporte des contributions significatives à la compréhension des images de télédétection, un domaine d'application important. La méthode est novatrice, l'expérimentation approfondie et les résultats convaincants, fournissant un chemin technique précieux pour faire progresser le développement de la technologie d'IA en télédétection.