GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic
GeoVLM-R1 : Affinage par Renforcement pour un Raisonnement Amélioré en Télédétection
Les récents progrès de l'apprentissage par renforcement dans le domaine des images naturelles ont démontré des capacités de raisonnement remarquables, mais son potentiel dans le domaine de l'observation terrestre (OT) reste largement inexploré. Les tâches d'OT introduisent des défis uniques, englobant la détection d'objets référencés, la description d'images/régions, la détection de changements, la localisation et l'analyse temporelle, nécessitant des capacités de raisonnement sensibles aux tâches. Cet article propose un nouveau cadre de post-entraînement combinant des mécanismes de récompense sensibles aux tâches, permettant aux modèles d'apprentissage par renforcement basés sur le raisonnement de s'adapter efficacement à diverses tâches d'OT. Cette stratégie d'entraînement améliore les capacités de raisonnement sur les images de télédétection, stabilise le processus d'optimisation et améliore la robustesse. Des expériences approfondies sur plusieurs repères d'OT démontrent des améliorations de performance cohérentes par rapport aux modèles de vision-langage génériques et spécialisés de pointe.
Les modèles de vision-langage en télédétection (RS-VLMs) excellent sur les images d'observation terrestre haute résolution, mais présentent des problèmes de raisonnement superficiel :
Capacités de raisonnement insuffisantes : Les modèles existants dépendent fortement des priors textuels et de l'affinage supervisé (SFT), manquent de raisonnement en chaîne de pensée, entraînant une mauvaise généralisation
Spécificité des tâches insuffisante : Les tentatives précoces d'RL comme UAV-VL-R1 se limitent aux tâches de réponse aux questions visuelles, avec des performances médiocres sur les tâches d'OT plus larges telles que la détection, la description et la localisation
Affaiblissement des signaux de récompense : Les méthodes d'RL existantes dans le domaine d'OT reçoivent des signaux de récompense faibles et indépendants des tâches, susceptibles de produire des problèmes de tromperie de récompense, incapables de capturer le raisonnement multi-étapes structuré requis pour les scènes d'OT complexes
Les tâches d'observation terrestre présentent une complexité et une diversité uniques, englobant plusieurs dimensions telles que la classification, la détection, la description, la détection de changements et l'évaluation des catastrophes, nécessitant des systèmes VLM puissants capables de raisonnement structuré pour traiter les entrées multi-capteurs et les relations spatio-temporelles complexes.
Limitations de l'apprentissage supervisé : Les objectifs traditionnels de SFT et d'apprentissage contrastif limitent la robustesse et les capacités de raisonnement du modèle
Inadéquation des méthodes d'RL génériques : Les méthodes d'RL traditionnelles comme PPO présentent une variance élevée et des problèmes de mise à jour de politique instable dans les tâches de raisonnement structuré complexe
Conception inappropriée des récompenses : Absence de mécanismes de récompense spécialisés adaptés aux caractéristiques des tâches d'OT
Proposition du cadre GeoVLM-R1 : Développement d'un cadre d'RL de post-entraînement spécialisé pour les capacités de raisonnement sur diverses tâches d'OT
Mécanisme de récompense à double objectif innovant : Introduction de récompenses de conformité de format et de conformité de précision dans le cadre GRPO, améliorant l'apprentissage d'RL stable et produisant des chemins de raisonnement précis, structurés et interprétables
Conception de récompenses sensibles aux tâches : Conception de fonctions de récompense spécialisées pour différentes tâches d'OT, incluant les récompenses de rappel, les récompenses de détection, les récompenses SBERT, etc.
Vérification expérimentale approfondie : Démonstration de performances supérieures par rapport aux VLMs existants sur 28 repères en aval
Étant donné un échantillon multimodal d'OT Qi={i,qi}, contenant une image satellite i et une invite textuelle correspondante qi, l'objectif est de générer une sortie structurée contenant des étapes de raisonnement et une réponse finale :
<think>processus de raisonnement</think>
<answer>réponse finale</answer>
Utilisation de boîtes englobantes horizontales (HBB) plutôt que de boîtes englobantes tournées pour l'entraînement d'RL, réduisant l'impact des erreurs de prédiction d'angle sur l'IoU
Normalisation de l'avantage relatif intra-groupe réduisant la variance des récompenses
Contrainte de divergence KL prévenant une déviation excessive de la politique
Sur les tâches de classification zéro-shot et multi-étiquettes, GeoVLM-R1 obtient une amélioration de 7,88% par rapport à EarthDial sur BigEarthNet, avec des avantages absolus respectifs de 2,56% et 6,9% sur les ensembles de données temporels xBD et FMoW.
Dans les tâches de détection d'objets référencés, GeoVLM-R1 obtient une amélioration significative de 21,63% par rapport à EarthDial sur la détection multi-objets. Sur l'ensemble de données NWPU VHR-10, les détections d'objets de toutes tailles montrent des améliorations substantielles.
Dans les tâches de description de régions, les métriques Rouge surpassent globalement les méthodes de base. Dans les tâches de localisation descriptive, les métriques @0.5 et @0.25 atteignent respectivement 38,74% et 61,45%.
Sur l'ensemble de données xBD, la détection d'objets mAP@0.5 obtient une amélioration absolue de 30,55%, démontrant les avantages dans les tâches complexes d'analyse temporelle.
L'utilisation de boîtes englobantes horizontales (HBB) pour l'entraînement d'RL est plus stable que les boîtes englobantes tournées (RBB), évitant l'accumulation d'erreurs de prédiction d'angle.
Techniques d'Alignement : DPO et PPO largement appliqués à l'alignement des VLMs
Amélioration du Raisonnement : GRPO démontre des capacités de raisonnement structuré exceptionnelles dans DeepSeek-R1
Limitations Sectorielles : Les modèles de raisonnement existants se concentrent principalement sur les domaines mathématiques et de programmation, négligeant le potentiel des tâches de télédétection
L'article cite 82 travaux connexes, couvrant plusieurs domaines tels que les VLMs en télédétection, l'apprentissage par renforcement et les modèles de vision-langage, fournissant une base théorique solide pour la recherche.
Évaluation Globale : Cet article de haute qualité dans le domaine de la vision par ordinateur apporte des contributions significatives à la compréhension des images de télédétection, un domaine d'application important. La méthode est novatrice, l'expérimentation approfondie et les résultats convaincants, fournissant un chemin technique précieux pour faire progresser le développement de la technologie d'IA en télédétection.