GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic
GeoVLM-R1: Ottimizzazione Fine-Tuning con Rinforzo per il Ragionamento Migliorato nel Telerilevamento
I recenti progressi nell'apprendimento per rinforzo hanno dimostrato capacità di ragionamento significative nel dominio delle immagini naturali, tuttavia il loro potenziale nel campo dell'osservazione terrestre (EO) rimane ancora largamente inesplorato. I compiti EO introducono sfide uniche, che comprendono il rilevamento di oggetti referenziali, la descrizione di immagini/regioni, il rilevamento di cambiamenti, la localizzazione e l'analisi temporale, richiedendo capacità di ragionamento consapevoli del compito. Questo articolo propone un innovativo framework di post-addestramento che combina meccanismi di ricompensa consapevoli del compito, consentendo ai modelli di apprendimento per rinforzo basati sul ragionamento di adattarsi efficacemente a diversi compiti EO. La strategia di addestramento migliora le capacità di ragionamento sulle immagini di telerilevamento, stabilizza il processo di ottimizzazione e aumenta la robustezza. Esperimenti estesi su molteplici benchmark EO dimostrano miglioramenti di prestazioni coerenti rispetto ai modelli di linguaggio visivo generici e specializzati all'avanguardia.
I modelli di linguaggio visivo per il telerilevamento (RS-VLMs) mostrano prestazioni eccellenti su immagini di osservazione terrestre ad alta risoluzione, ma presentano problemi di ragionamento superficiale:
Capacità di ragionamento insufficiente: I modelli esistenti dipendono fortemente da priori testuali e da fine-tuning supervisionato (SFT), mancando di ragionamento a catena di pensiero, risultando in scarsa capacità di generalizzazione
Insufficienza di specificità del compito: I primi tentativi di RL come UAV-VL-R1 sono limitati ai compiti di visual question answering, mostrando prestazioni scadenti su compiti EO più ampi come rilevamento, descrizione e localizzazione
Indebolimento dei segnali di ricompensa: I metodi RL esistenti nel dominio EO ricevono segnali di ricompensa deboli e indipendenti dal compito, facilmente soggetti a problemi di reward hacking, incapaci di catturare il ragionamento strutturato multi-step necessario per scene EO complesse
I compiti di osservazione terrestre possiedono complessità e diversità uniche, coprendo molteplici dimensioni come classificazione, rilevamento, descrizione, rilevamento di cambiamenti e valutazione di disastri, richiedendo sistemi VLM potenti capaci di ragionamento strutturato per gestire input multi-sensore e relazioni spazio-temporali complesse.
Limitazioni dell'apprendimento supervisionato: Gli obiettivi tradizionali di SFT e apprendimento contrastivo limitano la robustezza e le capacità di ragionamento del modello
Inapplicabilità dei metodi RL generici: I metodi RL tradizionali come PPO presentano problemi di alta varianza e aggiornamenti di policy instabili in compiti di ragionamento strutturato complesso
Progettazione inadeguata della ricompensa: Mancanza di meccanismi di ricompensa specializzati che riflettono le caratteristiche dei compiti EO
Proposta del Framework GeoVLM-R1: Sviluppo di un framework RL di post-addestramento specializzato per le capacità di ragionamento su diversi compiti EO
Innovativo Meccanismo di Ricompensa Duale: Introduzione di ricompense duali per conformità di formato e conformità di accuratezza all'interno del framework GRPO, migliorando l'apprendimento RL stabile e producendo percorsi di ragionamento accurati, strutturati e interpretabili
Progettazione di Ricompensa Consapevole del Compito: Progettazione di funzioni di ricompensa specializzate per diversi compiti EO, incluse ricompense di recall, ricompense di rilevamento, ricompense SBERT, ecc.
Verifica Sperimentale Estesa: Dimostrazione di prestazioni superiori rispetto ai VLM esistenti su 28 benchmark downstream
Dato un campione multimodale EO Qi={i,qi}, contenente un'immagine satellitare i e il corrispondente prompt testuale qi, l'obiettivo è generare un output strutturato contenente i passi di ragionamento e la risposta finale:
<think>processo di ragionamento</think>
<answer>risposta finale</answer>
Utilizzo di bounding box orizzontali (HBB) anziché bounding box ruotati per l'addestramento RL, riducendo l'impatto degli errori di predizione dell'angolo su IoU
Normalizzazione del vantaggio relativo all'interno del gruppo per ridurre la varianza della ricompensa
Vincolo di divergenza KL per prevenire l'allontanamento eccessivo della policy
Su compiti di classificazione zero-shot e multi-label, GeoVLM-R1 ottiene un miglioramento del 7,88% rispetto a EarthDial su BigEarthNet, con vantaggi assoluti rispettivamente del 2,56% e 6,9% su dataset temporali xBD e FMoW.
Nel compito di rilevamento di oggetti referenziali, GeoVLM-R1 ottiene un miglioramento significativo del 21,63% nel rilevamento multi-oggetto rispetto a EarthDial. Sul dataset NWPU VHR-10, il rilevamento di oggetti di tutte le dimensioni mostra miglioramenti sostanziali.
Nel compito di descrizione di regioni, le metriche Rouge superano completamente i metodi baseline. Nel compito di localizzazione con descrizione, le metriche @0.5 e @0.25 raggiungono rispettivamente il 38,74% e il 61,45%.
Sul dataset xBD, il rilevamento di oggetti mAP@0.5 ottiene un miglioramento assoluto del 30,55%, dimostrando vantaggi in compiti di analisi temporale complessa.
L'utilizzo di bounding box orizzontali (HBB) per l'addestramento RL è più stabile rispetto ai bounding box ruotati (RBB), evitando l'accumulo di errori di predizione dell'angolo.
Tecniche di Allineamento: DPO e PPO sono ampiamente applicati all'allineamento di VLM
Ragionamento Potenziato: GRPO dimostra eccellenti capacità di ragionamento strutturato in DeepSeek-R1
Limitazioni di Dominio: I modelli di ragionamento esistenti si concentrano principalmente su domini come matematica e programmazione, trascurando il potenziale dei compiti di telerilevamento
L'articolo cita 82 riferimenti correlati, coprendo molteplici domini inclusi VLM per il telerilevamento, apprendimento per rinforzo e modelli di linguaggio visivo, fornendo una solida base teorica per la ricerca.
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale, che apporta contributi significativi nel dominio importante della comprensione delle immagini di telerilevamento. Il metodo è innovativo, la sperimentazione è estesa, i risultati sono convincenti e fornisce un percorso tecnico prezioso per promuovere lo sviluppo della tecnologia IA nel telerilevamento.