2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1: दूरसंवेदन तर्क के लिए सुदृढीकरण सूक्ष्म-समायोजन

मूल जानकारी

पेपर ID: 2509.25026
शीर्षक: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
लेखक: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
संस्थान: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2509.25026

सारांश

हाल ही में सुदृढीकरण शिक्षा ने प्राकृतिक छवि क्षेत्र में तर्क क्षमता में उल्लेखनीय प्रगति की है, लेकिन पृथ्वी अवलोकन (EO) क्षेत्र में इसकी संभावना अभी तक पूरी तरह से अन्वेषित नहीं हुई है। EO कार्यों ने अद्वितीय चुनौतियाँ प्रस्तुत की हैं, जिनमें संदर्भात्मक लक्ष्य पहचान, छवि/क्षेत्र विवरण, परिवर्तन पहचान, स्थानीयकरण और अस्थायी विश्लेषण शामिल हैं, जिनके लिए कार्य-जागरूक तर्क क्षमता की आवश्यकता है। यह पेपर एक नोवल पोस्ट-ट्रेनिंग फ्रेमवर्क प्रस्तावित करता है जो कार्य-जागरूक पुरस्कार तंत्र को जोड़ता है, जिससे तर्क-आधारित सुदृढीकरण शिक्षा मॉडल विविध EO कार्यों के अनुकूल हो सकते हैं। यह प्रशिक्षण रणनीति दूरसंवेदन छवियों की तर्क क्षमता को बढ़ाती है, अनुकूलन प्रक्रिया को स्थिर करती है, और मजबूती में सुधार करती है। कई EO बेंचमार्क पर व्यापक प्रयोग दर्शाते हैं कि यह विधि अत्याधुनिक सामान्य और विशेष दृश्य भाषा मॉडल की तुलना में सुसंगत प्रदर्शन सुधार प्राप्त करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

दूरसंवेदन दृश्य भाषा मॉडल (RS-VLMs) उच्च-रिज़ॉल्यूशन पृथ्वी अवलोकन छवियों पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन उथली तर्क समस्याओं से ग्रस्त हैं:

अपर्याप्त तर्क क्षमता: मौजूदा मॉडल पाठ पूर्वधारणा और निरीक्षित सूक्ष्म-समायोजन (SFT) पर गंभीर रूप से निर्भर हैं, श्रृंखला-विचार तर्क की कमी है, जिससे सामान्यीकरण क्षमता कमजोर होती है
कार्य विशिष्टता की कमी: UAV-VL-R1 जैसे प्रारंभिक RL प्रयास केवल दृश्य प्रश्नोत्तर कार्यों तक सीमित हैं, पहचान, विवरण, स्थानीयकरण आदि व्यापक EO कार्यों पर खराब प्रदर्शन करते हैं
पुरस्कार संकेत कमजोरी: मौजूदा EO क्षेत्र RL विधियाँ कमजोर और कार्य-असंबंधित पुरस्कार संकेत प्राप्त करती हैं, जो पुरस्कार धोखाधड़ी समस्याओं के लिए प्रवण हैं, जटिल EO दृश्यों के लिए आवश्यक संरचित बहु-चरणीय तर्क को कैप्चर नहीं कर सकते हैं

अनुसंधान का महत्व

पृथ्वी अवलोकन कार्यों में अद्वितीय जटिलता और विविधता है, जिसमें वर्गीकरण, पहचान, विवरण, परिवर्तन पहचान, आपदा मूल्यांकन आदि कई आयाम शामिल हैं, जिनके लिए बहु-संवेदक इनपुट और जटिल स्पेसटाइम संबंधों को संभालने के लिए संरचित तर्क कर सकने वाली शक्तिशाली VLM प्रणालियों की आवश्यकता है।

मौजूदा विधियों की सीमाएँ

निरीक्षित शिक्षा की सीमाएँ: पारंपरिक SFT और विपरीत शिक्षा उद्देश्य मॉडल की मजबूती और तर्क क्षमता को सीमित करते हैं
सामान्य RL विधियाँ लागू नहीं: PPO जैसी पारंपरिक RL विधियाँ जटिल संरचित तर्क कार्यों में उच्च विचरण और अस्थिर नीति अपडेट समस्याओं का सामना करती हैं
अनुचित पुरस्कार डिज़ाइन: EO कार्यों की विशेषताओं के लिए विशेष पुरस्कार तंत्र की कमी

मुख्य योगदान

GeoVLM-R1 फ्रेमवर्क प्रस्तावित करना: विविध EO कार्यों की तर्क क्षमता के लिए विशेष रूप से डिज़ाइन किया गया पोस्ट-ट्रेनिंग RL फ्रेमवर्क विकसित करना
नोवल दोहरे-उद्देश्य पुरस्कार तंत्र: GRPO फ्रेमवर्क के भीतर प्रारूप अनुपालन और सटीकता अनुपालन के दोहरे पुरस्कार प्रस्तुत करना, स्थिर RL शिक्षा को बढ़ाना और सटीक, संरचित, व्याख्यायोग्य तर्क पथ उत्पन्न करना
कार्य-जागरूक पुरस्कार डिज़ाइन: विभिन्न EO कार्यों के लिए विशेष पुरस्कार कार्य डिज़ाइन करना, जिसमें रिकॉल पुरस्कार, पहचान पुरस्कार, SBERT पुरस्कार आदि शामिल हैं
व्यापक प्रयोग सत्यापन: 28 डाउनस्ट्रीम बेंचमार्क पर मौजूदा VLM की तुलना में श्रेष्ठ प्रदर्शन प्रदर्शित करना

विधि विस्तार

कार्य परिभाषा

EO बहु-मोडल नमूने $Q_i = \{i, q_i\}$ दिए गए हैं, जिसमें उपग्रह छवि $i$ और संबंधित पाठ संकेत $q_i$ शामिल हैं, लक्ष्य तर्क चरणों और अंतिम उत्तर युक्त संरचित आउटपुट उत्पन्न करना है:

<think>तर्क प्रक्रिया</think>
<answer>अंतिम उत्तर</answer>

मॉडल आर्किटेक्चर

1. दो-चरणीय प्रशिक्षण प्रतिमान

चरण एक: निरीक्षित सूक्ष्म-समायोजन (SFT)

उद्देश्य कार्य: $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
कार्य: मॉडल को मुख्य EO ज्ञान और बुनियादी तर्क क्षमता प्रदान करना

चरण दो: GRPO-आधारित सुदृढीकरण शिक्षा

पारंपरिक PPO के बजाय समूह सापेक्ष नीति अनुकूलन (GRPO) को अपनाना
प्रशिक्षण विचरण को कम करने और संरचित तर्क को बढ़ाने के लिए उम्मीदवार प्रतिक्रियाओं के बीच सापेक्ष लाभ का उपयोग करना

2. GRPO अनुकूलन तंत्र

बहु-मोडल नमूने $Q_i$ के लिए, GRPO K उम्मीदवार प्रतिक्रियाएँ $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ उत्पन्न करता है, अनुकूलन उद्देश्य:

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

जहाँ सापेक्ष लाभ की गणना इस प्रकार की जाती है: $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

तकनीकी नवाचार बिंदु

1. कार्य-जागरूक पुरस्कार डिज़ाइन

कुल पुरस्कार कार्य: $R(a) = R_{format} + R_{task\_acc}$

प्रारूप पुरस्कार ( $R_{format}$ ):

Think पुरस्कार: <think>...</think> टैग की उपस्थिति सुनिश्चित करना
Answer पुरस्कार: <answer>...</answer> टैग की उपस्थिति सुनिश्चित करना

कार्य-जागरूक सटीकता पुरस्कार ( $R_{task\_acc}$ ):

रिकॉल पुरस्कार (वर्गीकरण कार्य): $R_{Recall} = \frac{TP}{TP+FN}$
पहचान पुरस्कार (लक्ष्य पहचान): $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
SBERT पुरस्कार (क्षेत्र विवरण): $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
शब्दावली मेट्रिक आधारित स्थानीयकरण पुरस्कार (LMGR): $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
हाइब्रिड SBERT और शब्दावली मेट्रिक पुरस्कार (HSLR): $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. स्थिरीकरण प्रशिक्षण रणनीति

RL प्रशिक्षण के लिए क्षैतिज सीमा बॉक्स (HBB) का उपयोग करना, न कि घुमाए गए सीमा बॉक्स, कोण भविष्यवाणी त्रुटि के IoU पर प्रभाव को कम करना
समूह के भीतर सापेक्ष लाभ सामान्यीकरण पुरस्कार विचरण को कम करना
KL विचलन बाधा नीति को बहुत दूर जाने से रोकना

प्रयोग सेटअप

डेटासेट

प्रशिक्षण और मूल्यांकन के लिए कई EO डेटासेट का उपयोग:

डेटासेट	अस्थायी प्रकार	कार्य प्रकार	QA जोड़ी संख्या	पुरस्कार कार्य
BigEarthNet	एकल-अस्थायी	वर्गीकरण	30,000	रिकॉल पुरस्कार
RSCIS	एकल-अस्थायी	छवि विवरण	43,670	Levenshtein समानता
RSVQA-LRBEN	एकल-अस्थायी	दृश्य प्रश्नोत्तर	57,223	Jaccard समानता
GeoChat-Instruct	एकल-अस्थायी	बहु-कार्य	69,269-73,000	बहु-पुरस्कार
xBD	दोहरा-अस्थायी	आपदा पहचान	2,283-4,202	पहचान पुरस्कार

मूल्यांकन मेट्रिक्स

वर्गीकरण कार्य: सटीकता, रिकॉल
पहचान कार्य: mAP@0.5, mAP@0.25
विवरण कार्य: Rouge-1, Rouge-L, Meteor
प्रश्नोत्तर कार्य: Jaccard समानता

कार्यान्वयन विवरण

आधार मॉडल: Qwen2.5VL-3B-Instruct
छवि आकार: 448×448
SFT सेटिंग: 8×A100 GPU, 2 epochs, सीखने की दर 1e-5
GRPO सेटिंग: 4×A100 GPU, 2 epochs, सीखने की दर 1e-6, तापमान 0.9, KL अनुपात 0.04

प्रयोग परिणाम

मुख्य परिणाम

1. दृश्य वर्गीकरण कार्य

शून्य-शॉट और बहु-लेबल वर्गीकरण कार्यों पर, GeoVLM-R1 ने BigEarthNet पर EarthDial की तुलना में 7.88% की वृद्धि प्राप्त की, अस्थायी डेटासेट xBD और FMoW पर क्रमशः 2.56% और 6.9% का निरपेक्ष लाभ प्राप्त किया।

2. लक्ष्य पहचान और स्थानीयकरण कार्य

संदर्भात्मक लक्ष्य पहचान कार्य में, GeoVLM-R1 ने बहु-लक्ष्य पहचान पर EarthDial की तुलना में 21.63% की उल्लेखनीय वृद्धि प्राप्त की। NWPU VHR-10 डेटासेट पर, सभी आकार के लक्ष्यों की पहचान में व्यापक सुधार हुआ।

3. विवरण और स्थानीयकरण कार्य

क्षेत्र विवरण कार्य में, Rouge मेट्रिक्स ने आधार विधियों को व्यापक रूप से पार किया। स्थानीयकरण विवरण कार्य में, @0.5 और @0.25 मेट्रिक्स क्रमशः 38.74% और 61.45% तक पहुँचे।

4. अस्थायी आपदा मूल्यांकन

xBD डेटासेट पर, लक्ष्य पहचान mAP@0.5 ने 30.55% की निरपेक्ष वृद्धि प्राप्त की, जटिल अस्थायी विश्लेषण कार्यों पर लाभ प्रदर्शित करते हुए।

विलोपन प्रयोग

1. पुरस्कार कार्य प्रभावशीलता

वर्गीकरण कार्य: रिकॉल पुरस्कार सबसे प्रभावी है, BigEarthNet पर 80.91% तक पहुँचता है
छवि विवरण: Levenshtein अनुपात पुरस्कार सर्वश्रेष्ठ प्रदर्शन करता है
परिवर्तन पहचान: हाइब्रिड SBERT और शब्दावली मेट्रिक पुरस्कार (HSLR) सर्वश्रेष्ठ प्रभाव

2. सीमा बॉक्स प्रतिनिधित्व प्रभाव

RL प्रशिक्षण के लिए क्षैतिज सीमा बॉक्स (HBB) का उपयोग घुमाए गए सीमा बॉक्स (RBB) की तुलना में अधिक स्थिर है, कोण भविष्यवाणी त्रुटि के संचय से बचता है।

3. GRPO बनाम आधार विधि

केवल SFT का उपयोग करने वाले GeoVLM-SFT की तुलना में, GRPO अनुकूलन जोड़ने के बाद सभी कार्यों पर उल्लेखनीय सुधार हुआ।

केस विश्लेषण

पेपर मॉडल द्वारा उत्पन्न तर्क प्रक्रिया के उदाहरण प्रदर्शित करता है, दिखाता है कि GeoVLM-R1 सक्षम है:

संरचित विचार प्रक्रिया उत्पन्न करना
सटीक स्थानिक स्थानीयकरण प्रदान करना
बहु-चरणीय तार्किक तर्क करना
जटिल अस्थायी परिवर्तन विश्लेषण को संभालना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

प्रभावशीलता सत्यापन: GeoVLM-R1 28 EO बेंचमार्क पर मौजूदा विधियों को लगातार पार करता है
तर्क क्षमता में सुधार: संरचित तर्क के माध्यम से जटिल EO कार्यों के प्रदर्शन में उल्लेखनीय सुधार
स्थिर प्रशिक्षण: GRPO कार्य-जागरूक पुरस्कार के साथ स्थिर और प्रभावी RL प्रशिक्षण प्राप्त करता है

सीमाएँ

कम्प्यूटेशनल लागत: RL प्रशिक्षण को अतिरिक्त कम्प्यूटेशनल संसाधन और समय की आवश्यकता है
पुरस्कार डिज़ाइन जटिलता: विभिन्न कार्यों के लिए विशेष पुरस्कार कार्य सावधानीपूर्वक डिज़ाइन करने की आवश्यकता है
डेटा निर्भरता: प्रदर्शन बड़े हद तक उच्च-गुणवत्ता EO निर्देश डेटा पर निर्भर है

भविष्य की दिशाएँ

बहु-मोडल विस्तार: अधिक EO संवेदक डेटा (SAR, हाइपरस्पेक्ट्रल आदि) को एकीकृत करना
शून्य-शॉट सामान्यीकरण: अदेखे कार्यों पर मॉडल की सामान्यीकरण क्षमता में सुधार
दक्षता अनुकूलन: अधिक कुशल RL प्रशिक्षण रणनीति विकसित करना

गहन मूल्यांकन

शक्तियाँ

मजबूत नवाचार: दूरसंवेदन क्षेत्र में R1-शैली तर्क प्रशिक्षण का पहला अनुप्रयोग, महत्वपूर्ण अंतर को भरना
पूर्ण विधि: समस्या परिभाषा से समाधान तक पूर्ण तकनीकी पथ
व्यापक प्रयोग: कई डेटासेट और कार्यों पर व्यापक मूल्यांकन
उच्च व्यावहारिक मूल्य: दूरसंवेदन VLM की तर्क क्षमता की कमी की व्यावहारिक समस्या को हल करना

कमियाँ

आधार मॉडल निर्भरता: विधि प्रभाव बड़े हद तक आधार VLM की गुणवत्ता पर निर्भर है
पुरस्कार इंजीनियरिंग जटिलता: प्रत्येक कार्य प्रकार के लिए पुरस्कार कार्य को हाथ से डिज़ाइन करने की आवश्यकता है
कम्प्यूटेशनल ओवरहेड: सीधे सूक्ष्म-समायोजन की तुलना में RL प्रशिक्षण महत्वपूर्ण कम्प्यूटेशनल लागत जोड़ता है
सामान्यीकरण विश्लेषण अपर्याप्त: क्रॉस-डोमेन सामान्यीकरण क्षमता का गहन विश्लेषण की कमी

प्रभाव

शैक्षणिक योगदान: दूरसंवेदन AI क्षेत्र में नई प्रशिक्षण प्रतिमान प्रस्तुत करना
व्यावहारिक मूल्य: वास्तविक दूरसंवेदन अनुप्रयोग परिदृश्यों में सीधे अनुप्रयोग
तकनीकी प्रेरणा: अन्य विशेष क्षेत्र VLM की तर्क क्षमता सुधार के लिए संदर्भ प्रदान करना

लागू परिदृश्य

दूरसंवेदन छवि विश्लेषण: उपग्रह छवि वर्गीकरण, लक्ष्य पहचान, परिवर्तन पहचान
आपदा निगरानी: प्राकृतिक आपदा नुकसान मूल्यांकन, आपातकालीन प्रतिक्रिया
शहरी योजना: भूमि उपयोग परिवर्तन निगरानी, बुनियादी ढाँचा योजना
पर्यावरण निगरानी: पारिस्थितिकी तंत्र परिवर्तन ट्रैकिंग, जलवायु परिवर्तन अनुसंधान

संदर्भ

पेपर 82 संबंधित संदर्भों का हवाला देता है, जिसमें दूरसंवेदन VLM, सुदृढीकरण शिक्षा, दृश्य भाषा मॉडल आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह कंप्यूटर विजन क्षेत्र का एक उच्च-गुणवत्ता वाला पेपर है, जो दूरसंवेदन छवि समझ के इस महत्वपूर्ण अनुप्रयोग क्षेत्र में महत्वपूर्ण योगदान देता है। विधि नोवल है, प्रयोग व्यापक हैं, परिणाम प्रेरक हैं, दूरसंवेदन AI तकनीक विकास को आगे बढ़ाने के लिए मूल्यवान तकनीकी पथ प्रदान करते हैं।