2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1: ضبط دقيق بالتعزيز لتحسين التفكير في الاستشعار عن بعد

المعلومات الأساسية

معرّف الورقة: 2509.25026
العنوان: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
المؤلفون: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
المؤسسات: IBM Research, INSAIT, ETH Zürich, MBZUAI, جامعة Linköping, ANU Australia
التصنيف: cs.CV (رؤية الحاسوب)
تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv)
رابط الورقة: https://arxiv.org/abs/2509.25026

الملخص

أحرزت التطبيقات الحديثة للتعلم المعزز تقدماً ملحوظاً في قدرات التفكير على الصور الطبيعية، لكن إمكاناتها في مجال الملاحظة الأرضية (EO) لم تُستكشف بشكل كافٍ. تقدم مهام الملاحظة الأرضية تحديات فريدة تشمل الكشف عن الأجسام المرجعية، ووصف الصور والمناطق، والكشف عن التغييرات، والتحديد المكاني، والتحليل الزمني، مما يتطلب قدرات تفكير واعية للمهام. تقترح هذه الورقة إطار عمل جديد للتدريب اللاحق يجمع بين آليات مكافآت واعية للمهام، مما يمكّن نماذج التعلم المعزز القائمة على التفكير من التكيف الفعال مع مهام الملاحظة الأرضية المتنوعة. تعزز استراتيجية التدريب هذه قدرات التفكير في صور الاستشعار عن بعد، وتستقر عملية التحسين، وتحسن المتانة. تُظهر التجارب الواسعة على معايير متعددة للملاحظة الأرضية تحسناً متسقاً في الأداء مقارنة بنماذج اللغة والرؤية المتقدمة العامة والمتخصصة.

خلفية البحث والدافع

تعريف المشكلة

تُظهر نماذج اللغة والرؤية للاستشعار عن بعد (RS-VLMs) أداءً ممتازاً على صور الملاحظة الأرضية عالية الدقة، لكنها تعاني من مشاكل التفكير السطحي:

قصور القدرات التفكيرية: تعتمد النماذج الحالية بشدة على السوابق النصية والضبط الدقيق الخاضع للإشراف (SFT)، وتفتقر إلى التفكير بسلسلة الأفكار، مما يؤدي إلى ضعف القدرة على التعميم
عدم كفاية الخصوصية المرتبطة بالمهام: تقتصر محاولات التعلم المعزز المبكرة مثل UAV-VL-R1 على مهام الإجابة على الأسئلة البصرية، وتؤدي أداءً ضعيفاً على مهام الملاحظة الأرضية الأوسع مثل الكشف والوصف والتحديد المكاني
إضعاف إشارات المكافآت: تتلقى طرق التعلم المعزز الحالية في مجال الملاحظة الأرضية إشارات مكافآت ضعيفة وغير مرتبطة بالمهام، مما يسهل حدوث مشاكل الخداع بالمكافآت، وغير قادرة على التقاط التفكير المتعدد الخطوات المنظم المطلوب للسيناريوهات المعقدة للملاحظة الأرضية

أهمية البحث

تتمتع مهام الملاحظة الأرضية بتعقيد وتنوع فريدين، يشملان التصنيف والكشف والوصف والكشف عن التغييرات وتقييم الكوارث وأبعاد متعددة أخرى، مما يتطلب أنظمة VLM قوية قادرة على التفكير المنظم للتعامل مع المدخلات متعددة الاستشعار والعلاقات الزمكانية المعقدة.

قيود الطرق الموجودة

قيود التعلم الخاضع للإشراف: تقيد أهداف SFT والتعلم المتناقض التقليدية متانة النموذج وقدرات التفكير
عدم قابلية تطبيق طرق التعلم المعزز العامة: تعاني طرق التعلم المعزز التقليدية مثل PPO من تباين عالي ومشاكل عدم استقرار تحديث السياسة في مهام التفكير المنظم المعقدة
تصميم المكافآت غير الملائم: غياب آليات مكافآت متخصصة تأخذ في الاعتبار خصائص مهام الملاحظة الأرضية

المساهمات الأساسية

اقتراح إطار عمل GeoVLM-R1: تطوير إطار عمل تدريب لاحق بالتعلم المعزز متخصص في قدرات التفكير لمهام الملاحظة الأرضية المتنوعة
آلية مكافآت ثنائية الهدف مبتكرة: إدخال مكافآت مزدوجة للامتثال للتنسيق والامتثال للدقة ضمن إطار عمل GRPO، مما يعزز التعلم المستقر بالتعلم المعزز وينتج مسارات تفكير دقيقة ومنظمة وقابلة للتفسير
تصميم مكافآت واعية للمهام: تصميم دوال مكافآت متخصصة لمهام الملاحظة الأرضية المختلفة، بما في ذلك مكافآت الاستدعاء ومكافآت الكشف ومكافآت SBERT وغيرها
التحقق التجريبي الواسع: عرض الأداء المتفوقة مقارنة بنماذج VLM الموجودة على 28 معيار نقطة نهاية

شرح الطريقة

تعريف المهام

بالنظر إلى عينة متعددة الأنماط من الملاحظة الأرضية $Q_i = \{i, q_i\}$ ، تتضمن صورة قمر صناعي $i$ وموجه نصي مقابل $q_i$ ، الهدف هو إنشاء مخرجات منظمة تتضمن خطوات التفكير والإجابة النهائية:

<think>عملية التفكير</think>
<answer>الإجابة النهائية</answer>

معمارية النموذج

1. نموذج التدريب على مرحلتين

المرحلة الأولى: الضبط الدقيق الخاضع للإشراف (SFT)

دالة الهدف: $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
الدور: توفير المعرفة الأساسية بالملاحظة الأرضية والقدرات التفكيرية الأساسية للنموذج

المرحلة الثانية: التعلم المعزز القائم على GRPO

اعتماد تحسين السياسة النسبية الجماعية (GRPO) بدلاً من PPO التقليدي
الاستفادة من الميزة النسبية بين الاستجابات المرشحة لتقليل تباين التدريب وتحسين التفكير المنظم

2. آلية تحسين GRPO

بالنسبة لعينة متعددة الأنماط $Q_i$ ، ينتج GRPO K استجابة مرشحة $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ ، بهدف التحسين:

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

حيث يتم حساب الميزة النسبية كـ: $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

نقاط الابتكار التقني

1. تصميم المكافآت الواعية للمهام

دالة المكافآت الإجمالية: $R(a) = R_{format} + R_{task\_acc}$

مكافآت التنسيق ( $R_{format}$ ):

مكافأة Think: ضمان تضمين علامات <think>...</think>
مكافأة Answer: ضمان تضمين علامات <answer>...</answer>

مكافآت الدقة الواعية للمهام ( $R_{task\_acc}$ ):

مكافأة الاستدعاء (مهام التصنيف): $R_{Recall} = \frac{TP}{TP+FN}$
مكافأة الكشف (الكشف عن الأجسام): $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
مكافأة SBERT (وصف المناطق): $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
مكافأة التحديد المكاني القائمة على مقاييس المفردات (LMGR): $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
مكافأة SBERT والمفردات المختلطة (HSLR): $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. استراتيجيات التدريب المستقرة

استخدام صناديق الحدود الأفقية (HBB) بدلاً من الصناديق المدارة لتدريب التعلم المعزز، مما يقلل من تأثير أخطاء التنبؤ بالزاوية على IoU
تطبيع الميزة النسبية داخل المجموعة لتقليل تباين المكافآت
قيود الاختلاف KL لمنع انحراف السياسة بشكل مفرط

إعداد التجارب

مجموعات البيانات

استخدام مجموعات بيانات متعددة للملاحظة الأرضية للتدريب والتقييم:

مجموعة البيانات	نوع الزمن	نوع المهمة	عدد أزواج الأسئلة والأجوبة	دالة المكافآت
BigEarthNet	أحادي الزمن	التصنيف	30,000	مكافأة الاستدعاء
RSCIS	أحادي الزمن	وصف الصور	43,670	تشابه Levenshtein
RSVQA-LRBEN	أحادي الزمن	الإجابة على الأسئلة البصرية	57,223	تشابه Jaccard
GeoChat-Instruct	أحادي الزمن	مهام متعددة	69,269-73,000	مكافآت متعددة
xBD	ثنائي الزمن	الكشف عن الكوارث	2,283-4,202	مكافأة الكشف

مقاييس التقييم

مهام التصنيف: الدقة، الاستدعاء
مهام الكشف: mAP@0.5, mAP@0.25
مهام الوصف: Rouge-1, Rouge-L, Meteor
مهام الإجابة على الأسئلة: تشابه Jaccard

تفاصيل التنفيذ

النموذج الأساسي: Qwen2.5VL-3B-Instruct
حجم الصورة: 448×448
إعدادات SFT: 8×A100 GPU، حقبتان، معدل التعلم 1e-5
إعدادات GRPO: 4×A100 GPU، حقبتان، معدل التعلم 1e-6، درجة الحرارة 0.9، نسبة KL 0.04

نتائج التجارب

النتائج الرئيسية

1. مهام تصنيف المشاهد

في مهام التصنيف بدون عينات والتصنيف متعدد التسميات، يحقق GeoVLM-R1 تحسناً بنسبة 7.88% مقارنة بـ EarthDial على BigEarthNet، مع ميزة مطلقة بنسبة 2.56% و6.9% على مجموعات البيانات الزمنية xBD و FMoW على التوالي.

2. مهام الكشف والتحديد المكاني

في مهام الكشف عن الأجسام المرجعية، يحقق GeoVLM-R1 تحسناً ملحوظاً بنسبة 21.63% في الكشف عن أجسام متعددة مقارنة بـ EarthDial. على مجموعة بيانات NWPU VHR-10، يوجد تحسن كبير في الكشف عن الأجسام بجميع الأحجام.

3. مهام الوصف والتحديد المكاني

في مهام وصف المناطق، تتفوق مقاييس Rouge على جميع طرق الأساس. في مهام التحديد المكاني للوصف، تصل مقاييس @0.5 و@0.25 إلى 38.74% و61.45% على التوالي.

4. تقييم الكوارث الزمني

على مجموعة بيانات xBD، يحقق الكشف عن الأجسام mAP@0.5 تحسناً مطلقاً بنسبة 30.55%، مما يعرض الميزة في مهام التحليل الزمني المعقدة.

التجارب الاستئصالية

1. فعالية دوال المكافآت

مهام التصنيف: مكافأة الاستدعاء الأكثر فعالية، تصل إلى 80.91% على BigEarthNet
وصف الصور: تُظهر مكافأة نسبة Levenshtein أفضل أداء
الكشف عن التغييرات: تُظهر مكافأة SBERT والمفردات المختلطة (HSLR) أفضل النتائج

2. تأثير تمثيل الصندوق الحدودي

يُظهر استخدام الصناديق الحدودية الأفقية (HBB) لتدريب التعلم المعزز استقراراً أكبر من الصناديق المدارة (RBB)، مما يتجنب تراكم أخطاء التنبؤ بالزاوية.

3. GRPO مقابل الأساس

مقارنة بـ GeoVLM-SFT الذي يستخدم فقط SFT، يحقق إضافة تحسين GRPO تحسناً ملحوظاً في جميع المهام.

تحليل الحالات

تعرض الورقة أمثلة على عمليات التفكير التي ينتجها النموذج، مما يُظهر أن GeoVLM-R1 قادر على:

إنشاء عمليات تفكير منظمة
توفير تحديد مكاني دقيق
إجراء تفكير منطقي متعدد الخطوات
التعامل مع تحليل التغييرات الزمنية المعقدة

الأعمال ذات الصلة

تطور نماذج اللغة والرؤية للاستشعار عن بعد

الأعمال المبكرة: قدم RS-GPT أول مجموعة بيانات مقترنة بالصور والنصوص للملاحظة الأرضية
القدرات بدون عينات: أظهر RemoteCLIP أداءً قوياً بدون عينات في مهام التصنيف والاسترجاع
فهم المستوى الإقليمي: توسعت نماذج مثل GeoChat و SkyEyeGPT إلى التحديد المكاني على مستوى المنطقة
الدمج متعدد الأنماط: دمجت نماذج مثل EarthGPT و EarthDial أنماط الملاحظة الأرضية غير المتجانسة

تقنيات التدريب اللاحق لنماذج اللغة والرؤية

تقنيات المحاذاة: تُطبق DPO و PPO على نطاق واسع في محاذاة نماذج اللغة والرؤية
التفكير المحسّن: أظهر GRPO في DeepSeek-R1 قدرات تفكير منظم ممتازة
القيود الإقليمية: تركز النماذج الموجودة للتفكير بشكل أساسي على مجالات مثل الرياضيات والبرمجة، متجاهلة إمكانات مهام الاستشعار عن بعد

الخلاصة والنقاش

الاستنتاجات الرئيسية

التحقق من الفعالية: يتفوق GeoVLM-R1 بشكل متسق على الطرق الموجودة على 28 معيار للملاحظة الأرضية
تحسين القدرات التفكيرية: يحسن التفكير المنظم بشكل كبير أداء مهام الملاحظة الأرضية المعقدة
التدريب المستقر: يحقق GRPO مع المكافآت الواعية للمهام تدريباً مستقراً وفعالاً بالتعلم المعزز

القيود

التكاليف الحسابية: يتطلب تدريب التعلم المعزز موارد حسابية وقتاً إضافياً
تعقيد تصميم المكافآت: تتطلب المهام المختلفة تصميم دوال مكافآت متخصصة بعناية
الاعتماد على البيانات: يعتمد الأداء إلى حد كبير على بيانات تعليمات الملاحظة الأرضية عالية الجودة

الاتجاهات المستقبلية

التوسع متعدد الأنماط: دمج بيانات استشعار الملاحظة الأرضية الإضافية (SAR، فرط الطيف، إلخ)
التعميم بدون عينات: تحسين قدرة النموذج على التعميم على المهام غير المرئية
تحسين الكفاءة: تطوير استراتيجيات تدريب تعلم معزز أكثر كفاءة

التقييم المتعمق

المميزات

ابتكار قوي: أول تطبيق لتدريب التفكير بأسلوب R1 في مجال الاستشعار عن بعد، ملء فجوة مهمة
اكتمال الطريقة: مسار تقني كامل من تعريف المشكلة إلى الحل
تجارب شاملة: تقييم شامل على مجموعات بيانات ومهام متعددة
قيمة عملية عالية: حل المشكلة العملية لقصور قدرات التفكير في نماذج اللغة والرؤية للاستشعار عن بعد

أوجه القصور

الاعتماد على النموذج الأساسي: تعتمد فعالية الطريقة إلى حد كبير على جودة نموذج VLM الأساسي
تعقيد هندسة المكافآت: يتطلب تصميم يدوي لدوال المكافآت لكل نوع مهمة
الحمل الحسابي: يزيد تدريب التعلم المعزز بشكل كبير من التكاليس الحسابية مقارنة بالضبط الدقيق المباشر
تحليل التعميم الناقص: نقص التحليل المتعمق لقدرات التعميم عبر المجالات

التأثير

المساهمة الأكاديمية: إدخال نموذج تدريب جديد لمجال الذكاء الاصطناعي للاستشعار عن بعد
القيمة العملية: يمكن تطبيقها مباشرة على سيناريوهات تطبيقات الاستشعار عن بعد الفعلية
الإلهام التقني: توفير مرجع لتحسين قدرات التفكير في نماذج اللغة والرؤية للمجالات المتخصصة الأخرى

السيناريوهات المطبقة

تحليل صور الاستشعار عن بعد: تصنيف صور القمر الصناعي، الكشف عن الأجسام، الكشف عن التغييرات
مراقبة الكوارث: تقييم خسائر الكوارث الطبيعية، الاستجابة الطارئة
التخطيط الحضري: مراقبة تغييرات استخدام الأراضي، تخطيط البنية التحتية
المراقبة البيئية: تتبع تغييرات النظم البيئية، أبحاث تغير المناخ

المراجع

تستشهد الورقة بـ 82 مرجعاً ذا صلة، تغطي نماذج اللغة والرؤية للاستشعار عن بعد والتعلم المعزز ونماذج اللغة والرؤية وغيرها من المجالات المهمة، مما توفر أساساً نظرياً متيناً للبحث.

التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقدم مساهمات كبيرة في مجال فهم صور الاستشعار عن بعد المهم. الطريقة مبتكرة والتجارب شاملة والنتائج مقنعة، مما يوفر مسار تقني قيم لتعزيز تطور تكنولوجيا الذكاء الاصطناعي للاستشعار عن بعد.