GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic
GeoVLM-R1: ضبط دقيق بالتعزيز لتحسين التفكير في الاستشعار عن بعد
أحرزت التطبيقات الحديثة للتعلم المعزز تقدماً ملحوظاً في قدرات التفكير على الصور الطبيعية، لكن إمكاناتها في مجال الملاحظة الأرضية (EO) لم تُستكشف بشكل كافٍ. تقدم مهام الملاحظة الأرضية تحديات فريدة تشمل الكشف عن الأجسام المرجعية، ووصف الصور والمناطق، والكشف عن التغييرات، والتحديد المكاني، والتحليل الزمني، مما يتطلب قدرات تفكير واعية للمهام. تقترح هذه الورقة إطار عمل جديد للتدريب اللاحق يجمع بين آليات مكافآت واعية للمهام، مما يمكّن نماذج التعلم المعزز القائمة على التفكير من التكيف الفعال مع مهام الملاحظة الأرضية المتنوعة. تعزز استراتيجية التدريب هذه قدرات التفكير في صور الاستشعار عن بعد، وتستقر عملية التحسين، وتحسن المتانة. تُظهر التجارب الواسعة على معايير متعددة للملاحظة الأرضية تحسناً متسقاً في الأداء مقارنة بنماذج اللغة والرؤية المتقدمة العامة والمتخصصة.
تُظهر نماذج اللغة والرؤية للاستشعار عن بعد (RS-VLMs) أداءً ممتازاً على صور الملاحظة الأرضية عالية الدقة، لكنها تعاني من مشاكل التفكير السطحي:
قصور القدرات التفكيرية: تعتمد النماذج الحالية بشدة على السوابق النصية والضبط الدقيق الخاضع للإشراف (SFT)، وتفتقر إلى التفكير بسلسلة الأفكار، مما يؤدي إلى ضعف القدرة على التعميم
عدم كفاية الخصوصية المرتبطة بالمهام: تقتصر محاولات التعلم المعزز المبكرة مثل UAV-VL-R1 على مهام الإجابة على الأسئلة البصرية، وتؤدي أداءً ضعيفاً على مهام الملاحظة الأرضية الأوسع مثل الكشف والوصف والتحديد المكاني
إضعاف إشارات المكافآت: تتلقى طرق التعلم المعزز الحالية في مجال الملاحظة الأرضية إشارات مكافآت ضعيفة وغير مرتبطة بالمهام، مما يسهل حدوث مشاكل الخداع بالمكافآت، وغير قادرة على التقاط التفكير المتعدد الخطوات المنظم المطلوب للسيناريوهات المعقدة للملاحظة الأرضية
تتمتع مهام الملاحظة الأرضية بتعقيد وتنوع فريدين، يشملان التصنيف والكشف والوصف والكشف عن التغييرات وتقييم الكوارث وأبعاد متعددة أخرى، مما يتطلب أنظمة VLM قوية قادرة على التفكير المنظم للتعامل مع المدخلات متعددة الاستشعار والعلاقات الزمكانية المعقدة.
قيود التعلم الخاضع للإشراف: تقيد أهداف SFT والتعلم المتناقض التقليدية متانة النموذج وقدرات التفكير
عدم قابلية تطبيق طرق التعلم المعزز العامة: تعاني طرق التعلم المعزز التقليدية مثل PPO من تباين عالي ومشاكل عدم استقرار تحديث السياسة في مهام التفكير المنظم المعقدة
تصميم المكافآت غير الملائم: غياب آليات مكافآت متخصصة تأخذ في الاعتبار خصائص مهام الملاحظة الأرضية
اقتراح إطار عمل GeoVLM-R1: تطوير إطار عمل تدريب لاحق بالتعلم المعزز متخصص في قدرات التفكير لمهام الملاحظة الأرضية المتنوعة
آلية مكافآت ثنائية الهدف مبتكرة: إدخال مكافآت مزدوجة للامتثال للتنسيق والامتثال للدقة ضمن إطار عمل GRPO، مما يعزز التعلم المستقر بالتعلم المعزز وينتج مسارات تفكير دقيقة ومنظمة وقابلة للتفسير
تصميم مكافآت واعية للمهام: تصميم دوال مكافآت متخصصة لمهام الملاحظة الأرضية المختلفة، بما في ذلك مكافآت الاستدعاء ومكافآت الكشف ومكافآت SBERT وغيرها
التحقق التجريبي الواسع: عرض الأداء المتفوقة مقارنة بنماذج VLM الموجودة على 28 معيار نقطة نهاية
بالنظر إلى عينة متعددة الأنماط من الملاحظة الأرضية Qi={i,qi}، تتضمن صورة قمر صناعي i وموجه نصي مقابل qi، الهدف هو إنشاء مخرجات منظمة تتضمن خطوات التفكير والإجابة النهائية:
في مهام التصنيف بدون عينات والتصنيف متعدد التسميات، يحقق GeoVLM-R1 تحسناً بنسبة 7.88% مقارنة بـ EarthDial على BigEarthNet، مع ميزة مطلقة بنسبة 2.56% و6.9% على مجموعات البيانات الزمنية xBD و FMoW على التوالي.
في مهام الكشف عن الأجسام المرجعية، يحقق GeoVLM-R1 تحسناً ملحوظاً بنسبة 21.63% في الكشف عن أجسام متعددة مقارنة بـ EarthDial. على مجموعة بيانات NWPU VHR-10، يوجد تحسن كبير في الكشف عن الأجسام بجميع الأحجام.
تستشهد الورقة بـ 82 مرجعاً ذا صلة، تغطي نماذج اللغة والرؤية للاستشعار عن بعد والتعلم المعزز ونماذج اللغة والرؤية وغيرها من المجالات المهمة، مما توفر أساساً نظرياً متيناً للبحث.
التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقدم مساهمات كبيرة في مجال فهم صور الاستشعار عن بعد المهم. الطريقة مبتكرة والتجارب شاملة والنتائج مقنعة، مما يوفر مسار تقني قيم لتعزيز تطور تكنولوجيا الذكاء الاصطناعي للاستشعار عن بعد.