GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic
GeoVLM-R1: Усиленная тонкая настройка для улучшенного рассуждения при дистанционном зондировании
Недавние достижения в области усиленного обучения продемонстрировали значительный прогресс в способностях рассуждения на естественных изображениях, однако его потенциал в области наблюдения Земли (ЗЗ) остаётся недостаточно изученным. Задачи ЗЗ представляют уникальные вызовы, охватывающие обнаружение объектов по ссылкам, описание изображений/регионов, обнаружение изменений, локализацию и временной анализ, требующие способности к осознанному рассуждению. В данной работе предложена новая структура постобучения, объединяющая механизм вознаграждения, осознающий задачу, позволяющий моделям усиленного обучения на основе рассуждений эффективно адаптироваться к разнообразным задачам ЗЗ. Данная стратегия обучения улучшает способность рассуждения при анализе изображений дистанционного зондирования, стабилизирует процесс оптимизации и повышает робастность. Обширные эксперименты на нескольких контрольных наборах ЗЗ демонстрируют последовательное улучшение производительности по сравнению с современными универсальными и специализированными моделями видения-языка.
Модели видения-языка дистанционного зондирования (RS-VLM) показывают отличные результаты на высокоразрешающих изображениях наблюдения Земли, но страдают от проблем поверхностного рассуждения:
Недостаточные способности рассуждения: Существующие модели сильно зависят от текстовых приоров и контролируемой тонкой настройки (SFT), лишены цепочки мышления, что приводит к плохой обобщаемости
Недостаточная специфичность задачи: Ранние попытки RL, такие как UAV-VL-R1, ограничены задачами визуального вопросо-ответа и показывают плохие результаты на более широком спектре задач ЗЗ (обнаружение, описание, локализация)
Ослабленные сигналы вознаграждения: Существующие методы RL в области ЗЗ получают слабые и не зависящие от задачи сигналы вознаграждения, подвержены проблеме обмана вознаграждением и не могут захватить структурированное многошаговое рассуждение, необходимое для сложных сцен ЗЗ
Задачи наблюдения Земли обладают уникальной сложностью и разнообразием, охватывая классификацию, обнаружение, описание, обнаружение изменений, оценку ущерба от стихийных бедствий и другие аспекты, требующие мощных систем VLM, способных к структурированному рассуждению для обработки многосенсорных входов и сложных пространственно-временных отношений.
Ограничения контролируемого обучения: Традиционные цели SFT и контрастного обучения ограничивают робастность и способность рассуждения модели
Неприменимость универсальных методов RL: Традиционные методы RL, такие как PPO, страдают от высокой дисперсии и нестабильных обновлений политики при сложных задачах структурированного рассуждения
Неправильное проектирование вознаграждения: Отсутствие специализированных механизмов вознаграждения, учитывающих особенности задач ЗЗ
Предложена структура GeoVLM-R1: Разработана специализированная структура постобучения RL для способности рассуждения при разнообразных задачах ЗЗ
Инновационный двойной механизм вознаграждения: Введены двойные вознаграждения за соответствие формату и соответствие точности в рамках GRPO, улучшающие стабильное обучение RL и создающие точные, структурированные, интерпретируемые пути рассуждения
Проектирование вознаграждения, осознающего задачу: Разработаны специализированные функции вознаграждения для различных задач ЗЗ, включая вознаграждение за полноту, вознаграждение за обнаружение, вознаграждение SBERT и т.д.
Обширная экспериментальная верификация: Демонстрация превосходной производительности по сравнению с существующими VLM на 28 контрольных наборах нижестоящих задач
Для многомодального образца ЗЗ Qi={i,qi}, содержащего спутниковое изображение i и соответствующий текстовый запрос qi, целью является генерирование структурированного вывода, содержащего этапы рассуждения и окончательный ответ:
На задачах нулевого обучения и многоклассовой классификации GeoVLM-R1 достигает улучшения на 7.88% по сравнению с EarthDial на BigEarthNet, а также демонстрирует абсолютное преимущество 2.56% и 6.9% на временных наборах данных xBD и FMoW соответственно.
При обнаружении объектов по ссылкам GeoVLM-R1 достигает значительного улучшения на 21.63% по сравнению с EarthDial при обнаружении множественных объектов. На наборе данных NWPU VHR-10 наблюдается значительное улучшение обнаружения объектов всех размеров.
При описании регионов модель полностью превосходит базовые методы по метрикам Rouge. При локализации описания достигаются показатели @0.5 и @0.25 на уровне 38.74% и 61.45% соответственно.
На наборе данных xBD обнаружение объектов mAP@0.5 достигает абсолютного улучшения на 30.55%, демонстрируя преимущества при сложном анализе временных рядов.
Использование горизонтальных ограничивающих рамок (HBB) при обучении RL более стабильно, чем повёрнутые (RBB), избегая накопления ошибок предсказания угла.
Технологии выравнивания: DPO и PPO широко применяются при выравнивании VLM
Усиление рассуждения: GRPO демонстрирует отличные способности структурированного рассуждения в DeepSeek-R1
Ограничения в области: Существующие модели рассуждения в основном сосредоточены на математике, программировании и других областях, игнорируя потенциал задач дистанционного зондирования
В статье цитируется 82 соответствующих источника, охватывающих несколько областей, включая VLM дистанционного зондирования, усиленное обучение, модели видения-языка и другие, обеспечивающие прочную теоретическую основу для исследования.
Общая оценка: Это высококачественная статья в области компьютерного зрения, которая вносит значительный вклад в важную область применения — понимание изображений дистанционного зондирования. Методология инновационна, эксперименты полны, результаты убедительны и предоставляют ценный технический путь для продвижения развития технологии ИИ дистанционного зондирования.