2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.
Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
academic

GeoVLM-R1: Усиленная тонкая настройка для улучшенного рассуждения при дистанционном зондировании

Основная информация

  • ID статьи: 2509.25026
  • Название: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
  • Авторы: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
  • Учреждения: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
  • Категория: cs.CV (Компьютерное зрение)
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2509.25026

Аннотация

Недавние достижения в области усиленного обучения продемонстрировали значительный прогресс в способностях рассуждения на естественных изображениях, однако его потенциал в области наблюдения Земли (ЗЗ) остаётся недостаточно изученным. Задачи ЗЗ представляют уникальные вызовы, охватывающие обнаружение объектов по ссылкам, описание изображений/регионов, обнаружение изменений, локализацию и временной анализ, требующие способности к осознанному рассуждению. В данной работе предложена новая структура постобучения, объединяющая механизм вознаграждения, осознающий задачу, позволяющий моделям усиленного обучения на основе рассуждений эффективно адаптироваться к разнообразным задачам ЗЗ. Данная стратегия обучения улучшает способность рассуждения при анализе изображений дистанционного зондирования, стабилизирует процесс оптимизации и повышает робастность. Обширные эксперименты на нескольких контрольных наборах ЗЗ демонстрируют последовательное улучшение производительности по сравнению с современными универсальными и специализированными моделями видения-языка.

Исследовательский контекст и мотивация

Определение проблемы

Модели видения-языка дистанционного зондирования (RS-VLM) показывают отличные результаты на высокоразрешающих изображениях наблюдения Земли, но страдают от проблем поверхностного рассуждения:

  1. Недостаточные способности рассуждения: Существующие модели сильно зависят от текстовых приоров и контролируемой тонкой настройки (SFT), лишены цепочки мышления, что приводит к плохой обобщаемости
  2. Недостаточная специфичность задачи: Ранние попытки RL, такие как UAV-VL-R1, ограничены задачами визуального вопросо-ответа и показывают плохие результаты на более широком спектре задач ЗЗ (обнаружение, описание, локализация)
  3. Ослабленные сигналы вознаграждения: Существующие методы RL в области ЗЗ получают слабые и не зависящие от задачи сигналы вознаграждения, подвержены проблеме обмана вознаграждением и не могут захватить структурированное многошаговое рассуждение, необходимое для сложных сцен ЗЗ

Значимость исследования

Задачи наблюдения Земли обладают уникальной сложностью и разнообразием, охватывая классификацию, обнаружение, описание, обнаружение изменений, оценку ущерба от стихийных бедствий и другие аспекты, требующие мощных систем VLM, способных к структурированному рассуждению для обработки многосенсорных входов и сложных пространственно-временных отношений.

Ограничения существующих методов

  • Ограничения контролируемого обучения: Традиционные цели SFT и контрастного обучения ограничивают робастность и способность рассуждения модели
  • Неприменимость универсальных методов RL: Традиционные методы RL, такие как PPO, страдают от высокой дисперсии и нестабильных обновлений политики при сложных задачах структурированного рассуждения
  • Неправильное проектирование вознаграждения: Отсутствие специализированных механизмов вознаграждения, учитывающих особенности задач ЗЗ

Основные вклады

  1. Предложена структура GeoVLM-R1: Разработана специализированная структура постобучения RL для способности рассуждения при разнообразных задачах ЗЗ
  2. Инновационный двойной механизм вознаграждения: Введены двойные вознаграждения за соответствие формату и соответствие точности в рамках GRPO, улучшающие стабильное обучение RL и создающие точные, структурированные, интерпретируемые пути рассуждения
  3. Проектирование вознаграждения, осознающего задачу: Разработаны специализированные функции вознаграждения для различных задач ЗЗ, включая вознаграждение за полноту, вознаграждение за обнаружение, вознаграждение SBERT и т.д.
  4. Обширная экспериментальная верификация: Демонстрация превосходной производительности по сравнению с существующими VLM на 28 контрольных наборах нижестоящих задач

Подробное описание методологии

Определение задачи

Для многомодального образца ЗЗ Qi={i,qi}Q_i = \{i, q_i\}, содержащего спутниковое изображение ii и соответствующий текстовый запрос qiq_i, целью является генерирование структурированного вывода, содержащего этапы рассуждения и окончательный ответ:

<think>процесс рассуждения</think>
<answer>окончательный ответ</answer>

Архитектура модели

1. Двухэтапная парадигма обучения

Этап первый: контролируемая тонкая настройка (SFT)

  • Целевая функция: LSFT(πθ)=E(i,qi,yi)D[t=1Tlogπθ(yi,ti,qi,yi,<t)]L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]
  • Назначение: предоставить модели основные знания ЗЗ и базовые способности рассуждения

Этап второй: усиленное обучение на основе GRPO

  • Применение оптимизации политики относительно группы (GRPO) вместо традиционного PPO
  • Использование относительного преимущества между кандидатами ответов для снижения дисперсии обучения и улучшения структурированного рассуждения

2. Механизм оптимизации GRPO

Для многомодального образца QiQ_i GRPO генерирует K кандидатов ответов SQi={s1,s2,...,sK}S_{Q_i} = \{s_1, s_2, ..., s_K\}, целевая функция оптимизации:

JGRPO(θ)=E{si}i=1Kπθold(Qi)[1Ki=1Kmin[ρiAi,clip(ρi,1ϵ,1+ϵ)Ai]]βDKL[πθπref]J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]

где относительное преимущество рассчитывается как: Ai=rirˉσrA_i = \frac{r_i - \bar{r}}{\sigma_r}

Технические инновации

1. Проектирование вознаграждения, осознающего задачу

Общая функция вознаграждения: R(a)=Rformat+Rtask_accR(a) = R_{format} + R_{task\_acc}

Вознаграждение за формат (RformatR_{format}):

  • Вознаграждение Think: обеспечение наличия тегов <think>...</think>
  • Вознаграждение Answer: обеспечение наличия тегов <answer>...</answer>

Вознаграждение за точность, осознающее задачу (Rtask_accR_{task\_acc}):

  • Вознаграждение за полноту (задачи классификации): RRecall=TPTP+FNR_{Recall} = \frac{TP}{TP+FN}
  • Вознаграждение за обнаружение (обнаружение объектов): RDetection=1Nn=1NmaxmIoU(sim,gin)R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)
  • Вознаграждение SBERT (описание регионов): RSBERT=max(0,cos(esi,egi))R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))
  • Вознаграждение локализации на основе лексических метрик (LMGR): RLMGR=RLM+RDetection2R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}
  • Гибридное вознаграждение SBERT и лексических метрик (HSLR): RHSLR=RSBERT+RLM2R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}

2. Стратегии стабилизации обучения

  • Использование горизонтальных ограничивающих рамок (HBB) вместо повёрнутых при обучении RL, снижение влияния ошибок предсказания угла на IoU
  • Нормализация относительного преимущества внутри группы для снижения дисперсии вознаграждения
  • Ограничение расхождения KL для предотвращения чрезмерного отклонения политики

Экспериментальная установка

Наборы данных

Использование нескольких наборов данных ЗЗ для обучения и оценки:

Набор данныхТип временных рядовТип задачиКоличество пар Q&AФункция вознаграждения
BigEarthNetОдновременныйКлассификация30,000Вознаграждение за полноту
RSCISОдновременныйОписание изображения43,670Сходство Левенштейна
RSVQA-LRBENОдновременныйВизуальный вопросо-ответ57,223Сходство Жаккара
GeoChat-InstructОдновременныйМногозадачность69,269-73,000Множественные вознаграждения
xBDДвухвременныйОбнаружение стихийных бедствий2,283-4,202Вознаграждение за обнаружение

Метрики оценки

  • Задачи классификации: точность, полнота
  • Задачи обнаружения: mAP@0.5, mAP@0.25
  • Задачи описания: Rouge-1, Rouge-L, Meteor
  • Задачи вопросо-ответа: сходство Жаккара

Детали реализации

  • Базовая модель: Qwen2.5VL-3B-Instruct
  • Размер изображения: 448×448
  • Параметры SFT: 8×A100 GPU, 2 эпохи, скорость обучения 1e-5
  • Параметры GRPO: 4×A100 GPU, 2 эпохи, скорость обучения 1e-6, температура 0.9, коэффициент KL 0.04

Результаты экспериментов

Основные результаты

1. Задачи классификации сцен

На задачах нулевого обучения и многоклассовой классификации GeoVLM-R1 достигает улучшения на 7.88% по сравнению с EarthDial на BigEarthNet, а также демонстрирует абсолютное преимущество 2.56% и 6.9% на временных наборах данных xBD и FMoW соответственно.

2. Задачи обнаружения и локализации объектов

При обнаружении объектов по ссылкам GeoVLM-R1 достигает значительного улучшения на 21.63% по сравнению с EarthDial при обнаружении множественных объектов. На наборе данных NWPU VHR-10 наблюдается значительное улучшение обнаружения объектов всех размеров.

3. Задачи описания и локализации

При описании регионов модель полностью превосходит базовые методы по метрикам Rouge. При локализации описания достигаются показатели @0.5 и @0.25 на уровне 38.74% и 61.45% соответственно.

4. Оценка временных стихийных бедствий

На наборе данных xBD обнаружение объектов mAP@0.5 достигает абсолютного улучшения на 30.55%, демонстрируя преимущества при сложном анализе временных рядов.

Абляционные исследования

1. Эффективность функций вознаграждения

  • Задачи классификации: вознаграждение за полноту наиболее эффективно, достигая 80.91% на BigEarthNet
  • Описание изображений: вознаграждение на основе коэффициента Левенштейна показывает лучшие результаты
  • Обнаружение изменений: гибридное вознаграждение SBERT и лексических метрик (HSLR) показывает лучшие результаты

2. Влияние представления ограничивающей рамки

Использование горизонтальных ограничивающих рамок (HBB) при обучении RL более стабильно, чем повёрнутые (RBB), избегая накопления ошибок предсказания угла.

3. GRPO в сравнении с базовыми методами

По сравнению с GeoVLM-SFT, использующей только SFT, добавление оптимизации GRPO демонстрирует значительное улучшение на всех задачах.

Анализ примеров

В статье представлены примеры процессов рассуждения, генерируемых моделью, демонстрирующие, что GeoVLM-R1 способна:

  1. Генерировать структурированные процессы мышления
  2. Обеспечивать точную пространственную локализацию
  3. Проводить многошаговое логическое рассуждение
  4. Обрабатывать сложный анализ временных изменений

Связанные работы

Развитие VLM дистанционного зондирования

  • Ранние работы: RS-GPT впервые представил парные наборы данных изображение-текст ЗЗ
  • Способности нулевого обучения: RemoteCLIP демонстрирует сильные способности нулевого обучения при классификации и поиске
  • Понимание на уровне регионов: GeoChat, SkyEyeGPT расширяют возможности до региональной визуальной локализации
  • Многомодальное слияние: EarthGPT, EarthDial интегрируют гетерогенные модальности ЗЗ

Технологии постобучения VLM

  • Технологии выравнивания: DPO и PPO широко применяются при выравнивании VLM
  • Усиление рассуждения: GRPO демонстрирует отличные способности структурированного рассуждения в DeepSeek-R1
  • Ограничения в области: Существующие модели рассуждения в основном сосредоточены на математике, программировании и других областях, игнорируя потенциал задач дистанционного зондирования

Выводы и обсуждение

Основные выводы

  1. Верификация эффективности: GeoVLM-R1 последовательно превосходит существующие методы на 28 контрольных наборах ЗЗ
  2. Улучшение способности рассуждения: Структурированное рассуждение значительно улучшает производительность при сложных задачах ЗЗ
  3. Стабильное обучение: GRPO в сочетании с вознаграждением, осознающим задачу, обеспечивает стабильное и эффективное обучение RL

Ограничения

  1. Вычислительные затраты: Обучение RL требует дополнительных вычислительных ресурсов и времени
  2. Сложность проектирования вознаграждения: Различные задачи требуют тщательного проектирования специализированных функций вознаграждения
  3. Зависимость от данных: Производительность в значительной степени зависит от высокого качества инструкционных данных ЗЗ

Направления будущих исследований

  1. Многомодальное расширение: Интеграция большего количества данных датчиков ЗЗ (SAR, гиперспектральные и т.д.)
  2. Обобщение нулевого обучения: Улучшение способности модели к обобщению на невиданные задачи
  3. Оптимизация эффективности: Разработка более эффективных стратегий обучения RL

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое применение обучения в стиле R1 в области дистанционного зондирования, заполнение важного пробела
  2. Полнота методологии: Полный технический путь от определения проблемы к решению
  3. Достаточность экспериментов: Комплексная оценка на нескольких наборах данных и задачах
  4. Высокая практическая ценность: Решение практической проблемы недостаточной способности рассуждения VLM дистанционного зондирования

Недостатки

  1. Зависимость от базовой модели: Эффективность метода в значительной степени зависит от качества базовой VLM
  2. Сложность инженерии вознаграждения: Требуется ручное проектирование функций вознаграждения для каждого типа задачи
  3. Вычислительные издержки: Обучение RL добавляет значительные вычислительные затраты по сравнению с прямой тонкой настройкой
  4. Недостаточный анализ обобщаемости: Отсутствие глубокого анализа способности к кросс-доменному обобщению

Влияние

  1. Академический вклад: Введение новой парадигмы обучения в область ИИ дистанционного зондирования
  2. Практическая ценность: Может быть непосредственно применена к сценариям практического применения дистанционного зондирования
  3. Техническое вдохновение: Предоставляет справочный материал для повышения способности рассуждения VLM в других специализированных областях

Применимые сценарии

  1. Анализ изображений дистанционного зондирования: Классификация спутниковых изображений, обнаружение объектов, обнаружение изменений
  2. Мониторинг стихийных бедствий: Оценка ущерба от стихийных бедствий, реагирование на чрезвычайные ситуации
  3. Городское планирование: Мониторинг изменений землепользования, планирование инфраструктуры
  4. Мониторинг окружающей среды: Отслеживание изменений экосистемы, исследование изменения климата

Библиография

В статье цитируется 82 соответствующих источника, охватывающих несколько областей, включая VLM дистанционного зондирования, усиленное обучение, модели видения-языка и другие, обеспечивающие прочную теоретическую основу для исследования.


Общая оценка: Это высококачественная статья в области компьютерного зрения, которая вносит значительный вклад в важную область применения — понимание изображений дистанционного зондирования. Методология инновационна, эксперименты полны, результаты убедительны и предоставляют ценный технический путь для продвижения развития технологии ИИ дистанционного зондирования.