2025-11-24T14:16:17.279785

GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning

Fiaz, Debary, Fraccaro et al.

Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .

academic

GeoVLM-R1: Усиленная тонкая настройка для улучшенного рассуждения при дистанционном зондировании

Основная информация

ID статьи: 2509.25026
Название: GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
Авторы: Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
Учреждения: IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2509.25026

Аннотация

Недавние достижения в области усиленного обучения продемонстрировали значительный прогресс в способностях рассуждения на естественных изображениях, однако его потенциал в области наблюдения Земли (ЗЗ) остаётся недостаточно изученным. Задачи ЗЗ представляют уникальные вызовы, охватывающие обнаружение объектов по ссылкам, описание изображений/регионов, обнаружение изменений, локализацию и временной анализ, требующие способности к осознанному рассуждению. В данной работе предложена новая структура постобучения, объединяющая механизм вознаграждения, осознающий задачу, позволяющий моделям усиленного обучения на основе рассуждений эффективно адаптироваться к разнообразным задачам ЗЗ. Данная стратегия обучения улучшает способность рассуждения при анализе изображений дистанционного зондирования, стабилизирует процесс оптимизации и повышает робастность. Обширные эксперименты на нескольких контрольных наборах ЗЗ демонстрируют последовательное улучшение производительности по сравнению с современными универсальными и специализированными моделями видения-языка.

Исследовательский контекст и мотивация

Определение проблемы

Модели видения-языка дистанционного зондирования (RS-VLM) показывают отличные результаты на высокоразрешающих изображениях наблюдения Земли, но страдают от проблем поверхностного рассуждения:

Недостаточные способности рассуждения: Существующие модели сильно зависят от текстовых приоров и контролируемой тонкой настройки (SFT), лишены цепочки мышления, что приводит к плохой обобщаемости
Недостаточная специфичность задачи: Ранние попытки RL, такие как UAV-VL-R1, ограничены задачами визуального вопросо-ответа и показывают плохие результаты на более широком спектре задач ЗЗ (обнаружение, описание, локализация)
Ослабленные сигналы вознаграждения: Существующие методы RL в области ЗЗ получают слабые и не зависящие от задачи сигналы вознаграждения, подвержены проблеме обмана вознаграждением и не могут захватить структурированное многошаговое рассуждение, необходимое для сложных сцен ЗЗ

Значимость исследования

Задачи наблюдения Земли обладают уникальной сложностью и разнообразием, охватывая классификацию, обнаружение, описание, обнаружение изменений, оценку ущерба от стихийных бедствий и другие аспекты, требующие мощных систем VLM, способных к структурированному рассуждению для обработки многосенсорных входов и сложных пространственно-временных отношений.

Ограничения существующих методов

Ограничения контролируемого обучения: Традиционные цели SFT и контрастного обучения ограничивают робастность и способность рассуждения модели
Неприменимость универсальных методов RL: Традиционные методы RL, такие как PPO, страдают от высокой дисперсии и нестабильных обновлений политики при сложных задачах структурированного рассуждения
Неправильное проектирование вознаграждения: Отсутствие специализированных механизмов вознаграждения, учитывающих особенности задач ЗЗ

Основные вклады

Предложена структура GeoVLM-R1: Разработана специализированная структура постобучения RL для способности рассуждения при разнообразных задачах ЗЗ
Инновационный двойной механизм вознаграждения: Введены двойные вознаграждения за соответствие формату и соответствие точности в рамках GRPO, улучшающие стабильное обучение RL и создающие точные, структурированные, интерпретируемые пути рассуждения
Проектирование вознаграждения, осознающего задачу: Разработаны специализированные функции вознаграждения для различных задач ЗЗ, включая вознаграждение за полноту, вознаграждение за обнаружение, вознаграждение SBERT и т.д.
Обширная экспериментальная верификация: Демонстрация превосходной производительности по сравнению с существующими VLM на 28 контрольных наборах нижестоящих задач

Подробное описание методологии

Определение задачи

Для многомодального образца ЗЗ $Q_i = \{i, q_i\}$ , содержащего спутниковое изображение $i$ и соответствующий текстовый запрос $q_i$ , целью является генерирование структурированного вывода, содержащего этапы рассуждения и окончательный ответ:

<think>процесс рассуждения</think>
<answer>окончательный ответ</answer>

Архитектура модели

1. Двухэтапная парадигма обучения

Этап первый: контролируемая тонкая настройка (SFT)

Целевая функция: $L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right]$
Назначение: предоставить модели основные знания ЗЗ и базовые способности рассуждения

Этап второй: усиленное обучение на основе GRPO

Применение оптимизации политики относительно группы (GRPO) вместо традиционного PPO
Использование относительного преимущества между кандидатами ответов для снижения дисперсии обучения и улучшения структурированного рассуждения

2. Механизм оптимизации GRPO

Для многомодального образца $Q_i$ GRPO генерирует K кандидатов ответов $S_{Q_i} = \{s_1, s_2, ..., s_K\}$ , целевая функция оптимизации:

$J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}]$

где относительное преимущество рассчитывается как: $A_i = \frac{r_i - \bar{r}}{\sigma_r}$

Технические инновации

1. Проектирование вознаграждения, осознающего задачу

Общая функция вознаграждения: $R(a) = R_{format} + R_{task\_acc}$

Вознаграждение за формат ( $R_{format}$ ):

Вознаграждение Think: обеспечение наличия тегов <think>...</think>
Вознаграждение Answer: обеспечение наличия тегов <answer>...</answer>

Вознаграждение за точность, осознающее задачу ( $R_{task\_acc}$ ):

Вознаграждение за полноту (задачи классификации): $R_{Recall} = \frac{TP}{TP+FN}$
Вознаграждение за обнаружение (обнаружение объектов): $R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n)$
Вознаграждение SBERT (описание регионов): $R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i}))$
Вознаграждение локализации на основе лексических метрик (LMGR): $R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2}$
Гибридное вознаграждение SBERT и лексических метрик (HSLR): $R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2}$

2. Стратегии стабилизации обучения

Использование горизонтальных ограничивающих рамок (HBB) вместо повёрнутых при обучении RL, снижение влияния ошибок предсказания угла на IoU
Нормализация относительного преимущества внутри группы для снижения дисперсии вознаграждения
Ограничение расхождения KL для предотвращения чрезмерного отклонения политики

Экспериментальная установка

Наборы данных

Использование нескольких наборов данных ЗЗ для обучения и оценки:

Набор данных	Тип временных рядов	Тип задачи	Количество пар Q&A	Функция вознаграждения
BigEarthNet	Одновременный	Классификация	30,000	Вознаграждение за полноту
RSCIS	Одновременный	Описание изображения	43,670	Сходство Левенштейна
RSVQA-LRBEN	Одновременный	Визуальный вопросо-ответ	57,223	Сходство Жаккара
GeoChat-Instruct	Одновременный	Многозадачность	69,269-73,000	Множественные вознаграждения
xBD	Двухвременный	Обнаружение стихийных бедствий	2,283-4,202	Вознаграждение за обнаружение

Метрики оценки

Задачи классификации: точность, полнота
Задачи обнаружения: mAP@0.5, mAP@0.25
Задачи описания: Rouge-1, Rouge-L, Meteor
Задачи вопросо-ответа: сходство Жаккара

Детали реализации

Базовая модель: Qwen2.5VL-3B-Instruct
Размер изображения: 448×448
Параметры SFT: 8×A100 GPU, 2 эпохи, скорость обучения 1e-5
Параметры GRPO: 4×A100 GPU, 2 эпохи, скорость обучения 1e-6, температура 0.9, коэффициент KL 0.04

Результаты экспериментов

Основные результаты

1. Задачи классификации сцен

На задачах нулевого обучения и многоклассовой классификации GeoVLM-R1 достигает улучшения на 7.88% по сравнению с EarthDial на BigEarthNet, а также демонстрирует абсолютное преимущество 2.56% и 6.9% на временных наборах данных xBD и FMoW соответственно.

2. Задачи обнаружения и локализации объектов

При обнаружении объектов по ссылкам GeoVLM-R1 достигает значительного улучшения на 21.63% по сравнению с EarthDial при обнаружении множественных объектов. На наборе данных NWPU VHR-10 наблюдается значительное улучшение обнаружения объектов всех размеров.

3. Задачи описания и локализации

При описании регионов модель полностью превосходит базовые методы по метрикам Rouge. При локализации описания достигаются показатели @0.5 и @0.25 на уровне 38.74% и 61.45% соответственно.

4. Оценка временных стихийных бедствий

На наборе данных xBD обнаружение объектов mAP@0.5 достигает абсолютного улучшения на 30.55%, демонстрируя преимущества при сложном анализе временных рядов.

Абляционные исследования

1. Эффективность функций вознаграждения

Задачи классификации: вознаграждение за полноту наиболее эффективно, достигая 80.91% на BigEarthNet
Описание изображений: вознаграждение на основе коэффициента Левенштейна показывает лучшие результаты
Обнаружение изменений: гибридное вознаграждение SBERT и лексических метрик (HSLR) показывает лучшие результаты

2. Влияние представления ограничивающей рамки

Использование горизонтальных ограничивающих рамок (HBB) при обучении RL более стабильно, чем повёрнутые (RBB), избегая накопления ошибок предсказания угла.

3. GRPO в сравнении с базовыми методами

По сравнению с GeoVLM-SFT, использующей только SFT, добавление оптимизации GRPO демонстрирует значительное улучшение на всех задачах.

Анализ примеров

В статье представлены примеры процессов рассуждения, генерируемых моделью, демонстрирующие, что GeoVLM-R1 способна:

Генерировать структурированные процессы мышления
Обеспечивать точную пространственную локализацию
Проводить многошаговое логическое рассуждение
Обрабатывать сложный анализ временных изменений

Связанные работы

Развитие VLM дистанционного зондирования

Ранние работы: RS-GPT впервые представил парные наборы данных изображение-текст ЗЗ
Способности нулевого обучения: RemoteCLIP демонстрирует сильные способности нулевого обучения при классификации и поиске
Понимание на уровне регионов: GeoChat, SkyEyeGPT расширяют возможности до региональной визуальной локализации
Многомодальное слияние: EarthGPT, EarthDial интегрируют гетерогенные модальности ЗЗ

Технологии постобучения VLM

Технологии выравнивания: DPO и PPO широко применяются при выравнивании VLM
Усиление рассуждения: GRPO демонстрирует отличные способности структурированного рассуждения в DeepSeek-R1
Ограничения в области: Существующие модели рассуждения в основном сосредоточены на математике, программировании и других областях, игнорируя потенциал задач дистанционного зондирования

Выводы и обсуждение

Основные выводы

Верификация эффективности: GeoVLM-R1 последовательно превосходит существующие методы на 28 контрольных наборах ЗЗ
Улучшение способности рассуждения: Структурированное рассуждение значительно улучшает производительность при сложных задачах ЗЗ
Стабильное обучение: GRPO в сочетании с вознаграждением, осознающим задачу, обеспечивает стабильное и эффективное обучение RL

Ограничения

Вычислительные затраты: Обучение RL требует дополнительных вычислительных ресурсов и времени
Сложность проектирования вознаграждения: Различные задачи требуют тщательного проектирования специализированных функций вознаграждения
Зависимость от данных: Производительность в значительной степени зависит от высокого качества инструкционных данных ЗЗ

Направления будущих исследований

Многомодальное расширение: Интеграция большего количества данных датчиков ЗЗ (SAR, гиперспектральные и т.д.)
Обобщение нулевого обучения: Улучшение способности модели к обобщению на невиданные задачи
Оптимизация эффективности: Разработка более эффективных стратегий обучения RL

Глубокая оценка

Преимущества

Высокая инновационность: Первое применение обучения в стиле R1 в области дистанционного зондирования, заполнение важного пробела
Полнота методологии: Полный технический путь от определения проблемы к решению
Достаточность экспериментов: Комплексная оценка на нескольких наборах данных и задачах
Высокая практическая ценность: Решение практической проблемы недостаточной способности рассуждения VLM дистанционного зондирования

Недостатки

Зависимость от базовой модели: Эффективность метода в значительной степени зависит от качества базовой VLM
Сложность инженерии вознаграждения: Требуется ручное проектирование функций вознаграждения для каждого типа задачи
Вычислительные издержки: Обучение RL добавляет значительные вычислительные затраты по сравнению с прямой тонкой настройкой
Недостаточный анализ обобщаемости: Отсутствие глубокого анализа способности к кросс-доменному обобщению

Влияние

Академический вклад: Введение новой парадигмы обучения в область ИИ дистанционного зондирования
Практическая ценность: Может быть непосредственно применена к сценариям практического применения дистанционного зондирования
Техническое вдохновение: Предоставляет справочный материал для повышения способности рассуждения VLM в других специализированных областях

Применимые сценарии

Анализ изображений дистанционного зондирования: Классификация спутниковых изображений, обнаружение объектов, обнаружение изменений
Мониторинг стихийных бедствий: Оценка ущерба от стихийных бедствий, реагирование на чрезвычайные ситуации
Городское планирование: Мониторинг изменений землепользования, планирование инфраструктуры
Мониторинг окружающей среды: Отслеживание изменений экосистемы, исследование изменения климата

Библиография

В статье цитируется 82 соответствующих источника, охватывающих несколько областей, включая VLM дистанционного зондирования, усиленное обучение, модели видения-языка и другие, обеспечивающие прочную теоретическую основу для исследования.

Общая оценка: Это высококачественная статья в области компьютерного зрения, которая вносит значительный вклад в важную область применения — понимание изображений дистанционного зондирования. Методология инновационна, эксперименты полны, результаты убедительны и предоставляют ценный технический путь для продвижения развития технологии ИИ дистанционного зондирования.