Recent advances in reinforcement learning (RL) have delivered strong reasoning capabilities in natural image domains, yet their potential for Earth Observation (EO) remains largely unexplored. EO tasks introduce unique challenges, spanning referred object detection, image or region captioning, change detection, grounding, and temporal analysis, that demand task aware reasoning. We propose a novel post training framework that incorporates task aware rewards to enable effective adaptation of reasoning based RL models to diverse EO tasks. This training strategy enhances reasoning capabilities for remote sensing images, stabilizes optimization, and improves robustness. Extensive experiments across multiple EO benchmarks show consistent performance gains over state of the art generic and specialized vision language models. Code and models will be released publicly at https://mustansarfiaz.github.io/GeoVLM-R1/ .
논문 ID : 2509.25026제목 : GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning저자 : Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan기관 : IBM Research, INSAIT, ETH Zürich, MBZUAI, Linköping University, ANU Australia분류 : cs.CV (컴퓨터 비전)발표 시간 : 2025년 10월 14일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2509.25026 최근 강화 학습이 자연 이미지 영역의 추론 능력에서 상당한 진전을 이루었으나, 지구 관측(EO) 영역에서의 잠재력은 아직 충분히 탐색되지 않았습니다. EO 작업은 지시 대상 검출, 이미지/영역 설명, 변화 감지, 위치 파악 및 시계열 분석을 포함하는 고유한 과제를 제시하며, 작업 인식 추론 능력이 필요합니다. 본 논문은 작업 인식 보상 메커니즘을 결합한 새로운 사후 훈련 프레임워크를 제안하여, 추론 기반 강화 학습 모델이 다양한 EO 작업에 효과적으로 적응할 수 있도록 합니다. 이 훈련 전략은 원격 감지 이미지의 추론 능력을 향상시키고, 최적화 프로세스를 안정화하며, 견고성을 개선합니다. 여러 EO 벤치마크에 대한 광범위한 실험은 최첨단 범용 및 전문 시각 언어 모델과 비교하여 일관된 성능 향상을 보여줍니다.
원격 감지 시각 언어 모델(RS-VLMs)은 고해상도 지구 관측 이미지에서 우수한 성능을 보이지만 얕은 추론 문제가 존재합니다:
불충분한 추론 능력 : 기존 모델은 텍스트 사전 정보와 감독 미세조정(SFT)에 크게 의존하며, 사고의 연쇄 추론이 부족하여 일반화 능력이 낮습니다.작업 특이성 부족 : UAV-VL-R1과 같은 초기 RL 시도는 시각 질의응답 작업으로만 제한되며, 검출, 설명, 위치 파악 등 더 광범위한 EO 작업에서 성능이 좋지 않습니다.약화된 보상 신호 : 기존 EO 영역 RL 방법은 약하고 작업 무관한 보상 신호를 수신하여 보상 해킹 문제가 발생하기 쉽고, 복잡한 EO 장면에 필요한 구조화된 다단계 추론을 포착할 수 없습니다.지구 관측 작업은 분류, 검출, 설명, 변화 감지, 재해 평가 등 여러 차원을 포함하는 고유한 복잡성과 다양성을 가지며, 다중 센서 입력 및 복잡한 시공간 관계를 처리할 수 있는 구조화된 추론을 수행할 수 있는 강력한 VLM 시스템이 필요합니다.
감독 학습의 한계 : 전통적인 SFT 및 대조 학습 목표는 모델의 견고성과 추론 능력을 제한합니다.범용 RL 방법의 부적합성 : PPO 등 전통적인 RL 방법은 복잡한 구조화된 추론 작업에서 높은 분산 및 불안정한 정책 업데이트 문제가 있습니다.부적절한 보상 설계 : EO 작업의 특성에 맞는 전문화된 보상 메커니즘이 부족합니다.GeoVLM-R1 프레임워크 제안 : 다양한 EO 작업의 추론 능력을 위한 사후 훈련 RL 프레임워크 개발혁신적인 이중 목표 보상 메커니즘 : GRPO 프레임워크 내에서 형식 준수 및 정확성 준수의 이중 보상을 도입하여 안정적인 RL 학습을 강화하고 정확하고 구조화되며 해석 가능한 추론 경로 생성작업 인식 보상 설계 : 회상 보상, 검출 보상, SBERT 보상 등을 포함한 다양한 EO 작업을 위한 전문화된 보상 함수 설계광범위한 실험 검증 : 28개의 다운스트림 벤치마크에서 기존 VLM과 비교하여 우수한 성능 입증주어진 EO 멀티모달 샘플 Q i = { i , q i } Q_i = \{i, q_i\} Q i = { i , q i } 는 위성 이미지 i i i 와 대응하는 텍스트 프롬프트 q i q_i q i 를 포함하며, 목표는 추론 단계와 최종 답변을 포함하는 구조화된 출력을 생성하는 것입니다:
<think>추론 과정</think>
<answer>최종 답변</answer>
단계 1: 감독 미세조정(SFT)
목적 함수: L S F T ( π θ ) = − E ( i , q i , y i ) ∼ D [ ∑ t = 1 T log π θ ( y i , t ∣ i , q i , y i , < t ) ] L_{SFT}(\pi_\theta) = -E_{(i,q_i,y_i)\sim D}\left[\sum_{t=1}^T \log \pi_\theta(y_{i,t} | i, q_i, y_{i,<t})\right] L SFT ( π θ ) = − E ( i , q i , y i ) ∼ D [ ∑ t = 1 T log π θ ( y i , t ∣ i , q i , y i , < t ) ] 역할: 모델에 핵심 EO 지식 및 기초 추론 능력 제공 단계 2: GRPO 기반 강화 학습
전통적인 PPO 대신 군집 상대 정책 최적화(GRPO) 채택 후보 응답 간의 상대 이점을 활용하여 훈련 분산 감소 및 구조화된 추론 개선 멀티모달 샘플 Q i Q_i Q i 에 대해 GRPO는 K개의 후보 응답 S Q i = { s 1 , s 2 , . . . , s K } S_{Q_i} = \{s_1, s_2, ..., s_K\} S Q i = { s 1 , s 2 , ... , s K } 를 생성하며, 최적화 목표는:
J G R P O ( θ ) = E { s i } i = 1 K ∼ π θ o l d ( Q i ) [ 1 K ∑ i = 1 K min [ ρ i A i , clip ( ρ i , 1 − ϵ , 1 + ϵ ) A i ] ] − β D K L [ π θ ∥ π r e f ] J_{GRPO}(\theta) = E_{\{s_i\}_{i=1}^K \sim \pi_{\theta_{old}}(Q_i)}\left[\frac{1}{K}\sum_{i=1}^K \min[\rho_i A_i, \text{clip}(\rho_i, 1-\epsilon, 1+\epsilon)A_i]\right] - \beta D_{KL}[\pi_\theta \| \pi_{ref}] J GRPO ( θ ) = E { s i } i = 1 K ∼ π θ o l d ( Q i ) [ K 1 ∑ i = 1 K min [ ρ i A i , clip ( ρ i , 1 − ϵ , 1 + ϵ ) A i ] ] − β D K L [ π θ ∥ π re f ]
여기서 상대 이점 계산은: A i = r i − r ˉ σ r A_i = \frac{r_i - \bar{r}}{\sigma_r} A i = σ r r i − r ˉ
총 보상 함수: R ( a ) = R f o r m a t + R t a s k _ a c c R(a) = R_{format} + R_{task\_acc} R ( a ) = R f or ma t + R t a s k _ a cc
형식 보상 (R f o r m a t R_{format} R f or ma t ) :
Think 보상: <think>...</think> 태그 포함 보장 Answer 보상: <answer>...</answer> 태그 포함 보장 작업 인식 정확성 보상 (R t a s k _ a c c R_{task\_acc} R t a s k _ a cc ) :
회상 보상 (분류 작업): R R e c a l l = T P T P + F N R_{Recall} = \frac{TP}{TP+FN} R R ec a ll = TP + FN TP 검출 보상 (목표 검출): R D e t e c t i o n = 1 N ∑ n = 1 N max m I o U ( s i m , g i n ) R_{Detection} = \frac{1}{N}\sum_{n=1}^N \max_m IoU(s_i^m, g_i^n) R De t ec t i o n = N 1 ∑ n = 1 N max m I o U ( s i m , g i n ) SBERT 보상 (영역 설명): R S B E R T = max ( 0 , cos ( e s i , e g i ) ) R_{SBERT} = \max(0, \cos(e_{s_i}, e_{g_i})) R SBERT = max ( 0 , cos ( e s i , e g i )) 어휘 메트릭 기반 위치 파악 보상 (LMGR): R L M G R = R L M + R D e t e c t i o n 2 R_{LMGR} = \frac{R_{LM} + R_{Detection}}{2} R L MGR = 2 R L M + R De t ec t i o n 혼합 SBERT 및 어휘 메트릭 보상 (HSLR): R H S L R = R S B E R T + R L M 2 R_{HSLR} = \frac{R_{SBERT} + R_{LM}}{2} R H S L R = 2 R SBERT + R L M 회전 경계 상자 대신 수평 경계 상자(HBB) 사용으로 각도 예측 오류의 IoU 영향 감소 군집 내 상대 이점 정규화로 보상 분산 감소 KL 발산 제약으로 정책 편차 방지 여러 EO 데이터셋을 훈련 및 평가에 사용:
데이터셋 시계열 유형 작업 유형 QA 쌍 수량 보상 함수 BigEarthNet 단일 시점 분류 30,000 회상 보상 RSCIS 단일 시점 이미지 설명 43,670 Levenshtein 유사도 RSVQA-LRBEN 단일 시점 시각 질의응답 57,223 Jaccard 유사도 GeoChat-Instruct 단일 시점 다중 작업 69,269-73,000 다양한 보상 xBD 이중 시점 재해 검출 2,283-4,202 검출 보상
분류 작업 : 정확도, 회상율검출 작업 : mAP@0.5, mAP@0.25설명 작업 : Rouge-1, Rouge-L, Meteor질의응답 작업 : Jaccard 유사도기본 모델 : Qwen2.5VL-3B-Instruct이미지 크기 : 448×448SFT 설정 : 8×A100 GPU, 2 에포크, 학습률 1e-5GRPO 설정 : 4×A100 GPU, 2 에포크, 학습률 1e-6, 온도 0.9, KL 비율 0.04영점 샷 및 다중 레이블 분류 작업에서 GeoVLM-R1은 BigEarthNet에서 EarthDial과 비교하여 7.88% 향상을 달성했으며, 시계열 데이터셋 xBD 및 FMoW에서 각각 2.56% 및 6.9%의 절대 이점을 달성했습니다.
지시 대상 검출 작업에서 GeoVLM-R1은 다중 목표 검출에서 EarthDial과 비교하여 21.63%의 현저한 향상을 달성했습니다. NWPU VHR-10 데이터셋에서 모든 크기의 목표 검출이 크게 개선되었습니다.
영역 설명 작업에서 Rouge 지표가 기준 방법을 전면적으로 초과했습니다. 위치 파악 설명 작업에서 @0.5 및 @0.25 지표가 각각 38.74% 및 61.45%에 도달했습니다.
xBD 데이터셋에서 목표 검출 mAP@0.5이 30.55%의 절대 향상을 달성하여 복잡한 시계열 분석 작업에서의 이점을 보여줍니다.
분류 작업: 회상 보상이 가장 효과적이며 BigEarthNet에서 80.91% 달성 이미지 설명: Levenshtein 비율 보상이 최고 성능 발휘 변화 감지: 혼합 SBERT 및 어휘 메트릭 보상(HSLR)이 최고 효과 RL 훈련에서 수평 경계 상자(HBB) 사용이 회전 경계 상자(RBB)보다 더 안정적이며, 각도 예측 오류의 누적을 방지합니다.
SFT만 사용하는 GeoVLM-SFT와 비교하여 GRPO 최적화를 추가한 후 모든 작업에서 현저한 향상을 달성했습니다.
논문은 모델이 생성한 추론 과정의 예시를 제시하여 GeoVLM-R1이 다음을 수행할 수 있음을 보여줍니다:
구조화된 사고 과정 생성 정확한 공간 위치 파악 제공 다단계 논리 추론 수행 복잡한 시계열 변화 분석 처리 초기 연구 : RS-GPT가 처음으로 EO 이미지-텍스트 쌍 데이터셋 도입영점 샷 능력 : RemoteCLIP이 분류 및 검색 작업에서 강력한 영점 샷 성능 시연영역 수준 이해 : GeoChat, SkyEyeGPT 등이 영역 수준 시각 위치 파악으로 확장다중모달 융합 : EarthGPT, EarthDial이 이질적 EO 모달리티 통합정렬 기술 : DPO 및 PPO가 VLM 정렬에 광범위하게 적용추론 강화 : GRPO가 DeepSeek-R1에서 우수한 구조화된 추론 능력 시연영역 한계 : 기존 추론 모델은 주로 수학, 프로그래밍 등 영역에 초점을 맞추며 원격 감지 작업의 잠재력을 간과효과성 검증 : GeoVLM-R1이 28개의 EO 벤치마크에서 일관되게 기존 방법을 초과추론 능력 향상 : 구조화된 추론을 통해 복잡한 EO 작업의 성능을 현저히 개선안정적 훈련 : GRPO와 작업 인식 보상이 안정적이고 효과적인 RL 훈련 실현계산 비용 : RL 훈련은 추가 계산 리소스 및 시간 필요보상 설계 복잡성 : 다양한 작업은 전문화된 보상 함수의 신중한 설계 필요데이터 의존성 : 성능은 고품질 EO 지시 데이터에 크게 의존다중모달 확장 : 더 많은 EO 센서 데이터(SAR, 초분광 등) 통합영점 샷 일반화 : 미확인 작업에서 모델의 일반화 능력 향상효율성 최적화 : 더 효율적인 RL 훈련 전략 개발높은 혁신성 : R1 스타일의 추론 훈련을 원격 감지 영역에 처음 적용하여 중요한 공백 메우기완전한 방법 : 문제 정의에서 해결책까지의 완전한 기술 경로충분한 실험 : 여러 데이터셋 및 작업에 대한 포괄적 평가높은 실용 가치 : 원격 감지 VLM의 추론 능력 부족 문제 해결기본 모델 의존성 : 방법 효과는 기본 VLM의 품질에 크게 의존보상 엔지니어링 복잡성 : 각 작업 유형에 대해 보상 함수를 수동으로 설계 필요계산 오버헤드 : 직접 미세조정과 비교하여 RL 훈련이 상당한 계산 비용 증가일반화 분석 부족 : 도메인 간 일반화 능력에 대한 심층 분석 부족학술 기여 : 원격 감지 AI 영역에 새로운 훈련 패러다임 도입실용 가치 : 실제 원격 감지 응용 장면에 직접 적용 가능기술 영감 : 다른 전문 영역 VLM의 추론 능력 향상에 참고 제공원격 감지 이미지 분석 : 위성 이미지 분류, 목표 검출, 변화 감지재해 모니터링 : 자연 재해 손실 평가, 긴급 대응도시 계획 : 토지 이용 변화 모니터링, 기반시설 계획환경 모니터링 : 생태계 변화 추적, 기후 변화 연구논문은 원격 감지 VLM, 강화 학습, 시각 언어 모델 등 여러 영역의 중요한 연구를 포함하는 82개의 관련 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.
종합 평가 : 이는 컴퓨터 비전 영역의 고품질 논문으로, 원격 감지 이미지 이해라는 중요한 응용 영역에서 현저한 기여를 했습니다. 방법이 혁신적이고, 실험이 충분하며, 결과가 설득력 있어 원격 감지 AI 기술 발전을 추진하기 위한 가치 있는 기술 경로를 제공합니다.