2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.
End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
academic

VR-Drive: 피드포워드 3D 가우시안 스플래팅을 이용한 시점 강건 엔드-투-엔드 주행

기본 정보

  • 논문 ID: 2510.23205
  • 제목: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
  • 저자: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
  • 분류: cs.CV
  • 발표 시간/학회: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
  • 논문 링크: https://arxiv.org/abs/2510.23205

초록

엔드-투-엔드 자동주행(E2E-AD)은 인식, 예측 및 계획을 통합된 데이터 기반 프레임워크로 통합하는 유망한 패러다임이 되었다. 그러나 차량 구성의 다양성으로 인한 일반적인 실제 문제인 서로 다른 카메라 시점에 대한 강건성을 달성하는 것은 여전히 미해결 문제이다. 본 연구는 VR-Drive를 제안하며, 이는 3D 장면 재구성을 보조 작업으로 공동 학습함으로써 계획 인식 뷰 합성을 통해 시점 일반화 문제를 해결하는 새로운 E2E-AD 프레임워크이다. 이전의 장면 특정 합성 방법과 달리, VR-Drive는 피드포워드 추론 전략을 채택하여 추가 주석 없이 희소 뷰에서 온라인 학습 시간 증강을 지원한다. 시점 일관성을 더욱 향상시키기 위해 다중 시점 간의 시간적 상호작용을 촉진하는 시점 혼합 메모리 뱅크와 원본 시점에서 합성 시점으로 지식을 전달하는 시점 일관성 증류 전략을 도입한다. 완전한 엔드-투-엔드 학습을 통해 VR-Drive는 합성으로 인한 노이즈를 효과적으로 완화하고 시점 변화 하에서 계획 성능을 개선한다. 또한 새로운 기준 데이터셋을 공개하여 새로운 카메라 시점에서의 E2E-AD 성능을 평가하고 포괄적인 분석을 가능하게 한다.

연구 배경 및 동기

문제 정의

기존의 엔드-투-엔드 자동주행 시스템은 다음과 같은 핵심 과제에 직면해 있다: 카메라 시점 변화로 인한 성능 저하. 실제 배포에서 서로 다른 차량 유형과 제조업체의 카메라 구성은 설치 높이, 각도 및 위치 등의 매개변수 변화를 포함하여 상당한 차이가 존재한다.

문제의 중요성

  1. 실용성 요구사항: 자동주행 시스템은 각 구성에 대해 재학습할 필요 없이 다양한 차량 유형에 적응해야 함
  2. 비용 고려사항: 각 카메라 구성에 대해 주석이 달린 데이터를 수집하는 비용은 극도로 높고 비현실적임
  3. 안전성 요구사항: 시점 변화는 인식 실패를 초래할 수 있으며, 그림 1에서 보듯이 카메라 높이가 낮아질 때 기존 방법은 전방 차량을 감지하지 못함

기존 방법의 한계

  1. 데이터 의존성: 각 카메라 구성에 대해 대량의 주석이 달린 데이터 필요
  2. 장면 특정성: 기존 신규 뷰 합성 방법은 일반적으로 특정 장면에 최적화되어 있으며 계산 오버헤드가 큼
  3. 일반화 능력 부족: 분포 외(OOD) 데이터에서 성능이 현저히 감소

연구 동기

학습 시에는 단일 카메라 구성만 사용하지만 테스트 시에는 다양한 미지의 카메라 시점에 대해 강건성을 유지할 수 있는 엔드-투-엔드 자동주행 프레임워크를 제안한다.

핵심 기여

  1. 최초 연구: 엔드-투-엔드 자동주행에서 카메라 시점 강건성 문제를 최초로 체계적으로 연구
  2. 통합 프레임워크: 3D 장면 재구성을 보조 작업으로 공동 학습하여 계획 인식 뷰 합성을 구현하는 VR-Drive 제안
  3. 기술 혁신:
    • 시점 혼합 메모리 뱅크(Viewpoint-Mixed Memory Bank)로 교차 시점 특성 상호작용 구현
    • 시점 일관성 증류 전략(Viewpoint-Consistent Distillation)으로 지식 전달
  4. 기준 기여: 새로운 카메라 시점에서의 E2E-AD 성능 평가를 지원하는 새로운 평가 기준 구축

방법 상세 설명

작업 정의

입력: 다중 시점 카메라 이미지 시퀀스 출력: 자차의 운동 계획 궤적 제약: 학습 시에는 원본 시점 데이터만 사용, 테스트 시에는 미지의 시점에 대해 강건성 유지 필요

모델 아키텍처

VR-Drive는 세 가지 주요 구성 요소를 포함한다:

1. 원본 시점 학습(Original-view Learning)

  • ResNet50을 사용하여 다중 시점 특성 맵 IRN×C×H×WI \in \mathbb{R}^{N×C×H×W} 추출
  • 피드포워드 3D 가우시안 스플래팅(3DGS)을 기반으로 장면 재구성
  • 가우시안 원시 정의: g=(μ,Σ,α,c)g = (μ, Σ, α, c), 위치, 공분산, 투명도 및 색상 포함

2. 신규 시점 학습(Novel-view Learning)

  • 카메라 외부 매개변수를 무작위로 샘플링하여 새로운 시점 생성
  • 공유 인코더를 사용하여 신규 시점 특성 I~RN×C×H×W\tilde{I} \in \mathbb{R}^{N×C×H×W} 추출
  • 순환 재구성 손실을 채택하여 원본 시점을 재생성하도록 모델 학습

3. 인식 계획 학습(Perception-planning Learning)

  • 학습 시 원본 또는 신규 시점을 무작위로 선택하여 입력으로 사용
  • 3D 객체 감지 및 맵핑 작업 통합
  • 효율성 향상을 위해 희소 아키텍처 채택

핵심 기술 구성 요소

시점 혼합 메모리 뱅크

F̃ = Cross-Attention(Query = F, Key = F', Value = F')
  • 서로 다른 시점의 인스턴스 특성 저장 및 업데이트
  • 교차 주의 메커니즘을 통해 현재 시점과 메모리 뱅크 특성 융합
  • FIFO 전략을 사용하여 높은 신뢰도 인스턴스 업데이트

시점 일관성 증류

핵심 개념: 원본 시점의 신뢰할 수 있는 특성을 사용하여 신규 시점 특성 학습 지도

  1. 핵심점 샘플링:
    p*_{i,j} = p_{i,j} + position(B_i)
    
  2. 특성 집계:
    S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
    
  3. 증류 손실:
    L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
    

손실 함수

총 손실은 여러 구성 요소를 포함한다:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

여기서 렌더링 손실은 다음을 포함한다:

  • 원본 재구성 손실: 인접한 시간 단계 뷰 재구성
  • 순환 재구성 손실: 신규 시점에서 원본 시점 재구성

실험 설정

데이터셋

  1. nuScenes: 광범위하게 사용되는 자동주행 기준 데이터셋
  2. CARLA: 폐루프 평가에 사용되는 시뮬레이션 환경
  3. 새로운 기준: 146개의 테스트 시퀀스를 포함하는 시점 변화 평가 세트를 기반으로 nuScenes에서 구축

시점 변화 구성

테스트 시 도입된 카메라 매개변수 변화:

  • 피치 각도: +5°, -10°
  • 높이: +1.0m, -0.7m
  • 깊이: +1.0m

평가 지표

  • L2 거리: 평균 변위 오류(ADE), 1초/2초/3초 시간 범위
  • 충돌률: 계획 궤적의 충돌 백분율
  • 주행 점수(DS)경로 완료율(RC): CARLA 폐루프 평가 지표

비교 방법

  • AD-MLP
  • BEV-Planner
  • VAD
  • SparseDrive
  • DiffusionDrive

실험 결과

주요 결과

nuScenes 데이터셋에서의 개루프 계획 성능 비교:

카메라 설정방법L2 거리(m) ↓충돌률(%) ↓
원본DiffusionDrive0.570.08
원본VR-Drive0.600.06
피치-10°DiffusionDrive0.960.24
피치-10°VR-Drive0.700.11
높이+1.0mDiffusionDrive1.460.81
높이+1.0mVR-Drive0.690.11

주요 발견:

  • VR-Drive는 원본 시점에서 경쟁력 있는 성능 유지
  • 신규 시점에서 기존 방법을 크게 능가하며, 평균 L2 거리가 1.17m에서 0.68m으로 감소
  • 충돌률이 0.41%에서 0.11%로 감소

소거 실험

구성 요소원본 시점 L2↓신규 시점 L2↓원본 충돌률↓신규 시점 충돌률↓
기준선0.630.910.140.30
+장면 재구성0.590.900.070.26
+메모리 뱅크0.620.730.090.17
+순환 재구성0.590.680.090.16
+증류0.610.730.080.14
완전 모델0.600.680.060.11

중요 발견:

  1. 장면 재구성만 추가해도 원본 시점 성능 개선
  2. 각 구성 요소가 협력하여 작동하며 완전 모델이 최고 성능 달성
  3. 원본 시점 성능과 신규 시점 강건성 간의 트레이드오프 없음

CARLA 폐루프 평가

Town05-Nov 기준에서의 결과:

방법원본 DS신규 시점 평균 DS원본 RC신규 시점 평균 RC
BEV-Planner17.257.8028.7028.86
기준선76.4748.2599.2094.87
VR-Drive84.0488.2599.0498.28

VR-Drive는 폐루프 테스트에서 우수한 시점 강건성을 보여준다.

관련 연구

엔드-투-엔드 자동주행

기존 연구는 주로 두 가지 방향으로 나뉜다:

  1. 아키텍처 및 작업 탐색: 부분 모듈 최적화를 통한 계획 성능 향상
  2. 고급 정보 증류: 규칙 또는 강화 학습 전문가 지식 활용

시점 강건 표현 및 장면 재구성

  1. 초기 연구: 신경망이 시점 변화에 취약함을 증명
  2. 신규 뷰 합성: NeRF 및 3DGS 기반 방법이지만 대부분 장면 특정 최적화
  3. 피드포워드 방법: 실시간 추론을 지원하는 일반화 방법

본 논문은 E2E-AD에서 시점 강건성을 체계적으로 연구한 최초의 작업이다.

결론 및 논의

주요 결론

  1. VR-Drive는 E2E-AD에서 시점 강건성 문제를 성공적으로 해결
  2. 3D 재구성을 보조 작업으로 공동 학습하면 시스템 강건성이 크게 향상됨
  3. 제안된 기술 구성 요소는 합성으로 인한 노이즈를 효과적으로 완화하고 계획 성능 개선

한계

  1. 카메라 캘리브레이션 의존성: 성능이 카메라 캘리브레이션 정확도의 영향을 받음
  2. 계산 오버헤드: 3D 재구성으로 인한 추가 계산 비용 증가
  3. 평가 범위: 현재는 제한된 시점 변화 범위 내에서만 검증됨

향후 방향

  1. 카메라 캘리브레이션 오류에 대한 강건성 향상
  2. 계산 효율성 최적화로 실시간 배포 비용 감소
  3. 더 큰 범위의 시점 변화 및 센서 구성으로 확장

심층 평가

장점

  1. 문제의 중요성: 실제 배포의 핵심 과제 해결
  2. 방법 혁신: 3D 재구성과 E2E-AD를 교묘하게 결합하고 정교한 기술 구성 요소 설계
  3. 충분한 실험: 개루프 및 폐루프 평가 포함, 소거 실험 상세함
  4. 기준 기여: 분야에 새로운 평가 표준 제공

부족한 점

  1. 캘리브레이션 가정: 완벽한 카메라 캘리브레이션을 가정하지만 실제 응용에서는 오류 가능
  2. 시점 범위: 테스트된 시점 변화 범위가 상대적으로 제한적
  3. 계산 분석: 상세한 계산 오버헤드 분석 부족

영향력

  1. 학술적 가치: E2E-AD에서 시점 강건성 연구를 개척적으로 수행
  2. 실용적 가치: 산업 배포의 실제 문제를 직접 해결
  3. 재현성: 방법 설명이 상세하여 후속 연구 추진 가능

적용 시나리오

  1. 다중 차량 유형 배포: 다양한 차량 구성 간 빠른 적응이 필요한 시나리오
  2. 센서 업그레이드: 차량 센서 구성 변경 시 시스템 마이그레이션
  3. 교차 도메인 응용: 지역 또는 국가 간 차량 표준 차이 적응

참고 문헌

논문은 엔드-투-엔드 자동주행, 3D 재구성, 신규 뷰 합성 등 여러 분야의 중요한 작업을 포함하는 75개의 관련 문헌을 인용하여 본 연구에 견고한 이론적 기초를 제공한다.


종합 평가: 이는 엔드-투-엔드 자동주행에서 시점 강건성 문제를 최초로 체계적으로 해결한 고품질 연구 논문이다. 방법 설계가 합리적이고 실험 검증이 충분하며, 자동주행 기술의 실제 응용 추진에 중요한 가치를 가진다.