2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive: 피드포워드 3D 가우시안 스플래팅을 이용한 시점 강건 엔드-투-엔드 주행

기본 정보

논문 ID: 2510.23205
제목: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
저자: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
분류: cs.CV
발표 시간/학회: NeurIPS 2025 (39th Conference on Neural Information Processing Systems)
논문 링크: https://arxiv.org/abs/2510.23205

초록

엔드-투-엔드 자동주행(E2E-AD)은 인식, 예측 및 계획을 통합된 데이터 기반 프레임워크로 통합하는 유망한 패러다임이 되었다. 그러나 차량 구성의 다양성으로 인한 일반적인 실제 문제인 서로 다른 카메라 시점에 대한 강건성을 달성하는 것은 여전히 미해결 문제이다. 본 연구는 VR-Drive를 제안하며, 이는 3D 장면 재구성을 보조 작업으로 공동 학습함으로써 계획 인식 뷰 합성을 통해 시점 일반화 문제를 해결하는 새로운 E2E-AD 프레임워크이다. 이전의 장면 특정 합성 방법과 달리, VR-Drive는 피드포워드 추론 전략을 채택하여 추가 주석 없이 희소 뷰에서 온라인 학습 시간 증강을 지원한다. 시점 일관성을 더욱 향상시키기 위해 다중 시점 간의 시간적 상호작용을 촉진하는 시점 혼합 메모리 뱅크와 원본 시점에서 합성 시점으로 지식을 전달하는 시점 일관성 증류 전략을 도입한다. 완전한 엔드-투-엔드 학습을 통해 VR-Drive는 합성으로 인한 노이즈를 효과적으로 완화하고 시점 변화 하에서 계획 성능을 개선한다. 또한 새로운 기준 데이터셋을 공개하여 새로운 카메라 시점에서의 E2E-AD 성능을 평가하고 포괄적인 분석을 가능하게 한다.

연구 배경 및 동기

문제 정의

기존의 엔드-투-엔드 자동주행 시스템은 다음과 같은 핵심 과제에 직면해 있다: 카메라 시점 변화로 인한 성능 저하. 실제 배포에서 서로 다른 차량 유형과 제조업체의 카메라 구성은 설치 높이, 각도 및 위치 등의 매개변수 변화를 포함하여 상당한 차이가 존재한다.

문제의 중요성

실용성 요구사항: 자동주행 시스템은 각 구성에 대해 재학습할 필요 없이 다양한 차량 유형에 적응해야 함
비용 고려사항: 각 카메라 구성에 대해 주석이 달린 데이터를 수집하는 비용은 극도로 높고 비현실적임
안전성 요구사항: 시점 변화는 인식 실패를 초래할 수 있으며, 그림 1에서 보듯이 카메라 높이가 낮아질 때 기존 방법은 전방 차량을 감지하지 못함

기존 방법의 한계

데이터 의존성: 각 카메라 구성에 대해 대량의 주석이 달린 데이터 필요
장면 특정성: 기존 신규 뷰 합성 방법은 일반적으로 특정 장면에 최적화되어 있으며 계산 오버헤드가 큼
일반화 능력 부족: 분포 외(OOD) 데이터에서 성능이 현저히 감소

연구 동기

학습 시에는 단일 카메라 구성만 사용하지만 테스트 시에는 다양한 미지의 카메라 시점에 대해 강건성을 유지할 수 있는 엔드-투-엔드 자동주행 프레임워크를 제안한다.

핵심 기여

최초 연구: 엔드-투-엔드 자동주행에서 카메라 시점 강건성 문제를 최초로 체계적으로 연구
통합 프레임워크: 3D 장면 재구성을 보조 작업으로 공동 학습하여 계획 인식 뷰 합성을 구현하는 VR-Drive 제안
기술 혁신:
- 시점 혼합 메모리 뱅크(Viewpoint-Mixed Memory Bank)로 교차 시점 특성 상호작용 구현
- 시점 일관성 증류 전략(Viewpoint-Consistent Distillation)으로 지식 전달
기준 기여: 새로운 카메라 시점에서의 E2E-AD 성능 평가를 지원하는 새로운 평가 기준 구축

방법 상세 설명

작업 정의

입력: 다중 시점 카메라 이미지 시퀀스 출력: 자차의 운동 계획 궤적 제약: 학습 시에는 원본 시점 데이터만 사용, 테스트 시에는 미지의 시점에 대해 강건성 유지 필요

모델 아키텍처

VR-Drive는 세 가지 주요 구성 요소를 포함한다:

1. 원본 시점 학습(Original-view Learning)

ResNet50을 사용하여 다중 시점 특성 맵 $I \in \mathbb{R}^{N×C×H×W}$ 추출
피드포워드 3D 가우시안 스플래팅(3DGS)을 기반으로 장면 재구성
가우시안 원시 정의: $g = (μ, Σ, α, c)$ , 위치, 공분산, 투명도 및 색상 포함

2. 신규 시점 학습(Novel-view Learning)

카메라 외부 매개변수를 무작위로 샘플링하여 새로운 시점 생성
공유 인코더를 사용하여 신규 시점 특성 $\tilde{I} \in \mathbb{R}^{N×C×H×W}$ 추출
순환 재구성 손실을 채택하여 원본 시점을 재생성하도록 모델 학습

3. 인식 계획 학습(Perception-planning Learning)

학습 시 원본 또는 신규 시점을 무작위로 선택하여 입력으로 사용
3D 객체 감지 및 맵핑 작업 통합
효율성 향상을 위해 희소 아키텍처 채택

핵심 기술 구성 요소

시점 혼합 메모리 뱅크

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

서로 다른 시점의 인스턴스 특성 저장 및 업데이트
교차 주의 메커니즘을 통해 현재 시점과 메모리 뱅크 특성 융합
FIFO 전략을 사용하여 높은 신뢰도 인스턴스 업데이트

시점 일관성 증류

핵심 개념: 원본 시점의 신뢰할 수 있는 특성을 사용하여 신규 시점 특성 학습 지도

핵심점 샘플링:
```
p*_{i,j} = p_{i,j} + position(B_i)
```
특성 집계:
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

증류 손실:

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

손실 함수

총 손실은 여러 구성 요소를 포함한다:

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

여기서 렌더링 손실은 다음을 포함한다:

원본 재구성 손실: 인접한 시간 단계 뷰 재구성
순환 재구성 손실: 신규 시점에서 원본 시점 재구성

실험 설정

데이터셋

nuScenes: 광범위하게 사용되는 자동주행 기준 데이터셋
CARLA: 폐루프 평가에 사용되는 시뮬레이션 환경
새로운 기준: 146개의 테스트 시퀀스를 포함하는 시점 변화 평가 세트를 기반으로 nuScenes에서 구축

시점 변화 구성

테스트 시 도입된 카메라 매개변수 변화:

피치 각도: +5°, -10°
높이: +1.0m, -0.7m
깊이: +1.0m

평가 지표

L2 거리: 평균 변위 오류(ADE), 1초/2초/3초 시간 범위
충돌률: 계획 궤적의 충돌 백분율
주행 점수(DS) 및 경로 완료율(RC): CARLA 폐루프 평가 지표

비교 방법

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

실험 결과

주요 결과

nuScenes 데이터셋에서의 개루프 계획 성능 비교:

카메라 설정	방법	L2 거리(m) ↓	충돌률(%) ↓
원본	DiffusionDrive	0.57	0.08
원본	VR-Drive	0.60	0.06
피치-10°	DiffusionDrive	0.96	0.24
피치-10°	VR-Drive	0.70	0.11
높이+1.0m	DiffusionDrive	1.46	0.81
높이+1.0m	VR-Drive	0.69	0.11

주요 발견:

VR-Drive는 원본 시점에서 경쟁력 있는 성능 유지
신규 시점에서 기존 방법을 크게 능가하며, 평균 L2 거리가 1.17m에서 0.68m으로 감소
충돌률이 0.41%에서 0.11%로 감소

소거 실험

구성 요소	원본 시점 L2↓	신규 시점 L2↓	원본 충돌률↓	신규 시점 충돌률↓
기준선	0.63	0.91	0.14	0.30
+장면 재구성	0.59	0.90	0.07	0.26
+메모리 뱅크	0.62	0.73	0.09	0.17
+순환 재구성	0.59	0.68	0.09	0.16
+증류	0.61	0.73	0.08	0.14
완전 모델	0.60	0.68	0.06	0.11