2025-11-11T08:37:09.146501

VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting

Cho, Kang, Lee et al.

End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.

academic

VR-Drive: フィードフォワード3Dガウシアンスプラッティングを用いたビューポイント堅牢なエンドツーエンド運転

基本情報

論文ID: 2510.23205
タイトル: VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting
著者: Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon
分類: cs.CV
発表時期/会議: NeurIPS 2025（第39回ニューラル情報処理システム会議）
論文リンク: https://arxiv.org/abs/2510.23205

要約

エンドツーエンド自動運転(E2E-AD)は、知覚、予測、計画を統一されたデータ駆動型フレームワークに統合する有望なパラダイムとなっています。しかし、車両構成の多様性に起因する異なるカメラビューポイントに対する堅牢性の実現は、依然として未解決の問題です。本研究はVR-Driveを提案します。これは、3Dシーン再構成を補助タスクとして共同学習することにより、計画認識ビュー合成を実現し、ビューポイント汎化問題に対処する新規なE2E-ADフレームワークです。従来のシーン特定合成方法と異なり、VR-Driveはフィードフォワード推論戦略を採用し、追加のアノテーションなしにスパースビューからのオンライン学習時増強をサポートします。ビューポイント一貫性をさらに向上させるため、複数ビューポイント間の時間的相互作用を促進するビューポイント混合メモリバンク、および元のビューから合成ビューへ知識を転送するビューポイント一貫性蒸留戦略が導入されています。完全なエンドツーエンド学習により、VR-Driveは合成に起因するノイズを効果的に軽減し、ビューポイント変化下での計画性能を改善します。さらに、新規カメラビューポイント下でのE2E-AD性能を評価するための新しいベンチマークデータセットがリリースされ、包括的な分析が実現されています。

研究背景と動機

問題定義

既存のエンドツーエンド自動運転システムは、カメラビューポイント変化に起因する性能低下という重要な課題に直面しています。実際の展開では、異なる車両タイプおよび製造業者のカメラ構成に、取付高さ、角度、位置などのパラメータの大きな差異が存在します。

問題の重要性

実用性の必要性：自動運転システムは、各構成に対して再学習することなく、様々な車種に適応する必要があります
コスト考慮：各カメラ構成に対してアノテーション付きデータを収集することは、極めて高コストで非現実的です
安全性要件：ビューポイント変化は知覚の失敗をもたらす可能性があり、図1に示すように、カメラ高さが低下した場合、既存方法は前方車両を検出できません

既存方法の限界

データ依存性：各カメラ構成に対して大量のアノテーション付きデータの収集が必要です
シーン特定性：既存の新規ビュー合成方法は通常、特定のシーンに対して最適化され、計算コストが大きいです
汎化能力の欠如：分布外(OOD)データでの性能が著しく低下します

研究動機

学習時には単一のカメラ構成のみを使用しながら、テスト時には様々な未見のカメラビューポイントに対して堅牢性を維持できるエンドツーエンド自動運転フレームワークを提案することです。

核心的な貢献

初の研究：エンドツーエンド自動運転におけるカメラビューポイント堅牢性問題の初の体系的研究
統一フレームワーク：3Dシーン再構成を補助タスクとして共同学習し、計画認識ビュー合成を実現するVR-Driveを提案
技術的革新：
- ビューポイント混合メモリバンク(Viewpoint-Mixed Memory Bank)によるクロスビューポイント特徴相互作用の実現
- ビューポイント一貫性蒸留戦略(Viewpoint-Consistent Distillation)による知識転送
ベンチマーク貢献：新規カメラビューポイント下でのE2E-AD性能評価をサポートする新しい評価ベンチマークの構築

方法の詳細

タスク定義

入力：マルチビューカメラ画像シーケンス出力：自車の運動計画軌跡制約：学習時は元のビューポイントデータのみを使用し、テスト時は未見のビューポイントに対して堅牢である必要があります

モデルアーキテクチャ

VR-Driveは3つの主要コンポーネントで構成されています：

1. 元のビューポイント学習(Original-view Learning)

ResNet50を使用してマルチビュー特徴マップ $I \in \mathbb{R}^{N×C×H×W}$ を抽出
フィードフォワード3Dガウシアンスプラッティング(3DGS)に基づくシーン再構成
ガウシアンプリミティブの定義： $g = (μ, Σ, α, c)$ （位置、共分散、透明度、色を含む）

2. 新規ビューポイント学習(Novel-view Learning)

ランダムにカメラ外部パラメータをサンプリングして新規ビューポイントを生成
共有エンコーダを使用して新規ビューポイント特徴 $\tilde{I} \in \mathbb{R}^{N×C×H×W}$ を抽出
循環再構成損失を採用してモデルを学習し、元のビューポイントを再生成

3. 知覚計画学習(Perception-planning Learning)

学習時にランダムに元のビューポイントまたは新規ビューポイントを入力として選択
3D物体検出およびマッピングタスクを統合
スパースアーキテクチャを採用して効率を向上

主要な技術コンポーネント

ビューポイント混合メモリバンク

F̃ = Cross-Attention(Query = F, Key = F', Value = F')

異なるビューポイントからのインスタンス特徴を保存および更新
クロスアテンション機構を通じて現在のビューポイントとメモリバンク特徴を融合
FIFO戦略を採用して高信頼度インスタンスを更新

ビューポイント一貫性蒸留

核心的な考え方：元のビューポイントの信頼性の高い特徴を使用して、新規ビューポイント特徴学習をガイドします

キーポイントサンプリング：
```
p*_{i,j} = p_{i,j} + position(B_i)
```
特徴集約：
```
S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
```

蒸留損失：

L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2

損失関数

総損失は複数のコンポーネントで構成されます：

L = L_det + L_map + L_depth + L_motion + L_plan + L_render

ここで、レンダリング損失には以下が含まれます：

元の再構成損失：隣接する時間ステップビューの再構成
循環再構成損失：新規ビューポイントから元のビューポイントの再構成

実験設定

データセット

nuScenes：広く使用されている自動運転ベンチマークデータセット
CARLA：シミュレーション環境、クローズドループ評価用
新規ベンチマーク：nuScenesに基づいて構築されたビューポイント変化評価セット、146個のテストシーケンスを含む

ビューポイント変化構成

テスト時に導入されるカメラパラメータ変化：

ピッチ角：+5°、-10°
高さ：+1.0m、-0.7m
深さ：+1.0m

評価指標

L2距離：平均変位誤差(ADE)、1秒/2秒/3秒の時間範囲
衝突率：計画軌跡の衝突パーセンテージ
運転スコア(DS)およびルート完了率(RC)：CARLAクローズドループ評価指標

比較方法

AD-MLP
BEV-Planner
VAD
SparseDrive
DiffusionDrive

実験結果

主要な結果

nuScenesデータセット上のオープンループ計画性能の比較：

カメラ設定	方法	L2距離(m) ↓	衝突率(%) ↓
元のビューポイント	DiffusionDrive	0.57	0.08
元のビューポイント	VR-Drive	0.60	0.06
ピッチ-10°	DiffusionDrive	0.96	0.24
ピッチ-10°	VR-Drive	0.70	0.11
高さ+1.0m	DiffusionDrive	1.46	0.81
高さ+1.0m	VR-Drive	0.69	0.11

主要な発見：

VR-Driveは元のビューポイントで競争力のある性能を維持
新規ビューポイントで既存方法を大幅に上回り、平均L2距離が1.17mから0.68mに低下
衝突率が0.41%から0.11%に低下

アブレーション実験

コンポーネント	元のビューポイントL2↓	新規ビューポイントL2↓	元の衝突率↓	新規ビューポイント衝突率↓
ベースライン	0.63	0.91	0.14	0.30
+シーン再構成	0.59	0.90	0.07	0.26
+メモリバンク	0.62	0.73	0.09	0.17
+循環再構成	0.59	0.68	0.09	0.16
+蒸留	0.61	0.73	0.08	0.14
完全モデル	0.60	0.68	0.06	0.11