End-to-end autonomous driving (E2E-AD) has emerged as a promising paradigm that unifies perception, prediction, and planning into a holistic, data-driven framework. However, achieving robustness to varying camera viewpoints, a common real-world challenge due to diverse vehicle configurations, remains an open problem. In this work, we propose VR-Drive, a novel E2E-AD framework that addresses viewpoint generalization by jointly learning 3D scene reconstruction as an auxiliary task to enable planning-aware view synthesis. Unlike prior scene-specific synthesis approaches, VR-Drive adopts a feed-forward inference strategy that supports online training-time augmentation from sparse views without additional annotations. To further improve viewpoint consistency, we introduce a viewpoint-mixed memory bank that facilitates temporal interaction across multiple viewpoints and a viewpoint-consistent distillation strategy that transfers knowledge from original to synthesized views. Trained in a fully end-to-end manner, VR-Drive effectively mitigates synthesis-induced noise and improves planning under viewpoint shifts. In addition, we release a new benchmark dataset to evaluate E2E-AD performance under novel camera viewpoints, enabling comprehensive analysis. Our results demonstrate that VR-Drive is a scalable and robust solution for the real-world deployment of end-to-end autonomous driving systems.
論文ID : 2510.23205タイトル : VR-Drive: Viewpoint-Robust End-to-End Driving with Feed-Forward 3D Gaussian Splatting著者 : Hoonhee Cho, Jae-Young Kang, Giwon Lee, Hyemin Yang, Heejun Park, Seokwoo Jung, Kuk-Jin Yoon分類 : cs.CV発表時期/会議 : NeurIPS 2025(第39回ニューラル情報処理システム会議)論文リンク : https://arxiv.org/abs/2510.23205 エンドツーエンド自動運転(E2E-AD)は、知覚、予測、計画を統一されたデータ駆動型フレームワークに統合する有望なパラダイムとなっています。しかし、車両構成の多様性に起因する異なるカメラビューポイントに対する堅牢性の実現は、依然として未解決の問題です。本研究はVR-Driveを提案します。これは、3Dシーン再構成を補助タスクとして共同学習することにより、計画認識ビュー合成を実現し、ビューポイント汎化問題に対処する新規なE2E-ADフレームワークです。従来のシーン特定合成方法と異なり、VR-Driveはフィードフォワード推論戦略を採用し、追加のアノテーションなしにスパースビューからのオンライン学習時増強をサポートします。ビューポイント一貫性をさらに向上させるため、複数ビューポイント間の時間的相互作用を促進するビューポイント混合メモリバンク、および元のビューから合成ビューへ知識を転送するビューポイント一貫性蒸留戦略が導入されています。完全なエンドツーエンド学習により、VR-Driveは合成に起因するノイズを効果的に軽減し、ビューポイント変化下での計画性能を改善します。さらに、新規カメラビューポイント下でのE2E-AD性能を評価するための新しいベンチマークデータセットがリリースされ、包括的な分析が実現されています。
既存のエンドツーエンド自動運転システムは、カメラビューポイント変化に起因する性能低下 という重要な課題に直面しています。実際の展開では、異なる車両タイプおよび製造業者のカメラ構成に、取付高さ、角度、位置などのパラメータの大きな差異が存在します。
実用性の必要性 :自動運転システムは、各構成に対して再学習することなく、様々な車種に適応する必要がありますコスト考慮 :各カメラ構成に対してアノテーション付きデータを収集することは、極めて高コストで非現実的です安全性要件 :ビューポイント変化は知覚の失敗をもたらす可能性があり、図1に示すように、カメラ高さが低下した場合、既存方法は前方車両を検出できませんデータ依存性 :各カメラ構成に対して大量のアノテーション付きデータの収集が必要ですシーン特定性 :既存の新規ビュー合成方法は通常、特定のシーンに対して最適化され、計算コストが大きいです汎化能力の欠如 :分布外(OOD)データでの性能が著しく低下します学習時には単一のカメラ構成のみを使用しながら、テスト時には様々な未見のカメラビューポイントに対して堅牢性を維持できるエンドツーエンド自動運転フレームワークを提案することです。
初の研究 :エンドツーエンド自動運転におけるカメラビューポイント堅牢性問題の初の体系的研究統一フレームワーク :3Dシーン再構成を補助タスクとして共同学習し、計画認識ビュー合成を実現するVR-Driveを提案技術的革新 :
ビューポイント混合メモリバンク(Viewpoint-Mixed Memory Bank)によるクロスビューポイント特徴相互作用の実現 ビューポイント一貫性蒸留戦略(Viewpoint-Consistent Distillation)による知識転送 ベンチマーク貢献 :新規カメラビューポイント下でのE2E-AD性能評価をサポートする新しい評価ベンチマークの構築入力 :マルチビューカメラ画像シーケンス
出力 :自車の運動計画軌跡
制約 :学習時は元のビューポイントデータのみを使用し、テスト時は未見のビューポイントに対して堅牢である必要があります
VR-Driveは3つの主要コンポーネントで構成されています:
ResNet50を使用してマルチビュー特徴マップ I ∈ R N × C × H × W I \in \mathbb{R}^{N×C×H×W} I ∈ R N × C × H × W を抽出 フィードフォワード3Dガウシアンスプラッティング(3DGS)に基づくシーン再構成 ガウシアンプリミティブの定義:g = ( μ , Σ , α , c ) g = (μ, Σ, α, c) g = ( μ , Σ , α , c ) (位置、共分散、透明度、色を含む) ランダムにカメラ外部パラメータをサンプリングして新規ビューポイントを生成 共有エンコーダを使用して新規ビューポイント特徴 I ~ ∈ R N × C × H × W \tilde{I} \in \mathbb{R}^{N×C×H×W} I ~ ∈ R N × C × H × W を抽出 循環再構成損失を採用してモデルを学習し、元のビューポイントを再生成 学習時にランダムに元のビューポイントまたは新規ビューポイントを入力として選択 3D物体検出およびマッピングタスクを統合 スパースアーキテクチャを採用して効率を向上 F̃ = Cross-Attention(Query = F, Key = F', Value = F')
異なるビューポイントからのインスタンス特徴を保存および更新 クロスアテンション機構を通じて現在のビューポイントとメモリバンク特徴を融合 FIFO戦略を採用して高信頼度インスタンスを更新 核心的な考え方:元のビューポイントの信頼性の高い特徴を使用して、新規ビューポイント特徴学習をガイドします
キーポイントサンプリング :p*_{i,j} = p_{i,j} + position(B_i)
特徴集約 :S_i = Σ_n Σ_j w_{n,i,j} · f_{n,i,j}
蒸留損失 :L_distill = 1/|I*| Σ_{i∈I*} ||S̃_i - stopgrad(S_i)||²_2
総損失は複数のコンポーネントで構成されます:
L = L_det + L_map + L_depth + L_motion + L_plan + L_render
ここで、レンダリング損失には以下が含まれます:
元の再構成損失 :隣接する時間ステップビューの再構成循環再構成損失 :新規ビューポイントから元のビューポイントの再構成nuScenes :広く使用されている自動運転ベンチマークデータセットCARLA :シミュレーション環境、クローズドループ評価用新規ベンチマーク :nuScenesに基づいて構築されたビューポイント変化評価セット、146個のテストシーケンスを含むテスト時に導入されるカメラパラメータ変化:
ピッチ角:+5°、-10° 高さ:+1.0m、-0.7m 深さ:+1.0m L2距離 :平均変位誤差(ADE)、1秒/2秒/3秒の時間範囲衝突率 :計画軌跡の衝突パーセンテージ運転スコア(DS)および ルート完了率(RC) :CARLAクローズドループ評価指標AD-MLP BEV-Planner VAD SparseDrive DiffusionDrive nuScenesデータセット上のオープンループ計画性能の比較:
カメラ設定 方法 L2距離(m) ↓ 衝突率(%) ↓ 元のビューポイント DiffusionDrive 0.57 0.08 元のビューポイント VR-Drive 0.60 0.06 ピッチ-10° DiffusionDrive 0.96 0.24 ピッチ-10° VR-Drive 0.70 0.11 高さ+1.0m DiffusionDrive 1.46 0.81 高さ+1.0m VR-Drive 0.69 0.11
主要な発見 :
VR-Driveは元のビューポイントで競争力のある性能を維持 新規ビューポイントで既存方法を大幅に上回り、平均L2距離が1.17mから0.68mに低下 衝突率が0.41%から0.11%に低下 コンポーネント 元のビューポイントL2↓ 新規ビューポイントL2↓ 元の衝突率↓ 新規ビューポイント衝突率↓ ベースライン 0.63 0.91 0.14 0.30 +シーン再構成 0.59 0.90 0.07 0.26 +メモリバンク 0.62 0.73 0.09 0.17 +循環再構成 0.59 0.68 0.09 0.16 +蒸留 0.61 0.73 0.08 0.14 完全モデル 0.60 0.68 0.06 0.11
重要な発見 :
シーン再構成の追加のみで元のビューポイント性能が改善 各コンポーネントが協調作用し、完全モデルで最良の効果を発揮 元のビューポイント性能と新規ビューポイント堅牢性の間にトレードオフが存在しない Town05-Novベンチマーク上の結果:
方法 元のDS 新規ビューポイント平均DS 元のRC 新規ビューポイント平均RC BEV-Planner 17.25 7.80 28.70 28.86 ベースライン 76.47 48.25 99.20 94.87 VR-Drive 84.04 88.25 99.04 98.28
VR-Driveはクローズドループテストで優れたビューポイント堅牢性を示しています。
既存研究は主に2つの方向に分かれています:
アーキテクチャとタスク探索 :サブモジュールの最適化による計画性能の向上高度な情報蒸留 :ルールまたは強化学習専門家知識の活用初期研究 :ニューラルネットワークのビューポイント変化への脆弱性を証明新規ビュー合成 :NeRFおよび3DGSベースの方法、ただし多くはシーン特定最適化フィードフォワード方法 :リアルタイム推論をサポートする汎化的方法本論文は、E2E-ADにおけるビューポイント堅牢性を体系的に研究した初の研究です。
VR-DriveはE2E-ADにおけるビューポイント堅牢性問題を成功裏に解決 3D再構成を補助タスクとして共同学習することで、システム堅牢性が著しく向上 提案された技術コンポーネントは、合成ノイズを効果的に軽減し、計画性能を改善 カメラキャリブレーション依存性 :性能はカメラキャリブレーション精度の影響を受けます計算コスト :3D再構成は追加の計算コストを増加させます評価範囲 :現在、限定されたビューポイント変化範囲内でのみ検証されていますカメラキャリブレーション誤差に対する堅牢性の向上 計算効率の最適化、リアルタイム展開コストの削減 より大きなビューポイント変化範囲およびセンサー構成への拡張 問題の重要性 :実際の展開における重要な課題を解決方法の革新性 :3D再構成とE2E-ADを巧妙に組み合わせ、精巧な技術コンポーネントを設計実験の充実 :オープンループおよびクローズドループ評価を含み、アブレーション実験が詳細ベンチマーク貢献 :領域に新しい評価基準を提供キャリブレーション仮定 :完全なカメラキャリブレーションを仮定し、実際の応用では誤差が存在する可能性ビューポイント範囲 :テストされたビューポイント変化範囲は比較的限定的計算分析 :計算コストの詳細な分析が不足学術的価値 :E2E-ADにおけるビューポイント堅牢性研究を開拓実用的価値 :産業展開における実際の問題を直接解決再現性 :方法の説明が詳細で、後続研究を推進する可能性複数車種展開 :異なる車両構成間での迅速な適応が必要なシーンセンサーアップグレード :車両センサー構成変更時のシステム移行クロスドメイン応用 :異なる地域または国の車両標準差異への適応論文は、エンドツーエンド自動運転、3D再構成、新規ビュー合成など、複数の領域の重要な研究を含む75篇の関連文献を引用しており、本研究に堅実な理論的基礎を提供しています。
総合評価 :これは高品質の研究論文であり、エンドツーエンド自動運転におけるビューポイント堅牢性問題を初めて体系的に解決しています。方法設計は合理的で、実験検証は充分であり、自動運転技術の実際の応用推進に重要な価値を有しています。