2025-11-22T23:16:16.841585

Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution

Zhang, Song, Li et al.

End-to-end autonomous driving methods aim to directly map raw sensor inputs to future driving actions such as planned trajectories, bypassing traditional modular pipelines. While these approaches have shown promise, they often operate under a one-shot paradigm that relies heavily on the current scene context, potentially underestimating the importance of scene dynamics and their temporal evolution. This limitation restricts the model's ability to make informed and adaptive decisions in complex driving scenarios. We propose a new perspective: the future trajectory of an autonomous vehicle is closely intertwined with the evolving dynamics of its environment, and conversely, the vehicle's own future states can influence how the surrounding scene unfolds. Motivated by this bidirectional relationship, we introduce SeerDrive, a novel end-to-end framework that jointly models future scene evolution and trajectory planning in a closed-loop manner. Our method first predicts future bird's-eye view (BEV) representations to anticipate the dynamics of the surrounding scene, then leverages this foresight to generate future-context-aware trajectories. Two key components enable this: (1) future-aware planning, which injects predicted BEV features into the trajectory planner, and (2) iterative scene modeling and vehicle planning, which refines both future scene prediction and trajectory generation through collaborative optimization. Extensive experiments on the NAVSIM and nuScenes benchmarks show that SeerDrive significantly outperforms existing state-of-the-art methods.

academic

미래 인식 엔드-투-엔드 주행: 궤적 계획 및 장면 진화의 양방향 모델링

기본 정보

논문 ID: 2510.11092
제목: Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
저자: Bozhou Zhang, Nan Song, Jingyu Li, Xiatian Zhu, Jiankang Deng, Li Zhang
분류: cs.CV
발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
논문 링크: https://arxiv.org/abs/2510.11092
코드 링크: https://github.com/LogosRoboticsGroup/SeerDrive

초록

엔드-투-엔드 자율주행 방법은 기존의 모듈식 파이프라인을 우회하여 원시 센서 입력을 미래 주행 동작(예: 계획된 궤적)으로 직접 매핑하는 것을 목표로 한다. 이러한 방법들이 유망한 결과를 보여주고 있지만, 일반적으로 단일 패러다임 하에서 작동하며 현재 장면 맥락에 크게 의존하여 장면 동역학 및 그 시간적 진화의 중요성을 과소평가할 수 있다. 이러한 제한은 복잡한 주행 시나리오에서 모델이 정보에 기반한 적응적 의사결정을 내릴 수 있는 능력을 제약한다. 본 논문은 새로운 관점을 제시한다: 자율주행 차량의 미래 궤적은 주변 환경의 진화 동역학과 밀접한 관련이 있으며, 역으로 차량 자체의 미래 상태도 주변 장면의 전개에 영향을 미칠 수 있다. 이러한 양방향 관계를 바탕으로, 저자들은 폐루프 방식으로 미래 장면 진화와 궤적 계획을 공동으로 모델링하는 새로운 엔드-투-엔드 프레임워크인 SeerDrive를 제시한다.

연구 배경 및 동기

문제 정의

기존의 엔드-투-엔드 자율주행 방법은 주로 "단일 패러다임"(one-shot paradigm)을 채택하고 있다. 즉, 현재 시점의 센서 관측을 기반으로 향후 몇 초의 궤적을 직접 예측한다. 이러한 방법은 다음과 같은 핵심 문제들을 가지고 있다:

정적 장면 가정: 현재 장면 상황에 과도하게 의존하여 자차의 미래 운동을 추론하며, 장면이 시간에 따라 어떻게 진화하는지라는 핵심 요소를 간과함
단방향 모델링: 자차의 미래 행동이 주변 장면 전개에 미치는 영향을 고려하지 않음
시간적 동역학 모델링 부족: 동적 상호작용 주행 환경에서 이러한 방법은 모델의 적응적 의사결정 능력을 제한함

연구 동기

저자들은 두 가지 중요한 양방향 의존성을 관찰했다:

미래 교통 동역학이 자차의 운동 계획에 영향을 미침
자차의 계획된 행동이 역으로 미래 장면을 형성함

이러한 통찰을 바탕으로, 저자들은 장면 진화와 궤적 계획 간의 양방향 상호작용 관계를 명시적으로 모델링할 필요성을 제시한다.

핵심 기여

새로운 패러다임 제시: 장면 동역학과 자차의 미래 행동 간의 양방향 상호작용을 명시적으로 포착하는 새로운 엔드-투-엔드 주행 패러다임을 제시하여 기존의 단일 계획 방법에 도전
통합 프레임워크 설계: 미래 인식 및 반복적 상호작용 메커니즘을 통해 미래 BEV 장면 표현과 차량 궤적을 공동으로 모델링하는 SeerDrive 프레임워크 구현
성능 돌파: NAVSIM 및 nuScenes 벤치마크에서 최첨단 성능을 달성하여 설계의 유효성을 검증

방법론 상세 설명

작업 정의

엔드-투-엔드 자율주행 작업은 센서 입력(카메라 및 LiDAR)을 미래 자차 궤적으로 매핑하는 것이며, 일반적으로 다양한 가능한 미래를 포착하기 위해 다중 모달 출력을 사용한다. 자율주행에서의 세계 모델은 현재 관측을 기반으로 미래 장면 진화를 예측하는 것을 목표로 한다.

모델 아키텍처

1. 특징 인코딩

다중 시점 이미지 I와 LiDAR 특징 P가 주어졌을 때, 인코더는 이러한 다중 모달 센서 입력을 현재 BEV 특징 맵 $F^{curr}_{bev} \in \mathbb{R}^{H \times W \times C}$ 로 변환한다:

F^curr_bev = TransFuser(I, P)
F^curr_ego = EgoEncoder(T, E)
B^curr = BEVDecoder(F^curr_bev)

여기서 T는 앵커된 다중 모달 궤적이고, E는 자차 상태이다.

2. 미래 BEV 세계 모델링

BEV 세계 모델은 미래 BEV 표현을 예측하며, 복잡한 이미지 생성이 아닌 구조화된 BEV 표현을 채택한다:

F^fut_scene = BEVWorldModel(F^curr_scene)
B^fut = BEVDecoder(F^fut_bev)

3. 미래 인식 엔드-투-엔드 계획

계획 네트워크는 현재 장면과 미래 진화를 공동으로 추론하여 계획된 궤적을 생성한다. 자차 특징이 현재 및 미래 BEV 특징과 각각 상호작용하는 분리된 전략을 채택한다:

F^curr_ego = TransformerDecoder(F^curr_ego, F^curr_bev)
F^fut_ego = TransformerDecoder(F^fut_ego, F^fut_bev)
Ta = EgoDecoder(F^curr_ego)
Tb = EgoDecoder(F^fut_ego)

최종적으로 모션 인식 계층 정규화(MLN)를 통해 융합된다:

F^curr_ego = MLN(F^curr_ego, F^fut_ego)
T^final = EgoDecoder(F^curr_ego)

4. 반복적 장면 모델링 및 차량 계획

BEV 세계 모델링 네트워크와 엔드-투-엔드 계획 네트워크는 반복적 방식으로 작동하여 계획 성능을 점진적으로 개선한다. N번 반복하여 N쌍의 예측된 미래 의미론적 맵과 자차 궤적을 생성한다.

기술 혁신 포인트

양방향 모델링: 엔드-투-엔드 주행에서 장면 진화와 궤적 계획의 양방향 의존성을 명시적으로 모델링한 최초의 시도
분리된 상호작용 전략: 현재 및 미래 BEV 특징의 직접적 상호작용으로 인한 표현 얽힘을 방지
반복적 최적화: 협력적 최적화를 통해 장면 예측과 궤적 생성을 점진적으로 정제
모션 인식 융합: MLN을 사용하여 현재 및 미래 자차 표현을 효과적으로 융합

실험 설정

데이터셋

NAVSIM: nuPlan을 기반으로 구축, 1,192개의 훈련/검증 장면과 136개의 테스트 장면 포함, 8개 카메라 + LiDAR, 2Hz
nuScenes: 1,000개 장면, 6개 카메라 + LiDAR, 2Hz, 표준 700/150 훈련/검증 분할 채택

평가 지표

NAVSIM: PDM Score (PDMS), 무과실 충돌(NC), 주행 가능 영역 준수(DAC), 충돌 시간(TTC), 편안함(Comf.), 자차 진행(EP) 포함
nuScenes: L2 변위 오차 및 충돌률

구현 세부사항

NAVSIM: ResNet34 백본 네트워크, 3개 시점, 1024×256 해상도, 256개 궤적 모드, 4초 계획 범위
nuScenes: ResNet50 백본 네트워크, 6개 시점, 640×360 해상도, 6개 궤적 모드, 3초 계획 범위
훈련: 8개 RTX 3090 GPU, AdamW 옵티마이저

실험 결과

주요 결과

NAVSIM 데이터셋 성능 비교

방법	NC ↑	DAC ↑	TTC ↑	Comf. ↑	EP ↑	PDMS ↑
DiffusionDrive	98.2	96.2	94.7	100	82.2	88.1
WoTE	98.5	96.8	94.9	99.9	81.9	88.3
Hydra-NeXt	98.1	97.7	94.6	100	81.8	88.6
SeerDrive	98.4	97.0	94.9	99.9	83.2	88.9

SeerDrive는 NAVSIM에서 최고의 88.9 PDMS 점수를 달성하여 기존 방법을 크게 능가했다.

nuScenes 데이터셋 성능 비교

방법	L2 (m) ↓	충돌률 (%) ↓
	1s/2s/3s/평균	1s/2s/3s/평균
SparseDrive	0.29/0.58/0.96/0.61	0.01/0.05/0.18/0.08
SeerDrive	0.20/0.39/0.69/0.43	0.00/0.05/0.14/0.06

nuScenes에서 SeerDrive는 변위 오차와 충돌률 모두에서 현저한 개선을 달성했다.

소거 실험

핵심 구성 요소 분석

미래 인식 계획	반복 S&V	PDMS ↑
		87.1
✓		87.9
	✓	88.1
✓	✓	88.9

결과는 두 핵심 구성 요소 모두 성능 향상에 중요한 기여를 함을 보여준다.

반복 횟수 분석

반복 횟수	PDMS ↑
1	88.1
2	88.9
3	88.7

2회 반복이 효율성과 성능의 최적 균형을 달성한다.

정성적 결과

논문은 우회전 및 좌회전 시나리오의 시각화 결과를 제시하며, 모델이 다음을 수행할 수 있음을 보여준다:

미래 BEV 의미론적 맵을 정확하게 예측
실제 궤적과 높은 일치도를 가진 계획된 궤적 생성
다중 모달의 가능한 미래 운동 포착

결론 및 논의

주요 결론

장면 진화와 궤적 계획의 양방향 모델링에 대한 새로운 패러다임 제시
SeerDrive 프레임워크가 미래 인식 엔드-투-엔드 주행을 효과적으로 구현
두 개의 벤치마크 데이터셋에서 최첨단 성능 달성

제한사항

기초 모델 제한: BEV 세계 모델이 특별히 설계된 트랜스포머 아키텍처를 채택하여 기초 모델의 일반화 능력을 활용하지 못함
추론 속도: 세계 모델로 기성 기초 모델을 사용할 경우 추론 속도가 느리고 공동 최적화가 어려움
복잡한 장면 처리: 차선 선택 오류 및 주행 의도 추론 오류 등 특정 복잡한 장면에서 여전히 실패 사례 존재

향후 방향

계획과 세계 모델링이 긴밀하게 통합된 패러다임 개발
엔드-투-엔드 자율주행에서 기초 모델의 응용 탐색
고수준 주행 의도를 결합하여 계획 정확성 개선

심층 평가

장점

높은 혁신성: 장면 진화와 궤적 계획의 양방향 관계를 체계적으로 모델링한 최초의 시도로, 기존의 단일 패러다임을 돌파
합리적인 기술 설계: 분리된 상호작용 전략, 반복적 최적화 등의 설계가 실제 문제를 효과적으로 해결
충분한 실험: 여러 데이터셋에서 포괄적인 평가 수행, 소거 실험이 상세함
현저한 성능 향상: 도전적인 NAVSIM 및 nuScenes 벤치마크에서 명백한 개선 달성

부족한 점

계산 복잡도: 반복적 모델링이 계산 오버헤드를 증가시키며, 실제 배포 시 효율성 고려 필요
일반화 능력: 특별히 설계된 아키텍처가 다양한 장면에서의 일반화 능력을 제한할 수 있음
실패 사례 분석 부족: 모델 실패의 근본 원인에 대한 분석이 더 깊어질 필요가 있음

영향력

학술적 기여: 엔드-투-엔드 자율주행 분야에 새로운 연구 패러다임과 사고방식 제공
실용적 가치: 방법이 실제 주행 시나리오에서 우수한 성능을 보여주어 응용 잠재력 보유
재현성: 상세한 구현 세부사항과 오픈소스 코드 제공으로 재현 및 후속 연구 용이

적용 시나리오

복잡한 도시 주행 환경
다중 에이전트 상호작용을 고려해야 하는 시나리오
계획 정확성에 대한 요구가 높은 자율주행 시스템
엔드-투-엔드 학습 자율주행 연구

참고문헌

논문은 58개의 관련 문헌을 인용하고 있으며, 엔드-투-엔드 자율주행, 세계 모델, 공동 모델링 등 핵심 분야의 중요한 연구를 포함하여 본 연구에 견고한 이론적 기초를 제공한다.

종합 평가: 이는 자율주행 연구 분야의 고품질 논문으로, 혁신적인 양방향 모델링 패러다임을 제시하며, 기술 방안 설계가 합리적이고, 실험 평가가 포괄적이며, 중요한 벤치마크 테스트에서 현저한 성능 향상을 달성했다. 본 논문은 엔드-투-엔드 자율주행 분야에 새로운 연구 방향을 개척하여 중요한 학술적 가치와 실용적 의의를 가진다.