2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.

Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.

academic

IntersectioNDE: 상호작용 분해 전략 기반 복잡한 도시 교통 동역학 학습

기본 정보

논문 ID: 2510.11534
제목: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
저자: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (청화대학교)
분류: cs.RO (로봇공학), cs.SY (시스템 및 제어), eess.SY (시스템 및 제어)
발표일: 2025년 10월 13일
논문 링크: https://arxiv.org/abs/2510.11534

초록

현실적인 교통 시뮬레이션은 자동주행차(AV)의 안전성과 신뢰성을 보장하는 데 필수적이며, 특히 복잡하고 다양한 도시 교통 환경에서 그러합니다. 그러나 기존의 데이터 기반 시뮬레이터는 두 가지 핵심 과제에 직면해 있습니다: 도시 교차로의 밀집된 이질적 상호작용 모델링에 대한 관심 부족과 고밀도 시나리오에서 고차원 결합 분포를 견고하게 학습하기의 내재적 어려움입니다. 본 논문은 실제 도시 교차로에서 수집한 대규모 데이터셋인 City Crossings Dataset (CiCross)을 소개하며, 이는 밀집된 이질적 다중 에이전트 상호작용을 고유하게 포착합니다. 이 데이터셋을 기반으로, 복잡한 도시 교차로 시나리오를 위한 데이터 기반 시뮬레이터인 IntersectioNDE를 제안하며, 그 핵심 구성 요소는 에이전트 부분집합에서 결합 동역학을 학습하여 주변에서 결합으로의 시뮬레이션을 가능하게 하는 상호작용 분해 전략(IDS)입니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 복잡한 도시 교차로의 고충실도 교통 시뮬레이션이며, 특히 자동차(MVs), 비자동차(NMVs) 및 보행자를 포함하는 밀집된 이질적 상호작용 시나리오입니다.

문제의 중요성

자동주행 안전 검증 필요성: 시뮬레이션 테스트는 확장성, 비용 효율성 및 안전 관련 엣지 케이스 탐색 능력으로 인해 광범위하게 채택됩니다
복잡한 도시 환경 과제: 중국 등 국가의 도시 교차로는 밀집되고 이질적인 교통 패턴을 나타내며, 기존 방법은 이를 효과적으로 모델링하기 어렵습니다
실용적 가치: 정확한 교통 시뮬레이션은 AV 시스템의 안전한 배포에 중요한 의미를 갖습니다

기존 방법의 한계

시나리오 커버리지 부족: 기존 데이터 기반 시뮬레이터는 밀집된 이질적 도시 교차로 상호작용 모델링에 대한 관심이 제한적입니다
기술적 과제: 전체 시나리오의 고차원 결합 분포를 직접 학습하는 것은 내재적 어려움이 있으며, 종종 모드 붕괴 및 장기 시뮬레이션 불안정성을 초래합니다
데이터셋 제한: 기존 데이터셋은 자동차, 비자동차 및 보행자의 밀집된 상호작용에 대한 충분한 표현이 부족합니다

연구 동기

중국 등 국가의 복잡한 도시 교통 환경의 특수한 요구에 대응하여, 이질적 상호작용을 견고하게 모델링하고 장기 안정성을 유지할 수 있는 교통 시뮬레이션 시스템을 개발합니다.

핵심 기여

CiCross 데이터셋 제안: 밀집된 이질적 다중 에이전트 상호작용을 고유하게 포착하는 대규모 실제 도시 교차로 데이터셋
IntersectioNDE 시뮬레이터 설계: 복잡한 도시 교차로 시나리오를 위한 전문화된 데이터 기반 시나리오 수준 시뮬레이터
상호작용 분해 전략(IDS) 혁신: 에이전트 부분집합에서 결합 동역학을 학습하여 주변에서 결합으로의 시뮬레이션 훈련 패러다임 구현
시나리오 인식 Transformer 네트워크 구축: 전문화된 훈련 기술을 통합하여 시뮬레이션 견고성과 장기 안정성을 현저히 향상

방법론 상세 설명

작업 정의

교통 시뮬레이션 작업은 예측 시간 범위 $T_{pred}$ 내에서 현실적인 미래 시나리오 상태를 생성할 수 있는 생성 모델 학습으로 모델링됩니다.

$A_τ = \{a_1, ..., a_{N_τ}\}$ 를 시간 $τ$ 에 존재하는 $N_τ$ 개 에이전트의 집합이라 하고, 에이전트 $a_j$ 의 시간 $τ$ 에서의 상태를 $s_{j,τ} ∈ S_{agent}$ 라 합니다. 완전한 시나리오 인스턴스 $G_τ$ 는 에이전트 상태 $S_τ$ , 정적 지도 정보 $M$ 및 동적 신호등 상태 $L_τ$ 를 포함합니다.

목표는 조건부 확률 분포를 학습하는 것입니다: $P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})$

상호작용 분해 전략(IDS)

IDS 훈련 과정

에이전트 그룹화: 사전 정의된 공간 및 행동 기준(예: TTC)을 기반으로 에이전트 집합 $A_t$ 를 $k$ 개의 분리된 상호작용 그룹으로 분할합니다: $A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}$
부분집합 샘플링: 그룹 인덱스 부분집합 $I ⊆ \{1, ..., k\}$ 를 무작위로 샘플링하여 샘플링된 에이전트를 포함하는 시나리오 인스턴스를 구성합니다
조건부 확률 학습: 신경망 모델 $F_θ$ 를 훈련하여 샘플링된 미래 시나리오 인스턴스의 조건부 확률 분포를 예측합니다: $P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)$
훈련 목표: 기대 음의 로그 우도를 최소화합니다: $L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]$

주변에서 결합으로의 시뮬레이션

추론 단계에서 모델은 다음 메커니즘을 통해 부분에서 완전한 시나리오로의 예측을 실현합니다:

상호작용 원시 학습: IDS 훈련으로 모델이 다양한 조건부 상호작용 원시 집합 $P = \{p_1, p_2, ..., p_L\}$ 을 획득합니다
원시 식별 및 합성: 임의의 시나리오 $G_t$ 에 대해, 모델은 먼저 현재 구성에서 학습된 상호작용 원시의 조합을 식별한 다음 미래 상태를 합성합니다
견고성 향상: 기본 구성 요소를 습득함으로써, 모델은 훈련 중 명시적으로 본 적 없는 상호작용 조합에 대해서도 복잡한 시나리오 동역학을 일관되게 예측할 수 있습니다

네트워크 아키텍처

시나리오 인식 상호작용 Transformer

인코더-상호작용-예측 구조의 다중 입력 Transformer 네트워크를 채택합니다:

다중 모달 입력 인코딩:
- 과거 에이전트 궤적: $H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}$
- 에이전트 정적 속성: $A_s ∈ R^{N×6}$
- 경로 정보: $M_r ∈ R^{N_R×D_R}$
- 신호등 상태: $M_d ∈ R^{T_{hist}×N_L×3}$
이중 교차 주의 모듈: 에이전트 특징과 시나리오 컨텍스트 특징을 결합하여 환경 인식 강화 에이전트 특징을 생성합니다
Transformer 상호작용 네트워크: 복잡한 에이전트 간 의존성을 모델링합니다
전문화된 예측 헤드: 다양한 에이전트 유형에 대해 미래 운동학 상태 분포 매개변수를 예측합니다

실험 설정

CiCross 데이터셋

데이터 규모: 약 700시간 녹화 데이터, 실험에 사용된 부분집합 23.6시간
데이터 특성: 212,344 프레임(2.5Hz), 56,578개 고유 에이전트 인스턴스
에이전트 분포: 자동차 54.2%, 비자동차 43.3%, 보행자 2.5%
시나리오 특성: 높은 에이전트 밀도, TTC 분포 피크 약 2초, 높은 위험 상호작용 체현

평가 지표

ADE(평균 변위 오차): Average Displacement Error
FDE(최종 변위 오차): Final Displacement Error
Missing Rate: 에이전트 소실률
Collapse Time: 시뮬레이션 붕괴 시간

구현 세부사항

하드웨어: 단일 NVIDIA RTX 4090 GPU
과거 길이: $T_{hist} = 10$
예측 범위: $T_{pred} = 10$
데이터 증강: 평행이동, 회전, 변위, 궤적 오류 주입
폐루프 시뮬레이션: 자기회귀 실행, 1 프레임 스텝

실험 결과

주요 결과

모든 IDS 기반 모델은 기준선 방법을 능가하며, 전략의 전반적 효과를 검증합니다:

방법	참여자 유형	ADE↓	FDE↓	Missing Rate↓
IDS 없음	자동차	0.9047	1.6526	0.2086
IDS 없음	비자동차	1.2864	2.4415	0.4553
IDS 없음	보행자	1.2197	2.0536	0.3732
IDS(TTC=1s)	자동차	0.6693	1.2496	0.1750
IDS(TTC=1s)	비자동차	0.9869	1.9694	0.3310
IDS(TTC=1s)	보행자	1.0086	1.6150	0.2386