Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
- 논문 ID: 2510.11534
- 제목: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
- 저자: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (청화대학교)
- 분류: cs.RO (로봇공학), cs.SY (시스템 및 제어), eess.SY (시스템 및 제어)
- 발표일: 2025년 10월 13일
- 논문 링크: https://arxiv.org/abs/2510.11534
현실적인 교통 시뮬레이션은 자동주행차(AV)의 안전성과 신뢰성을 보장하는 데 필수적이며, 특히 복잡하고 다양한 도시 교통 환경에서 그러합니다. 그러나 기존의 데이터 기반 시뮬레이터는 두 가지 핵심 과제에 직면해 있습니다: 도시 교차로의 밀집된 이질적 상호작용 모델링에 대한 관심 부족과 고밀도 시나리오에서 고차원 결합 분포를 견고하게 학습하기의 내재적 어려움입니다. 본 논문은 실제 도시 교차로에서 수집한 대규모 데이터셋인 City Crossings Dataset (CiCross)을 소개하며, 이는 밀집된 이질적 다중 에이전트 상호작용을 고유하게 포착합니다. 이 데이터셋을 기반으로, 복잡한 도시 교차로 시나리오를 위한 데이터 기반 시뮬레이터인 IntersectioNDE를 제안하며, 그 핵심 구성 요소는 에이전트 부분집합에서 결합 동역학을 학습하여 주변에서 결합으로의 시뮬레이션을 가능하게 하는 상호작용 분해 전략(IDS)입니다.
본 연구가 해결하고자 하는 핵심 문제는 복잡한 도시 교차로의 고충실도 교통 시뮬레이션이며, 특히 자동차(MVs), 비자동차(NMVs) 및 보행자를 포함하는 밀집된 이질적 상호작용 시나리오입니다.
- 자동주행 안전 검증 필요성: 시뮬레이션 테스트는 확장성, 비용 효율성 및 안전 관련 엣지 케이스 탐색 능력으로 인해 광범위하게 채택됩니다
- 복잡한 도시 환경 과제: 중국 등 국가의 도시 교차로는 밀집되고 이질적인 교통 패턴을 나타내며, 기존 방법은 이를 효과적으로 모델링하기 어렵습니다
- 실용적 가치: 정확한 교통 시뮬레이션은 AV 시스템의 안전한 배포에 중요한 의미를 갖습니다
- 시나리오 커버리지 부족: 기존 데이터 기반 시뮬레이터는 밀집된 이질적 도시 교차로 상호작용 모델링에 대한 관심이 제한적입니다
- 기술적 과제: 전체 시나리오의 고차원 결합 분포를 직접 학습하는 것은 내재적 어려움이 있으며, 종종 모드 붕괴 및 장기 시뮬레이션 불안정성을 초래합니다
- 데이터셋 제한: 기존 데이터셋은 자동차, 비자동차 및 보행자의 밀집된 상호작용에 대한 충분한 표현이 부족합니다
중국 등 국가의 복잡한 도시 교통 환경의 특수한 요구에 대응하여, 이질적 상호작용을 견고하게 모델링하고 장기 안정성을 유지할 수 있는 교통 시뮬레이션 시스템을 개발합니다.
- CiCross 데이터셋 제안: 밀집된 이질적 다중 에이전트 상호작용을 고유하게 포착하는 대규모 실제 도시 교차로 데이터셋
- IntersectioNDE 시뮬레이터 설계: 복잡한 도시 교차로 시나리오를 위한 전문화된 데이터 기반 시나리오 수준 시뮬레이터
- 상호작용 분해 전략(IDS) 혁신: 에이전트 부분집합에서 결합 동역학을 학습하여 주변에서 결합으로의 시뮬레이션 훈련 패러다임 구현
- 시나리오 인식 Transformer 네트워크 구축: 전문화된 훈련 기술을 통합하여 시뮬레이션 견고성과 장기 안정성을 현저히 향상
교통 시뮬레이션 작업은 예측 시간 범위 Tpred 내에서 현실적인 미래 시나리오 상태를 생성할 수 있는 생성 모델 학습으로 모델링됩니다.
Aτ={a1,...,aNτ}를 시간 τ에 존재하는 Nτ개 에이전트의 집합이라 하고, 에이전트 aj의 시간 τ에서의 상태를 sj,τ∈Sagent라 합니다. 완전한 시나리오 인스턴스 Gτ는 에이전트 상태 Sτ, 정적 지도 정보 M 및 동적 신호등 상태 Lτ를 포함합니다.
목표는 조건부 확률 분포를 학습하는 것입니다:
Pdata(Gt+1:t+Tpred∣Gt−Thist+1:t)
- 에이전트 그룹화: 사전 정의된 공간 및 행동 기준(예: TTC)을 기반으로 에이전트 집합 At를 k개의 분리된 상호작용 그룹으로 분할합니다:
At={At,1,At,2,...,At,k}
- 부분집합 샘플링: 그룹 인덱스 부분집합 I⊆{1,...,k}를 무작위로 샘플링하여 샘플링된 에이전트를 포함하는 시나리오 인스턴스를 구성합니다
- 조건부 확률 학습: 신경망 모델 Fθ를 훈련하여 샘플링된 미래 시나리오 인스턴스의 조건부 확률 분포를 예측합니다:
Pmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)
- 훈련 목표: 기대 음의 로그 우도를 최소화합니다:
L(θ)=−EG^∼DdataEI∼Psample(I)[logPmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)]
추론 단계에서 모델은 다음 메커니즘을 통해 부분에서 완전한 시나리오로의 예측을 실현합니다:
- 상호작용 원시 학습: IDS 훈련으로 모델이 다양한 조건부 상호작용 원시 집합 P={p1,p2,...,pL}을 획득합니다
- 원시 식별 및 합성: 임의의 시나리오 Gt에 대해, 모델은 먼저 현재 구성에서 학습된 상호작용 원시의 조합을 식별한 다음 미래 상태를 합성합니다
- 견고성 향상: 기본 구성 요소를 습득함으로써, 모델은 훈련 중 명시적으로 본 적 없는 상호작용 조합에 대해서도 복잡한 시나리오 동역학을 일관되게 예측할 수 있습니다
인코더-상호작용-예측 구조의 다중 입력 Transformer 네트워크를 채택합니다:
- 다중 모달 입력 인코딩:
- 과거 에이전트 궤적: Ht−Thist+1:t∈RN×Thist×6
- 에이전트 정적 속성: As∈RN×6
- 경로 정보: Mr∈RNR×DR
- 신호등 상태: Md∈RThist×NL×3
- 이중 교차 주의 모듈: 에이전트 특징과 시나리오 컨텍스트 특징을 결합하여 환경 인식 강화 에이전트 특징을 생성합니다
- Transformer 상호작용 네트워크: 복잡한 에이전트 간 의존성을 모델링합니다
- 전문화된 예측 헤드: 다양한 에이전트 유형에 대해 미래 운동학 상태 분포 매개변수를 예측합니다
- 데이터 규모: 약 700시간 녹화 데이터, 실험에 사용된 부분집합 23.6시간
- 데이터 특성: 212,344 프레임(2.5Hz), 56,578개 고유 에이전트 인스턴스
- 에이전트 분포: 자동차 54.2%, 비자동차 43.3%, 보행자 2.5%
- 시나리오 특성: 높은 에이전트 밀도, TTC 분포 피크 약 2초, 높은 위험 상호작용 체현
- ADE(평균 변위 오차): Average Displacement Error
- FDE(최종 변위 오차): Final Displacement Error
- Missing Rate: 에이전트 소실률
- Collapse Time: 시뮬레이션 붕괴 시간
- 하드웨어: 단일 NVIDIA RTX 4090 GPU
- 과거 길이: Thist=10
- 예측 범위: Tpred=10
- 데이터 증강: 평행이동, 회전, 변위, 궤적 오류 주입
- 폐루프 시뮬레이션: 자기회귀 실행, 1 프레임 스텝
모든 IDS 기반 모델은 기준선 방법을 능가하며, 전략의 전반적 효과를 검증합니다:
| 방법 | 참여자 유형 | ADE↓ | FDE↓ | Missing Rate↓ |
|---|
| IDS 없음 | 자동차 | 0.9047 | 1.6526 | 0.2086 |
| IDS 없음 | 비자동차 | 1.2864 | 2.4415 | 0.4553 |
| IDS 없음 | 보행자 | 1.2197 | 2.0536 | 0.3732 |
| IDS(TTC=1s) | 자동차 | 0.6693 | 1.2496 | 0.1750 |
| IDS(TTC=1s) | 비자동차 | 0.9869 | 1.9694 | 0.3310 |
| IDS(TTC=1s) | 보행자 | 1.0086 | 1.6150 | 0.2386 |
- TTC 임계값 민감도: 0s, 1s, 2s, 4s 임계값 테스트, 1s 임계값이 최적 균형 달성
- 주의 메커니즘 비교: 이중 교차 주의가 단일 교차 주의 변형보다 우수
- 장기 안정성: IDS가 붕괴 시간을 현저히 개선(895s vs 15s)
시뮬레이션과 실제 데이터의 속도 분포 및 최근거리 분포를 비교하여 모델이 분포 수준 도시 교통 동역학 복제 능력을 검증합니다.
세 가지 전형적인 상호작용 시나리오를 제시합니다:
- 비자동차 신호 위반 후 감속 만남
- 자동차 양보 감속
- 자동차 우회전 시 비자동차 흐름 빠른 통과
기존 데이터셋(Waymo, nuScenes, Argoverse 등)은 규모가 크고 가치가 있지만, 복잡한 도시 교차로 밀집 상호작용 표현 측면에서 한계가 있습니다.
- 규칙 기반: SUMO, VISSIM 등, 사전 정의된 매개변수에 의존하며 실제 운전 행동의 다양성을 재현하기 어렵습니다
- 데이터 기반:
- 에이전트 중심 방법: 개별 행동을 학습하지만 효율성이 낮고 복잡한 상호작용 조정이 어렵습니다
- 시나리오 수준 방법: 전체 시나리오의 다음 상태를 직접 출력하지만 고차원 분포 학습 과제에 직면합니다
- CiCross 데이터셋은 복잡한 도시 교차로의 이질적 상호작용 특성을 성공적으로 포착합니다
- IDS 전략은 고차원 결합 분포 학습의 과제를 효과적으로 해결합니다
- IntersectioNDE는 시뮬레이션 충실도, 안정성 및 분포 복제 능력 측면에서 기준선 방법을 현저히 능가합니다
- 데이터셋 지역성: 주로 중국 도시 교차로를 기반으로 하며 지역 편향이 있을 수 있습니다
- 계산 복잡도: Transformer 아키텍처의 대규모 시나리오에서의 계산 오버헤드
- 상호작용 정의: TTC 기반 상호작용 그룹화는 복잡한 상호작용 패턴을 과도하게 단순화할 수 있습니다
- 장기 평가: 안정성이 향상되었지만 초장기 시뮬레이션 성능은 여전히 검증이 필요합니다
- 더 많은 지역 및 교통 패턴으로 확장
- 계산 효율성 최적화
- 더 정교한 상호작용 모델링 방법 탐색
- 더 많은 센서 모달리티 통합
- 문제 지향성 강함: 중국 등 국가의 복잡한 도시 교통의 실제 요구에 초점
- 방법 혁신성 높음: IDS 전략이 고차원 분포 학습 문제를 교묘하게 해결
- 데이터셋 가치 큼: CiCross가 밀집된 이질적 상호작용 데이터의 공백을 채움
- 실험 충분함: 상세한 제거 실험 및 사례 분석 포함
- 실용성 강함: 장기 시뮬레이션 안정성을 현저히 개선
- 이론적 분석 부족: IDS 전략의 이론적 수렴성 분석 부재
- 비교 범위 제한: 주로 자체 구축 기준선과 비교하며 다른 SOTA 방법과의 비교 부족
- 일반화 능력 미지수: 단일 교차로 데이터에서만 검증되었으며 교차 시나리오 일반화 능력 미검증
- 계산 오버헤드 미보고: 훈련 및 추론 시간의 상세 분석 부재
- 학술적 기여: 복잡한 도시 교통 시뮬레이션을 위한 새로운 해결 방안 제시
- 실용적 가치: 복잡한 도시 환경에서 자동주행 시스템 검증에 중요한 의미
- 데이터 기여: CiCross 데이터셋이 관련 연구 발전을 촉진할 수 있음
- 재현성: 방법 설명이 명확하여 재현성이 우수함
- 도시 교차로 시뮬레이션: 특히 고밀도, 다중 유형 에이전트 상호작용 시나리오에 적합
- 자동주행 테스트: 복잡한 도시 환경에서 AV 시스템의 안전 검증을 위한 도구 제공
- 교통 계획: 도시 교통 흐름 분석 및 최적화에 활용 가능
- 연구 플랫폼: 교통 행동 모델링 연구를 위한 기초 플랫폼 제공
논문은 교통 시뮬레이션, 자동주행, 심층 학습 등 분야의 중요한 연구를 인용하며, Waymo 데이터셋, NeuralNDE, 다양한 Transformer 아키텍처 등을 포함하여 관련 분야에 대한 포괄적 이해와 깊이 있는 사고를 반영합니다.