2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.

Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.

academic

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

基本信息

论文ID: 2510.11534
标题: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
作者: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (清华大学)
分类: cs.RO (机器人学), cs.SY (系统与控制), eess.SY (系统与控制)
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.11534

摘要

现实的交通仿真对确保自动驾驶汽车(AV)的安全性和可靠性至关重要，特别是在复杂多样的城市交通环境中。然而，现有的数据驱动仿真器面临两个关键挑战：对城市交叉口密集异构交互建模的关注有限，以及在高密度场景中稳健学习高维联合分布的固有困难。本文引入了City Crossings Dataset (CiCross)，这是一个从真实城市交叉口收集的大规模数据集，独特地捕获了密集的异构多智能体交互。基于该数据集，提出了IntersectioNDE，一个针对复杂城市交叉口场景的数据驱动仿真器，其核心组件是交互解耦策略(IDS)，能够从智能体子集学习组合动力学，实现边际到联合的仿真。

研究背景与动机

问题定义

该研究要解决的核心问题是复杂城市交叉口的高保真交通仿真，特别是包含机动车(MVs)、非机动车(NMVs)和行人的密集异构交互场景。

问题重要性

自动驾驶安全验证需求：仿真测试因其可扩展性、成本效益和探索安全关键边缘案例的能力而被广泛采用
复杂城市环境挑战：中国等国家的城市交叉口呈现密集、异构的交通模式，现有方法难以有效建模
实用价值：准确的交通仿真对AV系统的安全部署具有关键意义

现有方法局限性

场景覆盖不足：现有数据驱动仿真器对密集异构城市交叉口交互的建模关注有限
技术挑战：直接学习全场景高维联合分布存在固有困难，常导致模式坍塌和长期仿真不稳定性
数据集限制：现有数据集缺乏对MVs、NMVs和行人密集交互的充分表示

研究动机

针对中国等国家复杂城市交通环境的特殊需求，开发能够稳健建模异构交互并保持长期稳定性的交通仿真系统。

核心贡献

提出了CiCross数据集：大规模真实城市交叉口数据集，独特地捕获了密集异构多智能体交互
设计了IntersectioNDE仿真器：专门针对复杂城市交叉口场景的数据驱动场景级仿真器
创新了交互解耦策略(IDS)：通过从智能体子集学习组合动力学，实现边际到联合仿真的训练范式
构建了场景感知Transformer网络：集成专门训练技术，显著增强仿真鲁棒性和长期稳定性

方法详解

任务定义

交通仿真任务被建模为学习生成模型，能够在预测时间范围 $T_{pred}$ 内产生现实的未来场景状态。

设 $A_τ = \{a_1, ..., a_{N_τ}\}$ 为时刻 $τ$ 存在的 $N_τ$ 个智能体集合。智能体 $a_j$ 在时刻 $τ$ 的状态为 $s_{j,τ} ∈ S_{agent}$ 。完整场景实例 $G_τ$ 包含智能体状态 $S_τ$ 、静态地图信息 $M$ 和动态交通灯状态 $L_τ$ 。

目标是学习条件概率分布： $P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})$

交互解耦策略(IDS)

IDS训练过程

智能体分组：基于预定义的空间和行为标准(如TTC)将智能体集合 $A_t$ 划分为 $k$ 个不相交的交互组： $A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}$
子集采样：随机采样组索引子集 $I ⊆ \{1, ..., k\}$ ，构建包含采样智能体的场景实例
条件概率学习：训练神经网络模型 $F_θ$ 预测采样未来场景实例的条件概率分布： $P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)$
训练目标：最小化期望负对数似然： $L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]$

边际到联合仿真

在推理阶段，模型通过以下机制实现从部分到完整场景的预测：

交互原语学习：IDS训练使模型获得多样的条件交互原语集合 $P = \{p_1, p_2, ..., p_L\}$
原语识别与合成：对于任意场景 $G_t$ ，模型首先识别当前配置中的学习交互原语组合，然后合成其未来状态
鲁棒性增强：通过掌握基本构建块，模型能够连贯预测复杂场景动力学，即使对于训练中未明确见过的交互组合

网络架构

场景感知交互Transformer

采用编码器-交互-预测结构的多输入Transformer网络：

多模态输入编码：
- 历史智能体轨迹： $H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}$
- 智能体静态属性： $A_s ∈ R^{N×6}$
- 路线信息： $M_r ∈ R^{N_R×D_R}$
- 交通灯状态： $M_d ∈ R^{T_{hist}×N_L×3}$
双交叉注意力模块：结合智能体特征与场景上下文特征，产生环境感知的增强智能体特征
Transformer交互网络：建模复杂的智能体间依赖关系
专用预测头：针对不同智能体类别预测未来运动学状态分布参数

实验设置

CiCross数据集

数据规模：约700小时录制数据，实验使用23.6小时子集
数据特征：212,344帧(2.5Hz)，56,578个独特智能体实例
智能体分布：54.2%机动车，43.3%非机动车，2.5%行人
场景特点：高智能体密度，TTC分布峰值约2秒，体现高风险交互

评价指标

ADE(Average Displacement Error)：平均位移误差
FDE(Final Displacement Error)：最终位移误差
Missing Rate：智能体消失率
Collapse Time：仿真坍塌时间

实现细节

硬件：单个NVIDIA RTX 4090 GPU
历史长度： $T_{hist} = 10$
预测范围： $T_{pred} = 10$
数据增强：平移、旋转、位移、轨迹误差注入
闭环仿真：自回归执行，1帧步长

实验结果

主要结果

所有基于IDS的模型均优于基线方法，验证了策略的整体有效性：

方法	参与者类型	ADE↓	FDE↓	Missing Rate↓
无IDS	机动车	0.9047	1.6526	0.2086
无IDS	非机动车	1.2864	2.4415	0.4553
无IDS	行人	1.2197	2.0536	0.3732
IDS(TTC=1s)	机动车	0.6693	1.2496	0.1750
IDS(TTC=1s)	非机动车	0.9869	1.9694	0.3310
IDS(TTC=1s)	行人	1.0086	1.6150	0.2386