Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
academic- 论文ID: 2510.11534
- 标题: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
- 作者: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (清华大学)
- 分类: cs.RO (机器人学), cs.SY (系统与控制), eess.SY (系统与控制)
- 发表时间: 2025年10月13日
- 论文链接: https://arxiv.org/abs/2510.11534
现实的交通仿真对确保自动驾驶汽车(AV)的安全性和可靠性至关重要,特别是在复杂多样的城市交通环境中。然而,现有的数据驱动仿真器面临两个关键挑战:对城市交叉口密集异构交互建模的关注有限,以及在高密度场景中稳健学习高维联合分布的固有困难。本文引入了City Crossings Dataset (CiCross),这是一个从真实城市交叉口收集的大规模数据集,独特地捕获了密集的异构多智能体交互。基于该数据集,提出了IntersectioNDE,一个针对复杂城市交叉口场景的数据驱动仿真器,其核心组件是交互解耦策略(IDS),能够从智能体子集学习组合动力学,实现边际到联合的仿真。
该研究要解决的核心问题是复杂城市交叉口的高保真交通仿真,特别是包含机动车(MVs)、非机动车(NMVs)和行人的密集异构交互场景。
- 自动驾驶安全验证需求:仿真测试因其可扩展性、成本效益和探索安全关键边缘案例的能力而被广泛采用
- 复杂城市环境挑战:中国等国家的城市交叉口呈现密集、异构的交通模式,现有方法难以有效建模
- 实用价值:准确的交通仿真对AV系统的安全部署具有关键意义
- 场景覆盖不足:现有数据驱动仿真器对密集异构城市交叉口交互的建模关注有限
- 技术挑战:直接学习全场景高维联合分布存在固有困难,常导致模式坍塌和长期仿真不稳定性
- 数据集限制:现有数据集缺乏对MVs、NMVs和行人密集交互的充分表示
针对中国等国家复杂城市交通环境的特殊需求,开发能够稳健建模异构交互并保持长期稳定性的交通仿真系统。
- 提出了CiCross数据集:大规模真实城市交叉口数据集,独特地捕获了密集异构多智能体交互
- 设计了IntersectioNDE仿真器:专门针对复杂城市交叉口场景的数据驱动场景级仿真器
- 创新了交互解耦策略(IDS):通过从智能体子集学习组合动力学,实现边际到联合仿真的训练范式
- 构建了场景感知Transformer网络:集成专门训练技术,显著增强仿真鲁棒性和长期稳定性
交通仿真任务被建模为学习生成模型,能够在预测时间范围Tpred内产生现实的未来场景状态。
设Aτ={a1,...,aNτ}为时刻τ存在的Nτ个智能体集合。智能体aj在时刻τ的状态为sj,τ∈Sagent。完整场景实例Gτ包含智能体状态Sτ、静态地图信息M和动态交通灯状态Lτ。
目标是学习条件概率分布:
Pdata(Gt+1:t+Tpred∣Gt−Thist+1:t)
- 智能体分组:基于预定义的空间和行为标准(如TTC)将智能体集合At划分为k个不相交的交互组:
At={At,1,At,2,...,At,k}
- 子集采样:随机采样组索引子集I⊆{1,...,k},构建包含采样智能体的场景实例
- 条件概率学习:训练神经网络模型Fθ预测采样未来场景实例的条件概率分布:
Pmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)
- 训练目标:最小化期望负对数似然:
L(θ)=−EG^∼DdataEI∼Psample(I)[logPmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)]
在推理阶段,模型通过以下机制实现从部分到完整场景的预测:
- 交互原语学习:IDS训练使模型获得多样的条件交互原语集合P={p1,p2,...,pL}
- 原语识别与合成:对于任意场景Gt,模型首先识别当前配置中的学习交互原语组合,然后合成其未来状态
- 鲁棒性增强:通过掌握基本构建块,模型能够连贯预测复杂场景动力学,即使对于训练中未明确见过的交互组合
采用编码器-交互-预测结构的多输入Transformer网络:
- 多模态输入编码:
- 历史智能体轨迹:Ht−Thist+1:t∈RN×Thist×6
- 智能体静态属性:As∈RN×6
- 路线信息:Mr∈RNR×DR
- 交通灯状态:Md∈RThist×NL×3
- 双交叉注意力模块:结合智能体特征与场景上下文特征,产生环境感知的增强智能体特征
- Transformer交互网络:建模复杂的智能体间依赖关系
- 专用预测头:针对不同智能体类别预测未来运动学状态分布参数
- 数据规模:约700小时录制数据,实验使用23.6小时子集
- 数据特征:212,344帧(2.5Hz),56,578个独特智能体实例
- 智能体分布:54.2%机动车,43.3%非机动车,2.5%行人
- 场景特点:高智能体密度,TTC分布峰值约2秒,体现高风险交互
- ADE(Average Displacement Error):平均位移误差
- FDE(Final Displacement Error):最终位移误差
- Missing Rate:智能体消失率
- Collapse Time:仿真坍塌时间
- 硬件:单个NVIDIA RTX 4090 GPU
- 历史长度:Thist=10
- 预测范围:Tpred=10
- 数据增强:平移、旋转、位移、轨迹误差注入
- 闭环仿真:自回归执行,1帧步长
所有基于IDS的模型均优于基线方法,验证了策略的整体有效性:
| 方法 | 参与者类型 | ADE↓ | FDE↓ | Missing Rate↓ |
|---|
| 无IDS | 机动车 | 0.9047 | 1.6526 | 0.2086 |
| 无IDS | 非机动车 | 1.2864 | 2.4415 | 0.4553 |
| 无IDS | 行人 | 1.2197 | 2.0536 | 0.3732 |
| IDS(TTC=1s) | 机动车 | 0.6693 | 1.2496 | 0.1750 |
| IDS(TTC=1s) | 非机动车 | 0.9869 | 1.9694 | 0.3310 |
| IDS(TTC=1s) | 行人 | 1.0086 | 1.6150 | 0.2386 |
- TTC阈值敏感性:测试0s、1s、2s、4s阈值,1s阈值达到最佳平衡
- 注意力机制对比:双交叉注意力优于单交叉注意力变体
- 长期稳定性:IDS显著提升坍塌时间(895s vs 15s)
通过比较仿真与真实数据的速度分布和最近距离分布,验证了模型在复制分布级别城市交通动力学方面的能力。
展示了三种典型交互场景:
- 非机动车闯红灯遇阻减速
- 机动车礼让减速
- 机动车右转遇非机动车流快速通过
现有数据集(Waymo、nuScenes、Argoverse等)虽然规模大且有价值,但在复杂城市交叉口密集交互表示方面存在局限。
- 基于规则:SUMO、VISSIM等,依赖预定义参数,难以重现真实驾驶行为多样性
- 数据驱动:
- 智能体中心方法:学习个体行为,但效率低且难以协调复杂交互
- 场景级方法:直接输出整个场景下一状态,但面临高维分布学习挑战
- CiCross数据集成功捕获了复杂城市交叉口的异构交互特征
- IDS策略有效解决了高维联合分布学习的挑战
- IntersectioNDE在仿真保真度、稳定性和分布复制能力方面显著优于基线方法
- 数据集地域性:主要基于中国城市交叉口,可能存在地域偏差
- 计算复杂度:Transformer架构在大规模场景中的计算开销
- 交互定义:基于TTC的交互分组可能过于简化复杂的交互模式
- 长期评估:虽然提升了稳定性,但超长期仿真表现仍需验证
- 扩展到更多地域和交通模式
- 优化计算效率
- 探索更精细的交互建模方法
- 集成更多传感器模态
- 问题针对性强:聚焦中国等国家复杂城市交通的实际需求
- 方法创新性高:IDS策略巧妙解决了高维分布学习难题
- 数据集价值大:CiCross填补了密集异构交互数据的空白
- 实验充分:包含详细的消融实验和案例分析
- 实用性强:显著提升了长期仿真稳定性
- 理论分析不足:缺乏IDS策略的理论收敛性分析
- 对比范围有限:主要与自建基线对比,缺乏与其他SOTA方法的比较
- 泛化能力未知:仅在单一交叉口数据上验证,跨场景泛化能力有待验证
- 计算开销未报告:缺乏训练和推理时间的详细分析
- 学术贡献:为复杂城市交通仿真提供了新的解决思路
- 实用价值:对自动驾驶系统在复杂城市环境中的验证具有重要意义
- 数据贡献:CiCross数据集可促进相关研究发展
- 可复现性:方法描述清晰,具有较好的可复现性
- 城市交叉口仿真:特别适用于高密度、多类型智能体交互场景
- 自动驾驶测试:为AV系统在复杂城市环境中的安全验证提供工具
- 交通规划:可用于城市交通流分析和优化
- 研究平台:为交通行为建模研究提供基础平台
论文引用了交通仿真、自动驾驶、深度学习等领域的重要工作,包括Waymo数据集、NeuralNDE、各类Transformer架构等,体现了对相关领域的全面了解和深入思考。