2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.
Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
academic

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

基本信息

  • 论文ID: 2510.11534
  • 标题: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
  • 作者: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (清华大学)
  • 分类: cs.RO (机器人学), cs.SY (系统与控制), eess.SY (系统与控制)
  • 发表时间: 2025年10月13日
  • 论文链接: https://arxiv.org/abs/2510.11534

摘要

现实的交通仿真对确保自动驾驶汽车(AV)的安全性和可靠性至关重要,特别是在复杂多样的城市交通环境中。然而,现有的数据驱动仿真器面临两个关键挑战:对城市交叉口密集异构交互建模的关注有限,以及在高密度场景中稳健学习高维联合分布的固有困难。本文引入了City Crossings Dataset (CiCross),这是一个从真实城市交叉口收集的大规模数据集,独特地捕获了密集的异构多智能体交互。基于该数据集,提出了IntersectioNDE,一个针对复杂城市交叉口场景的数据驱动仿真器,其核心组件是交互解耦策略(IDS),能够从智能体子集学习组合动力学,实现边际到联合的仿真。

研究背景与动机

问题定义

该研究要解决的核心问题是复杂城市交叉口的高保真交通仿真,特别是包含机动车(MVs)、非机动车(NMVs)和行人的密集异构交互场景。

问题重要性

  1. 自动驾驶安全验证需求:仿真测试因其可扩展性、成本效益和探索安全关键边缘案例的能力而被广泛采用
  2. 复杂城市环境挑战:中国等国家的城市交叉口呈现密集、异构的交通模式,现有方法难以有效建模
  3. 实用价值:准确的交通仿真对AV系统的安全部署具有关键意义

现有方法局限性

  1. 场景覆盖不足:现有数据驱动仿真器对密集异构城市交叉口交互的建模关注有限
  2. 技术挑战:直接学习全场景高维联合分布存在固有困难,常导致模式坍塌和长期仿真不稳定性
  3. 数据集限制:现有数据集缺乏对MVs、NMVs和行人密集交互的充分表示

研究动机

针对中国等国家复杂城市交通环境的特殊需求,开发能够稳健建模异构交互并保持长期稳定性的交通仿真系统。

核心贡献

  1. 提出了CiCross数据集:大规模真实城市交叉口数据集,独特地捕获了密集异构多智能体交互
  2. 设计了IntersectioNDE仿真器:专门针对复杂城市交叉口场景的数据驱动场景级仿真器
  3. 创新了交互解耦策略(IDS):通过从智能体子集学习组合动力学,实现边际到联合仿真的训练范式
  4. 构建了场景感知Transformer网络:集成专门训练技术,显著增强仿真鲁棒性和长期稳定性

方法详解

任务定义

交通仿真任务被建模为学习生成模型,能够在预测时间范围TpredT_{pred}内产生现实的未来场景状态。

Aτ={a1,...,aNτ}A_τ = \{a_1, ..., a_{N_τ}\}为时刻ττ存在的NτN_τ个智能体集合。智能体aja_j在时刻ττ的状态为sj,τSagents_{j,τ} ∈ S_{agent}。完整场景实例GτG_τ包含智能体状态SτS_τ、静态地图信息MM和动态交通灯状态LτL_τ

目标是学习条件概率分布: Pdata(Gt+1:t+TpredGtThist+1:t)P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})

交互解耦策略(IDS)

IDS训练过程

  1. 智能体分组:基于预定义的空间和行为标准(如TTC)将智能体集合AtA_t划分为kk个不相交的交互组: At={At,1,At,2,...,At,k}A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}
  2. 子集采样:随机采样组索引子集I{1,...,k}I ⊆ \{1, ..., k\},构建包含采样智能体的场景实例
  3. 条件概率学习:训练神经网络模型FθF_θ预测采样未来场景实例的条件概率分布: Pmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)
  4. 训练目标:最小化期望负对数似然: L(θ)=EG^DdataEIPsample(I)[logPmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)]L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]

边际到联合仿真

在推理阶段,模型通过以下机制实现从部分到完整场景的预测:

  1. 交互原语学习:IDS训练使模型获得多样的条件交互原语集合P={p1,p2,...,pL}P = \{p_1, p_2, ..., p_L\}
  2. 原语识别与合成:对于任意场景GtG_t,模型首先识别当前配置中的学习交互原语组合,然后合成其未来状态
  3. 鲁棒性增强:通过掌握基本构建块,模型能够连贯预测复杂场景动力学,即使对于训练中未明确见过的交互组合

网络架构

场景感知交互Transformer

采用编码器-交互-预测结构的多输入Transformer网络:

  1. 多模态输入编码
    • 历史智能体轨迹:HtThist+1:tRN×Thist×6H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}
    • 智能体静态属性:AsRN×6A_s ∈ R^{N×6}
    • 路线信息:MrRNR×DRM_r ∈ R^{N_R×D_R}
    • 交通灯状态:MdRThist×NL×3M_d ∈ R^{T_{hist}×N_L×3}
  2. 双交叉注意力模块:结合智能体特征与场景上下文特征,产生环境感知的增强智能体特征
  3. Transformer交互网络:建模复杂的智能体间依赖关系
  4. 专用预测头:针对不同智能体类别预测未来运动学状态分布参数

实验设置

CiCross数据集

  • 数据规模:约700小时录制数据,实验使用23.6小时子集
  • 数据特征:212,344帧(2.5Hz),56,578个独特智能体实例
  • 智能体分布:54.2%机动车,43.3%非机动车,2.5%行人
  • 场景特点:高智能体密度,TTC分布峰值约2秒,体现高风险交互

评价指标

  • ADE(Average Displacement Error):平均位移误差
  • FDE(Final Displacement Error):最终位移误差
  • Missing Rate:智能体消失率
  • Collapse Time:仿真坍塌时间

实现细节

  • 硬件:单个NVIDIA RTX 4090 GPU
  • 历史长度:Thist=10T_{hist} = 10
  • 预测范围:Tpred=10T_{pred} = 10
  • 数据增强:平移、旋转、位移、轨迹误差注入
  • 闭环仿真:自回归执行,1帧步长

实验结果

主要结果

所有基于IDS的模型均优于基线方法,验证了策略的整体有效性:

方法参与者类型ADE↓FDE↓Missing Rate↓
无IDS机动车0.90471.65260.2086
无IDS非机动车1.28642.44150.4553
无IDS行人1.21972.05360.3732
IDS(TTC=1s)机动车0.66931.24960.1750
IDS(TTC=1s)非机动车0.98691.96940.3310
IDS(TTC=1s)行人1.00861.61500.2386

消融实验

  1. TTC阈值敏感性:测试0s、1s、2s、4s阈值,1s阈值达到最佳平衡
  2. 注意力机制对比:双交叉注意力优于单交叉注意力变体
  3. 长期稳定性:IDS显著提升坍塌时间(895s vs 15s)

分布保真度评估

通过比较仿真与真实数据的速度分布和最近距离分布,验证了模型在复制分布级别城市交通动力学方面的能力。

案例分析

展示了三种典型交互场景:

  1. 非机动车闯红灯遇阻减速
  2. 机动车礼让减速
  3. 机动车右转遇非机动车流快速通过

相关工作

交通数据集

现有数据集(Waymo、nuScenes、Argoverse等)虽然规模大且有价值,但在复杂城市交叉口密集交互表示方面存在局限。

交通仿真方法

  • 基于规则:SUMO、VISSIM等,依赖预定义参数,难以重现真实驾驶行为多样性
  • 数据驱动
    • 智能体中心方法:学习个体行为,但效率低且难以协调复杂交互
    • 场景级方法:直接输出整个场景下一状态,但面临高维分布学习挑战

结论与讨论

主要结论

  1. CiCross数据集成功捕获了复杂城市交叉口的异构交互特征
  2. IDS策略有效解决了高维联合分布学习的挑战
  3. IntersectioNDE在仿真保真度、稳定性和分布复制能力方面显著优于基线方法

局限性

  1. 数据集地域性:主要基于中国城市交叉口,可能存在地域偏差
  2. 计算复杂度:Transformer架构在大规模场景中的计算开销
  3. 交互定义:基于TTC的交互分组可能过于简化复杂的交互模式
  4. 长期评估:虽然提升了稳定性,但超长期仿真表现仍需验证

未来方向

  1. 扩展到更多地域和交通模式
  2. 优化计算效率
  3. 探索更精细的交互建模方法
  4. 集成更多传感器模态

深度评价

优点

  1. 问题针对性强:聚焦中国等国家复杂城市交通的实际需求
  2. 方法创新性高:IDS策略巧妙解决了高维分布学习难题
  3. 数据集价值大:CiCross填补了密集异构交互数据的空白
  4. 实验充分:包含详细的消融实验和案例分析
  5. 实用性强:显著提升了长期仿真稳定性

不足

  1. 理论分析不足:缺乏IDS策略的理论收敛性分析
  2. 对比范围有限:主要与自建基线对比,缺乏与其他SOTA方法的比较
  3. 泛化能力未知:仅在单一交叉口数据上验证,跨场景泛化能力有待验证
  4. 计算开销未报告:缺乏训练和推理时间的详细分析

影响力

  1. 学术贡献:为复杂城市交通仿真提供了新的解决思路
  2. 实用价值:对自动驾驶系统在复杂城市环境中的验证具有重要意义
  3. 数据贡献:CiCross数据集可促进相关研究发展
  4. 可复现性:方法描述清晰,具有较好的可复现性

适用场景

  1. 城市交叉口仿真:特别适用于高密度、多类型智能体交互场景
  2. 自动驾驶测试:为AV系统在复杂城市环境中的安全验证提供工具
  3. 交通规划:可用于城市交通流分析和优化
  4. 研究平台:为交通行为建模研究提供基础平台

参考文献

论文引用了交通仿真、自动驾驶、深度学习等领域的重要工作,包括Waymo数据集、NeuralNDE、各类Transformer架构等,体现了对相关领域的全面了解和深入思考。