2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.
Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
academic

IntersectioNDE: Aprendizaje de Dinámicas Complejas del Tráfico Urbano basado en Estrategia de Desacoplamiento de Interacciones

Información Básica

  • ID del Artículo: 2510.11534
  • Título: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
  • Autores: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (Universidad Tsinghua)
  • Clasificación: cs.RO (Robótica), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
  • Fecha de Publicación: 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.11534

Resumen

La simulación realista del tráfico es fundamental para garantizar la seguridad y confiabilidad de los vehículos autónomos (AV), particularmente en entornos complejos y diversos de tráfico urbano. Sin embargo, los simuladores impulsados por datos existentes enfrentan dos desafíos críticos: cobertura limitada en el modelado de interacciones heterogéneas densas en intersecciones urbanas, y dificultades inherentes en el aprendizaje robusto de distribuciones conjuntas de alta dimensión en escenarios de alta densidad. Este artículo introduce el Conjunto de Datos de Cruces Urbanos (CiCross), un conjunto de datos a gran escala recopilado de intersecciones urbanas reales que captura de manera única interacciones multiagente heterogéneas densas. Basándose en este conjunto de datos, se propone IntersectioNDE, un simulador impulsado por datos para escenarios complejos de intersecciones urbanas, cuyo componente central es la Estrategia de Desacoplamiento de Interacciones (IDS), que permite aprender dinámicas composicionales desde subconjuntos de agentes, realizando simulación de marginal a conjunta.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la simulación de tráfico de alta fidelidad en intersecciones urbanas complejas, particularmente en escenarios con interacciones heterogéneas densas que incluyen vehículos motorizados (MVs), vehículos no motorizados (NMVs) y peatones.

Importancia del Problema

  1. Necesidad de Verificación de Seguridad en Conducción Autónoma: Las pruebas de simulación se adoptan ampliamente por su escalabilidad, rentabilidad y capacidad para explorar casos extremos críticos para la seguridad
  2. Desafíos del Entorno Urbano Complejo: Las intersecciones urbanas en países como China presentan patrones de tráfico densos y heterogéneos que los métodos existentes tienen dificultades para modelar efectivamente
  3. Valor Práctico: La simulación precisa del tráfico es crítica para el despliegue seguro de sistemas AV

Limitaciones de Métodos Existentes

  1. Cobertura de Escenarios Insuficiente: Los simuladores impulsados por datos existentes tienen cobertura limitada en el modelado de interacciones heterogéneas densas en intersecciones urbanas
  2. Desafíos Técnicos: El aprendizaje directo de distribuciones conjuntas de alta dimensión en escenas completas presenta dificultades inherentes, frecuentemente resultando en colapso de modos e inestabilidad en simulación a largo plazo
  3. Limitaciones de Conjuntos de Datos: Los conjuntos de datos existentes carecen de representación suficiente de interacciones densas entre MVs, NMVs y peatones

Motivación de la Investigación

Desarrollar un sistema de simulación de tráfico que pueda modelar robustamente interacciones heterogéneas y mantener estabilidad a largo plazo, dirigido a las necesidades especiales de entornos de tráfico urbano complejo en países como China.

Contribuciones Principales

  1. Propuesta del Conjunto de Datos CiCross: Conjunto de datos a gran escala de intersecciones urbanas reales que captura de manera única interacciones multiagente heterogéneas densas
  2. Diseño del Simulador IntersectioNDE: Simulador de escena a nivel impulsado por datos especializado para escenarios complejos de intersecciones urbanas
  3. Innovación de la Estrategia de Desacoplamiento de Interacciones (IDS): Paradigma de entrenamiento que realiza simulación de marginal a conjunta mediante el aprendizaje de dinámicas composicionales desde subconjuntos de agentes
  4. Construcción de Red Transformer Consciente de Escenas: Integración de técnicas de entrenamiento especializadas que mejoran significativamente la robustez y estabilidad a largo plazo de la simulación

Explicación Detallada del Método

Definición de la Tarea

La tarea de simulación de tráfico se modela como aprendizaje de un modelo generativo capaz de producir estados de escenas futuras realistas dentro del horizonte de predicción TpredT_{pred}.

Sea Aτ={a1,...,aNτ}A_τ = \{a_1, ..., a_{N_τ}\} el conjunto de NτN_τ agentes presentes en el momento ττ. El estado del agente aja_j en el momento ττ es sj,τSagents_{j,τ} ∈ S_{agent}. La instancia de escena completa GτG_τ contiene estados de agentes SτS_τ, información de mapa estático MM y estado dinámico de semáforos LτL_τ.

El objetivo es aprender la distribución de probabilidad condicional: Pdata(Gt+1:t+TpredGtThist+1:t)P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})

Estrategia de Desacoplamiento de Interacciones (IDS)

Proceso de Entrenamiento de IDS

  1. Agrupación de Agentes: Partición del conjunto de agentes AtA_t en kk grupos de interacción disjuntos basada en criterios espaciales y de comportamiento predefinidos (como TTC): At={At,1,At,2,...,At,k}A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}
  2. Muestreo de Subconjuntos: Muestreo aleatorio de subconjunto de índices de grupos I{1,...,k}I ⊆ \{1, ..., k\}, construyendo instancias de escena que contienen agentes muestreados
  3. Aprendizaje de Probabilidad Condicional: Entrenamiento del modelo de red neuronal FθF_θ para predecir la distribución de probabilidad condicional de instancias de escena futuras muestreadas: Pmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)
  4. Objetivo de Entrenamiento: Minimización de la verosimilitud logarítmica negativa esperada: L(θ)=EG^DdataEIPsample(I)[logPmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)]L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]

Simulación de Marginal a Conjunta

En la fase de inferencia, el modelo realiza predicción de escena parcial a completa mediante el siguiente mecanismo:

  1. Aprendizaje de Primitivas de Interacción: El entrenamiento con IDS permite que el modelo adquiera un conjunto diverso de primitivas de interacción condicionales P={p1,p2,...,pL}P = \{p_1, p_2, ..., p_L\}
  2. Identificación y Síntesis de Primitivas: Para cualquier escena GtG_t, el modelo primero identifica la combinación de primitivas de interacción aprendidas en la configuración actual, luego sintetiza sus estados futuros
  3. Mejora de Robustez: Al dominar bloques de construcción fundamentales, el modelo puede predecir coherentemente dinámicas de escenas complejas, incluso para combinaciones de interacción no vistas explícitamente durante el entrenamiento

Arquitectura de Red

Transformer de Interacción Consciente de Escenas

Red Transformer multiinsumo con estructura codificador-interacción-predicción:

  1. Codificación Multimodal de Entrada:
    • Trayectorias históricas de agentes: HtThist+1:tRN×Thist×6H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}
    • Atributos estáticos de agentes: AsRN×6A_s ∈ R^{N×6}
    • Información de rutas: MrRNR×DRM_r ∈ R^{N_R×D_R}
    • Estado de semáforos: MdRThist×NL×3M_d ∈ R^{T_{hist}×N_L×3}
  2. Módulo de Atención Cruzada Dual: Combinación de características de agentes con características de contexto de escena, produciendo características de agentes mejoradas conscientes del entorno
  3. Red de Interacción Transformer: Modelado de relaciones complejas de dependencia entre agentes
  4. Cabezas de Predicción Especializadas: Predicción de parámetros de distribución de estados cinemáticos futuros para diferentes clases de agentes

Configuración Experimental

Conjunto de Datos CiCross

  • Escala de Datos: Aproximadamente 700 horas de datos grabados, experimentos utilizan subconjunto de 23.6 horas
  • Características de Datos: 212,344 fotogramas (2.5Hz), 56,578 instancias de agentes únicos
  • Distribución de Agentes: 54.2% vehículos motorizados, 43.3% vehículos no motorizados, 2.5% peatones
  • Características de Escena: Densidad alta de agentes, distribución de TTC con pico aproximadamente 2 segundos, reflejando interacciones de alto riesgo

Métricas de Evaluación

  • ADE (Error de Desplazamiento Promedio): Error de desplazamiento promedio
  • FDE (Error de Desplazamiento Final): Error de desplazamiento final
  • Missing Rate: Tasa de desaparición de agentes
  • Collapse Time: Tiempo de colapso de simulación

Detalles de Implementación

  • Hardware: GPU NVIDIA RTX 4090 único
  • Longitud histórica: Thist=10T_{hist} = 10
  • Rango de predicción: Tpred=10T_{pred} = 10
  • Aumento de datos: Traslación, rotación, desplazamiento, inyección de error de trayectoria
  • Simulación en bucle cerrado: Ejecución autorregresiva, paso de 1 fotograma

Resultados Experimentales

Resultados Principales

Todos los modelos basados en IDS superan a los métodos de referencia, validando la efectividad general de la estrategia:

MétodoTipo de ParticipanteADE↓FDE↓Missing Rate↓
Sin IDSVehículos Motorizados0.90471.65260.2086
Sin IDSVehículos No Motorizados1.28642.44150.4553
Sin IDSPeatones1.21972.05360.3732
IDS(TTC=1s)Vehículos Motorizados0.66931.24960.1750
IDS(TTC=1s)Vehículos No Motorizados0.98691.96940.3310
IDS(TTC=1s)Peatones1.00861.61500.2386

Experimentos de Ablación

  1. Sensibilidad del Umbral TTC: Prueba de umbrales 0s, 1s, 2s, 4s, logrando el mejor equilibrio con umbral de 1s
  2. Comparación de Mecanismos de Atención: Atención cruzada dual superior a variantes de atención cruzada única
  3. Estabilidad a Largo Plazo: IDS mejora significativamente el tiempo de colapso (895s vs 15s)

Evaluación de Fidelidad de Distribución

Mediante comparación de distribuciones de velocidad y distribuciones de distancia más cercana entre simulación y datos reales, se verifica la capacidad del modelo en replicar dinámicas de tráfico urbano a nivel de distribución.

Análisis de Casos

Demostración de tres escenarios de interacción típicos:

  1. Vehículo no motorizado cruzando en rojo encontrando obstrucción y desaceleración
  2. Vehículo motorizado cediendo paso y desaceleración
  3. Vehículo motorizado girando a la derecha encontrando flujo de vehículos no motorizados y pasando rápidamente

Trabajo Relacionado

Conjuntos de Datos de Tráfico

Aunque los conjuntos de datos existentes (Waymo, nuScenes, Argoverse, etc.) son de gran escala y valiosos, presentan limitaciones en la representación de interacciones densas en intersecciones urbanas complejas.

Métodos de Simulación de Tráfico

  • Basados en Reglas: SUMO, VISSIM, etc., dependientes de parámetros predefinidos, difíciles de reproducir la diversidad del comportamiento de conducción real
  • Impulsados por Datos:
    • Métodos centrados en agentes: Aprendizaje de comportamiento individual, pero baja eficiencia y dificultad en coordinar interacciones complejas
    • Métodos a nivel de escena: Salida directa del siguiente estado de escena completa, pero enfrentando desafíos en aprendizaje de distribuciones de alta dimensión

Conclusiones y Discusión

Conclusiones Principales

  1. El conjunto de datos CiCross captura exitosamente características de interacción heterogénea en intersecciones urbanas complejas
  2. La estrategia IDS resuelve efectivamente el desafío del aprendizaje de distribuciones conjuntas de alta dimensión
  3. IntersectioNDE supera significativamente a métodos de referencia en fidelidad de simulación, estabilidad y capacidad de replicación de distribuciones

Limitaciones

  1. Geografía del Conjunto de Datos: Basado principalmente en intersecciones urbanas de China, posible sesgo geográfico
  2. Complejidad Computacional: Sobrecarga computacional de la arquitectura Transformer en escenas a gran escala
  3. Definición de Interacción: Agrupación de interacción basada en TTC puede ser excesivamente simplificada para patrones de interacción complejos
  4. Evaluación a Largo Plazo: Aunque se mejora la estabilidad, el desempeño de simulación a muy largo plazo requiere validación adicional

Direcciones Futuras

  1. Extensión a más geografías y patrones de tráfico
  2. Optimización de eficiencia computacional
  3. Exploración de métodos de modelado de interacción más refinados
  4. Integración de modalidades de sensores adicionales

Evaluación Profunda

Fortalezas

  1. Especificidad del Problema Fuerte: Enfoque en necesidades reales de tráfico urbano complejo en países como China
  2. Innovación de Método Alta: Estrategia IDS resuelve ingeniosamente el problema de aprendizaje de distribuciones de alta dimensión
  3. Valor del Conjunto de Datos Grande: CiCross llena el vacío de datos de interacciones heterogéneas densas
  4. Experimentación Completa: Incluye experimentos de ablación detallados y análisis de casos
  5. Practicidad Fuerte: Mejora significativa en estabilidad de simulación a largo plazo

Insuficiencias

  1. Análisis Teórico Insuficiente: Falta análisis de convergencia teórica de la estrategia IDS
  2. Rango de Comparación Limitado: Principalmente comparación con líneas base autoconstruidas, falta comparación con otros métodos SOTA
  3. Capacidad de Generalización Desconocida: Validación solo en datos de intersección única, capacidad de generalización entre escenas por verificar
  4. Costo Computacional No Reportado: Falta análisis detallado de tiempo de entrenamiento e inferencia

Impacto

  1. Contribución Académica: Proporciona nuevo enfoque de solución para simulación de tráfico urbano complejo
  2. Valor Práctico: Significancia importante para verificación de seguridad de sistemas AV en entornos urbanos complejos
  3. Contribución de Datos: El conjunto de datos CiCross puede promover desarrollo de investigación relacionada
  4. Reproducibilidad: Descripción clara del método, buena reproducibilidad

Escenarios Aplicables

  1. Simulación de Intersecciones Urbanas: Particularmente adecuado para escenarios de alta densidad con interacciones multiagente heterogéneas
  2. Pruebas de Conducción Autónoma: Proporciona herramientas para verificación de seguridad de sistemas AV en entornos urbanos complejos
  3. Planificación de Tráfico: Puede utilizarse para análisis de flujo de tráfico urbano y optimización
  4. Plataforma de Investigación: Proporciona plataforma base para investigación de modelado de comportamiento de tráfico

Referencias

El artículo cita trabajos importantes en campos de simulación de tráfico, conducción autónoma y aprendizaje profundo, incluyendo conjunto de datos Waymo, NeuralNDE, varias arquitecturas Transformer, etc., reflejando comprensión integral y pensamiento profundo en campos relacionados.