2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.

Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.

academic

IntersectioNDE: Aprendizaje de Dinámicas Complejas del Tráfico Urbano basado en Estrategia de Desacoplamiento de Interacciones

Información Básica

ID del Artículo: 2510.11534
Título: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
Autores: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (Universidad Tsinghua)
Clasificación: cs.RO (Robótica), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.11534

Resumen

La simulación realista del tráfico es fundamental para garantizar la seguridad y confiabilidad de los vehículos autónomos (AV), particularmente en entornos complejos y diversos de tráfico urbano. Sin embargo, los simuladores impulsados por datos existentes enfrentan dos desafíos críticos: cobertura limitada en el modelado de interacciones heterogéneas densas en intersecciones urbanas, y dificultades inherentes en el aprendizaje robusto de distribuciones conjuntas de alta dimensión en escenarios de alta densidad. Este artículo introduce el Conjunto de Datos de Cruces Urbanos (CiCross), un conjunto de datos a gran escala recopilado de intersecciones urbanas reales que captura de manera única interacciones multiagente heterogéneas densas. Basándose en este conjunto de datos, se propone IntersectioNDE, un simulador impulsado por datos para escenarios complejos de intersecciones urbanas, cuyo componente central es la Estrategia de Desacoplamiento de Interacciones (IDS), que permite aprender dinámicas composicionales desde subconjuntos de agentes, realizando simulación de marginal a conjunta.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la simulación de tráfico de alta fidelidad en intersecciones urbanas complejas, particularmente en escenarios con interacciones heterogéneas densas que incluyen vehículos motorizados (MVs), vehículos no motorizados (NMVs) y peatones.

Importancia del Problema

Necesidad de Verificación de Seguridad en Conducción Autónoma: Las pruebas de simulación se adoptan ampliamente por su escalabilidad, rentabilidad y capacidad para explorar casos extremos críticos para la seguridad
Desafíos del Entorno Urbano Complejo: Las intersecciones urbanas en países como China presentan patrones de tráfico densos y heterogéneos que los métodos existentes tienen dificultades para modelar efectivamente
Valor Práctico: La simulación precisa del tráfico es crítica para el despliegue seguro de sistemas AV

Limitaciones de Métodos Existentes

Cobertura de Escenarios Insuficiente: Los simuladores impulsados por datos existentes tienen cobertura limitada en el modelado de interacciones heterogéneas densas en intersecciones urbanas
Desafíos Técnicos: El aprendizaje directo de distribuciones conjuntas de alta dimensión en escenas completas presenta dificultades inherentes, frecuentemente resultando en colapso de modos e inestabilidad en simulación a largo plazo
Limitaciones de Conjuntos de Datos: Los conjuntos de datos existentes carecen de representación suficiente de interacciones densas entre MVs, NMVs y peatones

Motivación de la Investigación

Desarrollar un sistema de simulación de tráfico que pueda modelar robustamente interacciones heterogéneas y mantener estabilidad a largo plazo, dirigido a las necesidades especiales de entornos de tráfico urbano complejo en países como China.

Contribuciones Principales

Propuesta del Conjunto de Datos CiCross: Conjunto de datos a gran escala de intersecciones urbanas reales que captura de manera única interacciones multiagente heterogéneas densas
Diseño del Simulador IntersectioNDE: Simulador de escena a nivel impulsado por datos especializado para escenarios complejos de intersecciones urbanas
Innovación de la Estrategia de Desacoplamiento de Interacciones (IDS): Paradigma de entrenamiento que realiza simulación de marginal a conjunta mediante el aprendizaje de dinámicas composicionales desde subconjuntos de agentes
Construcción de Red Transformer Consciente de Escenas: Integración de técnicas de entrenamiento especializadas que mejoran significativamente la robustez y estabilidad a largo plazo de la simulación

Explicación Detallada del Método

Definición de la Tarea

La tarea de simulación de tráfico se modela como aprendizaje de un modelo generativo capaz de producir estados de escenas futuras realistas dentro del horizonte de predicción $T_{pred}$ .

Sea $A_τ = \{a_1, ..., a_{N_τ}\}$ el conjunto de $N_τ$ agentes presentes en el momento $τ$ . El estado del agente $a_j$ en el momento $τ$ es $s_{j,τ} ∈ S_{agent}$ . La instancia de escena completa $G_τ$ contiene estados de agentes $S_τ$ , información de mapa estático $M$ y estado dinámico de semáforos $L_τ$ .

El objetivo es aprender la distribución de probabilidad condicional: $P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})$

Estrategia de Desacoplamiento de Interacciones (IDS)

Proceso de Entrenamiento de IDS

Agrupación de Agentes: Partición del conjunto de agentes $A_t$ en $k$ grupos de interacción disjuntos basada en criterios espaciales y de comportamiento predefinidos (como TTC): $A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}$
Muestreo de Subconjuntos: Muestreo aleatorio de subconjunto de índices de grupos $I ⊆ \{1, ..., k\}$ , construyendo instancias de escena que contienen agentes muestreados
Aprendizaje de Probabilidad Condicional: Entrenamiento del modelo de red neuronal $F_θ$ para predecir la distribución de probabilidad condicional de instancias de escena futuras muestreadas: $P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)$
Objetivo de Entrenamiento: Minimización de la verosimilitud logarítmica negativa esperada: $L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]$

Simulación de Marginal a Conjunta

En la fase de inferencia, el modelo realiza predicción de escena parcial a completa mediante el siguiente mecanismo:

Aprendizaje de Primitivas de Interacción: El entrenamiento con IDS permite que el modelo adquiera un conjunto diverso de primitivas de interacción condicionales $P = \{p_1, p_2, ..., p_L\}$
Identificación y Síntesis de Primitivas: Para cualquier escena $G_t$ , el modelo primero identifica la combinación de primitivas de interacción aprendidas en la configuración actual, luego sintetiza sus estados futuros
Mejora de Robustez: Al dominar bloques de construcción fundamentales, el modelo puede predecir coherentemente dinámicas de escenas complejas, incluso para combinaciones de interacción no vistas explícitamente durante el entrenamiento

Arquitectura de Red

Transformer de Interacción Consciente de Escenas

Red Transformer multiinsumo con estructura codificador-interacción-predicción:

Codificación Multimodal de Entrada:
- Trayectorias históricas de agentes: $H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}$
- Atributos estáticos de agentes: $A_s ∈ R^{N×6}$
- Información de rutas: $M_r ∈ R^{N_R×D_R}$
- Estado de semáforos: $M_d ∈ R^{T_{hist}×N_L×3}$
Módulo de Atención Cruzada Dual: Combinación de características de agentes con características de contexto de escena, produciendo características de agentes mejoradas conscientes del entorno
Red de Interacción Transformer: Modelado de relaciones complejas de dependencia entre agentes
Cabezas de Predicción Especializadas: Predicción de parámetros de distribución de estados cinemáticos futuros para diferentes clases de agentes

Configuración Experimental

Conjunto de Datos CiCross

Escala de Datos: Aproximadamente 700 horas de datos grabados, experimentos utilizan subconjunto de 23.6 horas
Características de Datos: 212,344 fotogramas (2.5Hz), 56,578 instancias de agentes únicos
Distribución de Agentes: 54.2% vehículos motorizados, 43.3% vehículos no motorizados, 2.5% peatones
Características de Escena: Densidad alta de agentes, distribución de TTC con pico aproximadamente 2 segundos, reflejando interacciones de alto riesgo

Métricas de Evaluación

ADE (Error de Desplazamiento Promedio): Error de desplazamiento promedio
FDE (Error de Desplazamiento Final): Error de desplazamiento final
Missing Rate: Tasa de desaparición de agentes
Collapse Time: Tiempo de colapso de simulación

Detalles de Implementación

Hardware: GPU NVIDIA RTX 4090 único
Longitud histórica: $T_{hist} = 10$
Rango de predicción: $T_{pred} = 10$
Aumento de datos: Traslación, rotación, desplazamiento, inyección de error de trayectoria
Simulación en bucle cerrado: Ejecución autorregresiva, paso de 1 fotograma

Resultados Experimentales

Resultados Principales

Todos los modelos basados en IDS superan a los métodos de referencia, validando la efectividad general de la estrategia:

Método	Tipo de Participante	ADE↓	FDE↓	Missing Rate↓
Sin IDS	Vehículos Motorizados	0.9047	1.6526	0.2086
Sin IDS	Vehículos No Motorizados	1.2864	2.4415	0.4553
Sin IDS	Peatones	1.2197	2.0536	0.3732
IDS(TTC=1s)	Vehículos Motorizados	0.6693	1.2496	0.1750
IDS(TTC=1s)	Vehículos No Motorizados	0.9869	1.9694	0.3310
IDS(TTC=1s)	Peatones	1.0086	1.6150	0.2386

Experimentos de Ablación

Sensibilidad del Umbral TTC: Prueba de umbrales 0s, 1s, 2s, 4s, logrando el mejor equilibrio con umbral de 1s
Comparación de Mecanismos de Atención: Atención cruzada dual superior a variantes de atención cruzada única
Estabilidad a Largo Plazo: IDS mejora significativamente el tiempo de colapso (895s vs 15s)

Evaluación de Fidelidad de Distribución

Mediante comparación de distribuciones de velocidad y distribuciones de distancia más cercana entre simulación y datos reales, se verifica la capacidad del modelo en replicar dinámicas de tráfico urbano a nivel de distribución.

Análisis de Casos

Demostración de tres escenarios de interacción típicos:

Vehículo no motorizado cruzando en rojo encontrando obstrucción y desaceleración
Vehículo motorizado cediendo paso y desaceleración
Vehículo motorizado girando a la derecha encontrando flujo de vehículos no motorizados y pasando rápidamente

Trabajo Relacionado

Conjuntos de Datos de Tráfico

Aunque los conjuntos de datos existentes (Waymo, nuScenes, Argoverse, etc.) son de gran escala y valiosos, presentan limitaciones en la representación de interacciones densas en intersecciones urbanas complejas.

Métodos de Simulación de Tráfico

Basados en Reglas: SUMO, VISSIM, etc., dependientes de parámetros predefinidos, difíciles de reproducir la diversidad del comportamiento de conducción real
Impulsados por Datos:
- Métodos centrados en agentes: Aprendizaje de comportamiento individual, pero baja eficiencia y dificultad en coordinar interacciones complejas
- Métodos a nivel de escena: Salida directa del siguiente estado de escena completa, pero enfrentando desafíos en aprendizaje de distribuciones de alta dimensión

Conclusiones y Discusión

Conclusiones Principales

El conjunto de datos CiCross captura exitosamente características de interacción heterogénea en intersecciones urbanas complejas
La estrategia IDS resuelve efectivamente el desafío del aprendizaje de distribuciones conjuntas de alta dimensión
IntersectioNDE supera significativamente a métodos de referencia en fidelidad de simulación, estabilidad y capacidad de replicación de distribuciones

Limitaciones

Geografía del Conjunto de Datos: Basado principalmente en intersecciones urbanas de China, posible sesgo geográfico
Complejidad Computacional: Sobrecarga computacional de la arquitectura Transformer en escenas a gran escala
Definición de Interacción: Agrupación de interacción basada en TTC puede ser excesivamente simplificada para patrones de interacción complejos
Evaluación a Largo Plazo: Aunque se mejora la estabilidad, el desempeño de simulación a muy largo plazo requiere validación adicional

Direcciones Futuras

Extensión a más geografías y patrones de tráfico
Optimización de eficiencia computacional
Exploración de métodos de modelado de interacción más refinados
Integración de modalidades de sensores adicionales

Evaluación Profunda

Fortalezas

Especificidad del Problema Fuerte: Enfoque en necesidades reales de tráfico urbano complejo en países como China
Innovación de Método Alta: Estrategia IDS resuelve ingeniosamente el problema de aprendizaje de distribuciones de alta dimensión
Valor del Conjunto de Datos Grande: CiCross llena el vacío de datos de interacciones heterogéneas densas
Experimentación Completa: Incluye experimentos de ablación detallados y análisis de casos
Practicidad Fuerte: Mejora significativa en estabilidad de simulación a largo plazo

Insuficiencias

Análisis Teórico Insuficiente: Falta análisis de convergencia teórica de la estrategia IDS
Rango de Comparación Limitado: Principalmente comparación con líneas base autoconstruidas, falta comparación con otros métodos SOTA
Capacidad de Generalización Desconocida: Validación solo en datos de intersección única, capacidad de generalización entre escenas por verificar
Costo Computacional No Reportado: Falta análisis detallado de tiempo de entrenamiento e inferencia

Impacto

Contribución Académica: Proporciona nuevo enfoque de solución para simulación de tráfico urbano complejo
Valor Práctico: Significancia importante para verificación de seguridad de sistemas AV en entornos urbanos complejos
Contribución de Datos: El conjunto de datos CiCross puede promover desarrollo de investigación relacionada
Reproducibilidad: Descripción clara del método, buena reproducibilidad

Escenarios Aplicables

Simulación de Intersecciones Urbanas: Particularmente adecuado para escenarios de alta densidad con interacciones multiagente heterogéneas
Pruebas de Conducción Autónoma: Proporciona herramientas para verificación de seguridad de sistemas AV en entornos urbanos complejos
Planificación de Tráfico: Puede utilizarse para análisis de flujo de tráfico urbano y optimización
Plataforma de Investigación: Proporciona plataforma base para investigación de modelado de comportamiento de tráfico

Referencias

El artículo cita trabajos importantes en campos de simulación de tráfico, conducción autónoma y aprendizaje profundo, incluyendo conjunto de datos Waymo, NeuralNDE, varias arquitecturas Transformer, etc., reflejando comprensión integral y pensamiento profundo en campos relacionados.