2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.

Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.

academic

IntersectioNDE: Lernen komplexer urbaner Verkehrsdynamiken basierend auf einer Interaktionsentkopplungsstrategie

Grundinformationen

Paper-ID: 2510.11534
Titel: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
Autoren: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (Tsinghua-Universität)
Klassifizierung: cs.RO (Robotik), cs.SY (Systeme und Steuerung), eess.SY (Systeme und Steuerung)
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.11534

Zusammenfassung

Realistische Verkehrssimulation ist entscheidend für die Gewährleistung der Sicherheit und Zuverlässigkeit von autonomen Fahrzeugen (AV), insbesondere in komplexen und vielfältigen urbanen Verkehrsumgebungen. Allerdings sehen sich bestehende datengesteuerte Simulatoren zwei kritischen Herausforderungen gegenüber: begrenzte Aufmerksamkeit für die Modellierung dichter heterogener Interaktionen an urbanen Kreuzungen und inhärente Schwierigkeiten beim robusten Lernen hochdimensionaler Gelenkverteilungen in hochdichten Szenarien. Dieses Paper stellt den City Crossings Dataset (CiCross) vor, einen großflächigen Datensatz, der aus echten urbanen Kreuzungen erfasst wurde und einzigartig dichte heterogene Multi-Agent-Interaktionen erfasst. Basierend auf diesem Datensatz wird IntersectioNDE vorgestellt, ein datengesteuerter Simulator für komplexe urbane Kreuzungsszenarien, dessen Kernkomponente die Interaktionsentkopplungsstrategie (IDS) ist, die es ermöglicht, kombinierte Dynamiken aus Agent-Teilmengen zu lernen und Simulation von marginal zu gemeinsam zu realisieren.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die hochfidelistische Verkehrssimulation komplexer urbaner Kreuzungen, insbesondere in dichten heterogenen Interaktionsszenarios mit Motorfahrzeugen (MVs), Nicht-Motorfahrzeugen (NMVs) und Fußgängern.

Bedeutung des Problems

Anforderungen zur Sicherheitsvalidierung autonomer Fahrzeuge: Simulationstests werden aufgrund ihrer Skalierbarkeit, Kosteneffizienz und Fähigkeit, sicherheitskritische Grenzfälle zu erkunden, weit verbreitet eingesetzt
Herausforderungen komplexer urbaner Umgebungen: Urbane Kreuzungen in Ländern wie China zeigen dichte, heterogene Verkehrsmuster, die mit bestehenden Methoden schwer effektiv modelliert werden können
Praktischer Wert: Genaue Verkehrssimulation ist für die sichere Bereitstellung von AV-Systemen von kritischer Bedeutung

Einschränkungen bestehender Methoden

Unzureichende Szenarioabdeckung: Bestehende datengesteuerte Simulatoren zeigen begrenzte Aufmerksamkeit für die Modellierung dichter heterogener Kreuzungsinteraktionen in urbanen Gebieten
Technische Herausforderungen: Das direkte Lernen hochdimensionaler Gelenkverteilungen für vollständige Szenarien weist inhärente Schwierigkeiten auf, die häufig zu Moduskollaps und Instabilität bei Langzeitsimulation führen
Datensatzbeschränkungen: Bestehende Datensätze weisen unzureichende Darstellung dichter Interaktionen zwischen MVs, NMVs und Fußgängern auf

Forschungsmotivation

Entwicklung eines Verkehrssimulationssystems, das speziell auf die besonderen Anforderungen komplexer urbaner Verkehrsumgebungen in Ländern wie China zugeschnitten ist und heterogene Interaktionen robust modellieren sowie Langzeitstabilität bewahren kann.

Kernbeiträge

Einführung des CiCross-Datensatzes: Großflächiger echter urbaner Kreuzungsdatensatz, der einzigartig dichte heterogene Multi-Agent-Interaktionen erfasst
Entwicklung des IntersectioNDE-Simulators: Datengesteuerter Szenario-Level-Simulator speziell für komplexe urbane Kreuzungsszenarien
Innovation der Interaktionsentkopplungsstrategie (IDS): Trainingsparadigma, das durch Lernen kombinierter Dynamiken aus Agent-Teilmengen Simulation von marginal zu gemeinsam ermöglicht
Konstruktion eines szenariogesteuerten Transformer-Netzwerks: Integration spezialisierter Trainingstechniken, die die Robustheit und Langzeitstabilität der Simulation erheblich verbessern

Methodische Details

Aufgabendefinition

Die Verkehrssimulationsaufgabe wird als Lernen eines generativen Modells modelliert, das innerhalb des Vorhersagezeitraums $T_{pred}$ realistische zukünftige Szenariozustände erzeugen kann.

Sei $A_τ = \{a_1, ..., a_{N_τ}\}$ die Menge von $N_τ$ Agenten, die zum Zeitpunkt $τ$ vorhanden sind. Der Zustand des Agenten $a_j$ zum Zeitpunkt $τ$ ist $s_{j,τ} ∈ S_{agent}$ . Die vollständige Szenarioinstanz $G_τ$ enthält Agentenzustände $S_τ$ , statische Karteninformationen $M$ und dynamische Ampelzustände $L_τ$ .

Das Ziel ist das Lernen der bedingten Wahrscheinlichkeitsverteilung: $P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})$

Interaktionsentkopplungsstrategie (IDS)

IDS-Trainingsprozess

Agent-Gruppierung: Partitionierung der Agent-Menge $A_t$ in $k$ disjunkte Interaktionsgruppen basierend auf vordefinierten räumlichen und Verhaltensstandards (wie TTC): $A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}$
Teilmengen-Sampling: Zufälliges Sampling von Gruppenindex-Teilmengen $I ⊆ \{1, ..., k\}$ zur Konstruktion von Szenarioinstanzen mit gesampelten Agenten
Bedingte Wahrscheinlichkeitslernen: Training des neuronalen Netzwerkmodells $F_θ$ zur Vorhersage der bedingten Wahrscheinlichkeitsverteilung gesampelter zukünftiger Szenarioinstanzen: $P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)$
Trainingsziel: Minimierung der erwarteten negativen Log-Likelihood: $L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]$

Simulation von marginal zu gemeinsam

In der Inferenzphase realisiert das Modell die Vorhersage von Teilszenarien zu vollständigen Szenarien durch den folgenden Mechanismus:

Lernen von Interaktionsprimitiven: IDS-Training ermöglicht dem Modell, eine vielfältige Menge von bedingten Interaktionsprimitiven $P = \{p_1, p_2, ..., p_L\}$ zu erwerben
Primitiv-Identifikation und -Synthese: Für ein beliebiges Szenario $G_t$ identifiziert das Modell zunächst die Kombination gelernter Interaktionsprimitiven in der aktuellen Konfiguration und synthetisiert dann deren zukünftige Zustände
Robustheitsverbesserung: Durch die Beherrschung grundlegender Bausteine kann das Modell kohärent komplexe Szenariodynamiken vorhersagen, auch für Interaktionskombinationen, die während des Trainings nicht explizit beobachtet wurden

Netzwerk-Architektur

Szenariogesteuertes Interaktions-Transformer

Multi-Input-Transformer-Netzwerk mit Encoder-Interaktions-Vorhersage-Struktur:

Multimodale Input-Kodierung:
- Historische Agent-Trajektorien: $H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}$
- Statische Agent-Attribute: $A_s ∈ R^{N×6}$
- Routeninformationen: $M_r ∈ R^{N_R×D_R}$
- Ampelzustände: $M_d ∈ R^{T_{hist}×N_L×3}$
Duale Cross-Attention-Module: Kombination von Agent-Merkmalen mit Szenario-Kontext-Merkmalen zur Erzeugung umgebungsgesteuerter verbesserter Agent-Merkmale
Transformer-Interaktionsnetzwerk: Modellierung komplexer Agent-Abhängigkeitsbeziehungen
Spezialisierte Vorhersage-Köpfe: Vorhersage von Verteilungsparametern zukünftiger Bewegungszustände für verschiedene Agent-Kategorien

Experimentelle Einrichtung

CiCross-Datensatz

Datengröße: Etwa 700 Stunden Aufnahmedaten, Experimente verwenden 23,6-Stunden-Teilmenge
Datenmerkmale: 212.344 Frames (2,5 Hz), 56.578 eindeutige Agent-Instanzen
Agent-Verteilung: 54,2% Motorfahrzeuge, 43,3% Nicht-Motorfahrzeuge, 2,5% Fußgänger
Szenario-Charakteristiken: Hohe Agent-Dichte, TTC-Verteilungsspitze etwa 2 Sekunden, reflektiert hochriskante Interaktionen

Bewertungsmetriken

ADE (Average Displacement Error): Durchschnittlicher Versatzfehler
FDE (Final Displacement Error): Endgültiger Versatzfehler
Missing Rate: Verschwindungsrate von Agenten
Collapse Time: Simulationszusammenbruchszeit

Implementierungsdetails

Hardware: Einzelne NVIDIA RTX 4090 GPU
Historienlänge: $T_{hist} = 10$
Vorhersagebereich: $T_{pred} = 10$
Datenerweiterung: Translation, Rotation, Versatz, Trajektorienfehler-Injektion
Closed-Loop-Simulation: Autoregressive Ausführung, 1-Frame-Schrittweite

Experimentelle Ergebnisse

Hauptergebnisse

Alle auf IDS basierenden Modelle übertreffen Baseline-Methoden und validieren die Gesamteffizienz der Strategie:

Methode	Teilnehmertyp	ADE↓	FDE↓	Missing Rate↓
Ohne IDS	Motorfahrzeuge	0,9047	1,6526	0,2086
Ohne IDS	Nicht-Motorfahrzeuge	1,2864	2,4415	0,4553
Ohne IDS	Fußgänger	1,2197	2,0536	0,3732
IDS(TTC=1s)	Motorfahrzeuge	0,6693	1,2496	0,1750
IDS(TTC=1s)	Nicht-Motorfahrzeuge	0,9869	1,9694	0,3310
IDS(TTC=1s)	Fußgänger	1,0086	1,6150	0,2386

Ablationsstudien

TTC-Schwellenwert-Sensitivität: Test von 0s-, 1s-, 2s-, 4s-Schwellenwerten, 1s-Schwellenwert erreicht optimales Gleichgewicht
Vergleich von Aufmerksamkeitsmechanismen: Duale Cross-Attention übertrifft Single-Cross-Attention-Varianten
Langzeitstabilität: IDS verbessert Zusammenbruchszeit erheblich (895s vs. 15s)

Bewertung der Verteilungstreue

Durch Vergleich von Geschwindigkeitsverteilungen und nächsten Distanzverteilungen zwischen Simulation und echten Daten wird die Fähigkeit des Modells zur Replikation von Verteilungs-Level-Verkehrsdynamiken in urbanen Gebieten validiert.

Fallstudien

Darstellung von drei typischen Interaktionsszenarios:

Nicht-Motorfahrzeug fährt bei Rotlicht und wird verlangsamt
Motorfahrzeug verlangsamt sich höflich
Motorfahrzeug biegt rechts ab und passiert schnell Nicht-Motorfahrzeugstrom

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Der CiCross-Datensatz erfasst erfolgreich heterogene Interaktionsmerkmale komplexer urbaner Kreuzungen
Die IDS-Strategie löst effektiv die Herausforderung des Lernens hochdimensionaler Gelenkverteilungen
IntersectioNDE übertrifft Baseline-Methoden erheblich in Simulationstreue, Stabilität und Verteilungs-Replikationsfähigkeit

Einschränkungen

Geografische Spezifität des Datensatzes: Hauptsächlich basierend auf urbanen Kreuzungen in China, möglicherweise mit geografischen Verzerrungen
Rechenkomplexität: Rechenaufwand der Transformer-Architektur in großflächigen Szenarien
Interaktionsdefinition: Auf TTC basierende Interaktionsgruppierung kann komplexe Interaktionsmuster zu stark vereinfachen
Langzeitbewertung: Obwohl Stabilität verbessert wurde, bleibt die Leistung bei sehr langer Simulation zu validieren

Zukünftige Richtungen

Erweiterung auf mehr geografische Regionen und Verkehrsmuster
Optimierung der Recheneffizienz
Erkundung verfeinerterer Interaktionsmodellierungsmethoden
Integration zusätzlicher Sensormodi

Tiefgreifende Bewertung

Stärken

Starke Problembezogenheit: Fokus auf praktische Anforderungen komplexer urbaner Verkehrssysteme in Ländern wie China
Hohe Methodische Innovativität: IDS-Strategie löst elegant das Problem des Lernens hochdimensionaler Verteilungen
Großer Datensatzwert: CiCross füllt Lücke in Daten dichter heterogener Interaktionen
Umfassende Experimente: Detaillierte Ablationsstudien und Fallanalysen
Starker praktischer Wert: Erhebliche Verbesserung der Langzeitstabilitätsimulation

Mängel

Unzureichende theoretische Analyse: Fehlende Konvergenzanalyse der IDS-Strategie
Begrenzte Vergleichsspanne: Hauptsächlich Vergleich mit selbstentwickelten Baselines, fehlende Vergleiche mit anderen SOTA-Methoden
Unbekannte Generalisierungsfähigkeit: Validierung nur auf einzelnen Kreuzungsdaten, Verallgemeinerungsfähigkeit über Szenarien hinweg zu validieren
Fehlende Rechenaufwand-Berichte: Detaillierte Analyse von Trainings- und Inferenzzeiten fehlt

Einflussfähigkeit

Akademischer Beitrag: Bietet neue Lösungsansätze für komplexe urbane Verkehrssimulation
Praktischer Wert: Wichtig für Validierung von AV-Systemen in komplexen urbanen Umgebungen
Datensatzbeitrag: CiCross-Datensatz kann verwandte Forschung fördern
Reproduzierbarkeit: Klare Methodenbeschreibung mit guter Reproduzierbarkeit

Anwendungsszenarien

Urbane Kreuzungssimulation: Besonders geeignet für hochdichte, Multi-Agent-Interaktionsszenarien
Autonomes Fahrzeugtesten: Werkzeug für Sicherheitsvalidierung von AV-Systemen in komplexen urbanen Umgebungen
Verkehrsplanung: Anwendbar auf Analyse und Optimierung urbaner Verkehrsflüsse
Forschungsplattform: Grundlage für Forschung zur Verkehrsverhaltensmodellierung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus den Bereichen Verkehrssimulation, autonomes Fahren und tiefes Lernen, einschließlich Waymo-Datensatz, NeuralNDE und verschiedene Transformer-Architekturen, was umfassendes Verständnis und tiefgreifende Überlegungen zum verwandten Forschungsgebiet widerspiegelt.