2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.
Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
academic

IntersectioNDE: Lernen komplexer urbaner Verkehrsdynamiken basierend auf einer Interaktionsentkopplungsstrategie

Grundinformationen

  • Paper-ID: 2510.11534
  • Titel: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
  • Autoren: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (Tsinghua-Universität)
  • Klassifizierung: cs.RO (Robotik), cs.SY (Systeme und Steuerung), eess.SY (Systeme und Steuerung)
  • Veröffentlichungsdatum: 13. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.11534

Zusammenfassung

Realistische Verkehrssimulation ist entscheidend für die Gewährleistung der Sicherheit und Zuverlässigkeit von autonomen Fahrzeugen (AV), insbesondere in komplexen und vielfältigen urbanen Verkehrsumgebungen. Allerdings sehen sich bestehende datengesteuerte Simulatoren zwei kritischen Herausforderungen gegenüber: begrenzte Aufmerksamkeit für die Modellierung dichter heterogener Interaktionen an urbanen Kreuzungen und inhärente Schwierigkeiten beim robusten Lernen hochdimensionaler Gelenkverteilungen in hochdichten Szenarien. Dieses Paper stellt den City Crossings Dataset (CiCross) vor, einen großflächigen Datensatz, der aus echten urbanen Kreuzungen erfasst wurde und einzigartig dichte heterogene Multi-Agent-Interaktionen erfasst. Basierend auf diesem Datensatz wird IntersectioNDE vorgestellt, ein datengesteuerter Simulator für komplexe urbane Kreuzungsszenarien, dessen Kernkomponente die Interaktionsentkopplungsstrategie (IDS) ist, die es ermöglicht, kombinierte Dynamiken aus Agent-Teilmengen zu lernen und Simulation von marginal zu gemeinsam zu realisieren.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die hochfidelistische Verkehrssimulation komplexer urbaner Kreuzungen, insbesondere in dichten heterogenen Interaktionsszenarios mit Motorfahrzeugen (MVs), Nicht-Motorfahrzeugen (NMVs) und Fußgängern.

Bedeutung des Problems

  1. Anforderungen zur Sicherheitsvalidierung autonomer Fahrzeuge: Simulationstests werden aufgrund ihrer Skalierbarkeit, Kosteneffizienz und Fähigkeit, sicherheitskritische Grenzfälle zu erkunden, weit verbreitet eingesetzt
  2. Herausforderungen komplexer urbaner Umgebungen: Urbane Kreuzungen in Ländern wie China zeigen dichte, heterogene Verkehrsmuster, die mit bestehenden Methoden schwer effektiv modelliert werden können
  3. Praktischer Wert: Genaue Verkehrssimulation ist für die sichere Bereitstellung von AV-Systemen von kritischer Bedeutung

Einschränkungen bestehender Methoden

  1. Unzureichende Szenarioabdeckung: Bestehende datengesteuerte Simulatoren zeigen begrenzte Aufmerksamkeit für die Modellierung dichter heterogener Kreuzungsinteraktionen in urbanen Gebieten
  2. Technische Herausforderungen: Das direkte Lernen hochdimensionaler Gelenkverteilungen für vollständige Szenarien weist inhärente Schwierigkeiten auf, die häufig zu Moduskollaps und Instabilität bei Langzeitsimulation führen
  3. Datensatzbeschränkungen: Bestehende Datensätze weisen unzureichende Darstellung dichter Interaktionen zwischen MVs, NMVs und Fußgängern auf

Forschungsmotivation

Entwicklung eines Verkehrssimulationssystems, das speziell auf die besonderen Anforderungen komplexer urbaner Verkehrsumgebungen in Ländern wie China zugeschnitten ist und heterogene Interaktionen robust modellieren sowie Langzeitstabilität bewahren kann.

Kernbeiträge

  1. Einführung des CiCross-Datensatzes: Großflächiger echter urbaner Kreuzungsdatensatz, der einzigartig dichte heterogene Multi-Agent-Interaktionen erfasst
  2. Entwicklung des IntersectioNDE-Simulators: Datengesteuerter Szenario-Level-Simulator speziell für komplexe urbane Kreuzungsszenarien
  3. Innovation der Interaktionsentkopplungsstrategie (IDS): Trainingsparadigma, das durch Lernen kombinierter Dynamiken aus Agent-Teilmengen Simulation von marginal zu gemeinsam ermöglicht
  4. Konstruktion eines szenariogesteuerten Transformer-Netzwerks: Integration spezialisierter Trainingstechniken, die die Robustheit und Langzeitstabilität der Simulation erheblich verbessern

Methodische Details

Aufgabendefinition

Die Verkehrssimulationsaufgabe wird als Lernen eines generativen Modells modelliert, das innerhalb des Vorhersagezeitraums TpredT_{pred} realistische zukünftige Szenariozustände erzeugen kann.

Sei Aτ={a1,...,aNτ}A_τ = \{a_1, ..., a_{N_τ}\} die Menge von NτN_τ Agenten, die zum Zeitpunkt ττ vorhanden sind. Der Zustand des Agenten aja_j zum Zeitpunkt ττ ist sj,τSagents_{j,τ} ∈ S_{agent}. Die vollständige Szenarioinstanz GτG_τ enthält Agentenzustände SτS_τ, statische Karteninformationen MM und dynamische Ampelzustände LτL_τ.

Das Ziel ist das Lernen der bedingten Wahrscheinlichkeitsverteilung: Pdata(Gt+1:t+TpredGtThist+1:t)P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})

Interaktionsentkopplungsstrategie (IDS)

IDS-Trainingsprozess

  1. Agent-Gruppierung: Partitionierung der Agent-Menge AtA_t in kk disjunkte Interaktionsgruppen basierend auf vordefinierten räumlichen und Verhaltensstandards (wie TTC): At={At,1,At,2,...,At,k}A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}
  2. Teilmengen-Sampling: Zufälliges Sampling von Gruppenindex-Teilmengen I{1,...,k}I ⊆ \{1, ..., k\} zur Konstruktion von Szenarioinstanzen mit gesampelten Agenten
  3. Bedingte Wahrscheinlichkeitslernen: Training des neuronalen Netzwerkmodells FθF_θ zur Vorhersage der bedingten Wahrscheinlichkeitsverteilung gesampelter zukünftiger Szenarioinstanzen: Pmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)
  4. Trainingsziel: Minimierung der erwarteten negativen Log-Likelihood: L(θ)=EG^DdataEIPsample(I)[logPmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)]L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]

Simulation von marginal zu gemeinsam

In der Inferenzphase realisiert das Modell die Vorhersage von Teilszenarien zu vollständigen Szenarien durch den folgenden Mechanismus:

  1. Lernen von Interaktionsprimitiven: IDS-Training ermöglicht dem Modell, eine vielfältige Menge von bedingten Interaktionsprimitiven P={p1,p2,...,pL}P = \{p_1, p_2, ..., p_L\} zu erwerben
  2. Primitiv-Identifikation und -Synthese: Für ein beliebiges Szenario GtG_t identifiziert das Modell zunächst die Kombination gelernter Interaktionsprimitiven in der aktuellen Konfiguration und synthetisiert dann deren zukünftige Zustände
  3. Robustheitsverbesserung: Durch die Beherrschung grundlegender Bausteine kann das Modell kohärent komplexe Szenariodynamiken vorhersagen, auch für Interaktionskombinationen, die während des Trainings nicht explizit beobachtet wurden

Netzwerk-Architektur

Szenariogesteuertes Interaktions-Transformer

Multi-Input-Transformer-Netzwerk mit Encoder-Interaktions-Vorhersage-Struktur:

  1. Multimodale Input-Kodierung:
    • Historische Agent-Trajektorien: HtThist+1:tRN×Thist×6H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}
    • Statische Agent-Attribute: AsRN×6A_s ∈ R^{N×6}
    • Routeninformationen: MrRNR×DRM_r ∈ R^{N_R×D_R}
    • Ampelzustände: MdRThist×NL×3M_d ∈ R^{T_{hist}×N_L×3}
  2. Duale Cross-Attention-Module: Kombination von Agent-Merkmalen mit Szenario-Kontext-Merkmalen zur Erzeugung umgebungsgesteuerter verbesserter Agent-Merkmale
  3. Transformer-Interaktionsnetzwerk: Modellierung komplexer Agent-Abhängigkeitsbeziehungen
  4. Spezialisierte Vorhersage-Köpfe: Vorhersage von Verteilungsparametern zukünftiger Bewegungszustände für verschiedene Agent-Kategorien

Experimentelle Einrichtung

CiCross-Datensatz

  • Datengröße: Etwa 700 Stunden Aufnahmedaten, Experimente verwenden 23,6-Stunden-Teilmenge
  • Datenmerkmale: 212.344 Frames (2,5 Hz), 56.578 eindeutige Agent-Instanzen
  • Agent-Verteilung: 54,2% Motorfahrzeuge, 43,3% Nicht-Motorfahrzeuge, 2,5% Fußgänger
  • Szenario-Charakteristiken: Hohe Agent-Dichte, TTC-Verteilungsspitze etwa 2 Sekunden, reflektiert hochriskante Interaktionen

Bewertungsmetriken

  • ADE (Average Displacement Error): Durchschnittlicher Versatzfehler
  • FDE (Final Displacement Error): Endgültiger Versatzfehler
  • Missing Rate: Verschwindungsrate von Agenten
  • Collapse Time: Simulationszusammenbruchszeit

Implementierungsdetails

  • Hardware: Einzelne NVIDIA RTX 4090 GPU
  • Historienlänge: Thist=10T_{hist} = 10
  • Vorhersagebereich: Tpred=10T_{pred} = 10
  • Datenerweiterung: Translation, Rotation, Versatz, Trajektorienfehler-Injektion
  • Closed-Loop-Simulation: Autoregressive Ausführung, 1-Frame-Schrittweite

Experimentelle Ergebnisse

Hauptergebnisse

Alle auf IDS basierenden Modelle übertreffen Baseline-Methoden und validieren die Gesamteffizienz der Strategie:

MethodeTeilnehmertypADE↓FDE↓Missing Rate↓
Ohne IDSMotorfahrzeuge0,90471,65260,2086
Ohne IDSNicht-Motorfahrzeuge1,28642,44150,4553
Ohne IDSFußgänger1,21972,05360,3732
IDS(TTC=1s)Motorfahrzeuge0,66931,24960,1750
IDS(TTC=1s)Nicht-Motorfahrzeuge0,98691,96940,3310
IDS(TTC=1s)Fußgänger1,00861,61500,2386

Ablationsstudien

  1. TTC-Schwellenwert-Sensitivität: Test von 0s-, 1s-, 2s-, 4s-Schwellenwerten, 1s-Schwellenwert erreicht optimales Gleichgewicht
  2. Vergleich von Aufmerksamkeitsmechanismen: Duale Cross-Attention übertrifft Single-Cross-Attention-Varianten
  3. Langzeitstabilität: IDS verbessert Zusammenbruchszeit erheblich (895s vs. 15s)

Bewertung der Verteilungstreue

Durch Vergleich von Geschwindigkeitsverteilungen und nächsten Distanzverteilungen zwischen Simulation und echten Daten wird die Fähigkeit des Modells zur Replikation von Verteilungs-Level-Verkehrsdynamiken in urbanen Gebieten validiert.

Fallstudien

Darstellung von drei typischen Interaktionsszenarios:

  1. Nicht-Motorfahrzeug fährt bei Rotlicht und wird verlangsamt
  2. Motorfahrzeug verlangsamt sich höflich
  3. Motorfahrzeug biegt rechts ab und passiert schnell Nicht-Motorfahrzeugstrom

Verwandte Arbeiten

Verkehrsdatensätze

Obwohl bestehende Datensätze (Waymo, nuScenes, Argoverse usw.) groß und wertvoll sind, weisen sie Einschränkungen bei der Darstellung dichter Interaktionen an komplexen urbanen Kreuzungen auf.

Verkehrssimulationsmethoden

  • Regelbasiert: SUMO, VISSIM usw., abhängig von vordefinierten Parametern, schwer, die Vielfalt echten Fahrverhaltens nachzubilden
  • Datengesteuert:
    • Agent-zentrische Methoden: Lernen individuellen Verhaltens, aber ineffizient und schwer bei der Koordination komplexer Interaktionen
    • Szenario-Level-Methoden: Direkte Ausgabe des nächsten Szenariozustands, aber Herausforderungen beim Lernen hochdimensionaler Verteilungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der CiCross-Datensatz erfasst erfolgreich heterogene Interaktionsmerkmale komplexer urbaner Kreuzungen
  2. Die IDS-Strategie löst effektiv die Herausforderung des Lernens hochdimensionaler Gelenkverteilungen
  3. IntersectioNDE übertrifft Baseline-Methoden erheblich in Simulationstreue, Stabilität und Verteilungs-Replikationsfähigkeit

Einschränkungen

  1. Geografische Spezifität des Datensatzes: Hauptsächlich basierend auf urbanen Kreuzungen in China, möglicherweise mit geografischen Verzerrungen
  2. Rechenkomplexität: Rechenaufwand der Transformer-Architektur in großflächigen Szenarien
  3. Interaktionsdefinition: Auf TTC basierende Interaktionsgruppierung kann komplexe Interaktionsmuster zu stark vereinfachen
  4. Langzeitbewertung: Obwohl Stabilität verbessert wurde, bleibt die Leistung bei sehr langer Simulation zu validieren

Zukünftige Richtungen

  1. Erweiterung auf mehr geografische Regionen und Verkehrsmuster
  2. Optimierung der Recheneffizienz
  3. Erkundung verfeinerterer Interaktionsmodellierungsmethoden
  4. Integration zusätzlicher Sensormodi

Tiefgreifende Bewertung

Stärken

  1. Starke Problembezogenheit: Fokus auf praktische Anforderungen komplexer urbaner Verkehrssysteme in Ländern wie China
  2. Hohe Methodische Innovativität: IDS-Strategie löst elegant das Problem des Lernens hochdimensionaler Verteilungen
  3. Großer Datensatzwert: CiCross füllt Lücke in Daten dichter heterogener Interaktionen
  4. Umfassende Experimente: Detaillierte Ablationsstudien und Fallanalysen
  5. Starker praktischer Wert: Erhebliche Verbesserung der Langzeitstabilitätsimulation

Mängel

  1. Unzureichende theoretische Analyse: Fehlende Konvergenzanalyse der IDS-Strategie
  2. Begrenzte Vergleichsspanne: Hauptsächlich Vergleich mit selbstentwickelten Baselines, fehlende Vergleiche mit anderen SOTA-Methoden
  3. Unbekannte Generalisierungsfähigkeit: Validierung nur auf einzelnen Kreuzungsdaten, Verallgemeinerungsfähigkeit über Szenarien hinweg zu validieren
  4. Fehlende Rechenaufwand-Berichte: Detaillierte Analyse von Trainings- und Inferenzzeiten fehlt

Einflussfähigkeit

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für komplexe urbane Verkehrssimulation
  2. Praktischer Wert: Wichtig für Validierung von AV-Systemen in komplexen urbanen Umgebungen
  3. Datensatzbeitrag: CiCross-Datensatz kann verwandte Forschung fördern
  4. Reproduzierbarkeit: Klare Methodenbeschreibung mit guter Reproduzierbarkeit

Anwendungsszenarien

  1. Urbane Kreuzungssimulation: Besonders geeignet für hochdichte, Multi-Agent-Interaktionsszenarien
  2. Autonomes Fahrzeugtesten: Werkzeug für Sicherheitsvalidierung von AV-Systemen in komplexen urbanen Umgebungen
  3. Verkehrsplanung: Anwendbar auf Analyse und Optimierung urbaner Verkehrsflüsse
  4. Forschungsplattform: Grundlage für Forschung zur Verkehrsverhaltensmodellierung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus den Bereichen Verkehrssimulation, autonomes Fahren und tiefes Lernen, einschließlich Waymo-Datensatz, NeuralNDE und verschiedene Transformer-Architekturen, was umfassendes Verständnis und tiefgreifende Überlegungen zum verwandten Forschungsgebiet widerspiegelt.