Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
- Paper-ID: 2510.11534
- Titel: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
- Autoren: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (Tsinghua-Universität)
- Klassifizierung: cs.RO (Robotik), cs.SY (Systeme und Steuerung), eess.SY (Systeme und Steuerung)
- Veröffentlichungsdatum: 13. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.11534
Realistische Verkehrssimulation ist entscheidend für die Gewährleistung der Sicherheit und Zuverlässigkeit von autonomen Fahrzeugen (AV), insbesondere in komplexen und vielfältigen urbanen Verkehrsumgebungen. Allerdings sehen sich bestehende datengesteuerte Simulatoren zwei kritischen Herausforderungen gegenüber: begrenzte Aufmerksamkeit für die Modellierung dichter heterogener Interaktionen an urbanen Kreuzungen und inhärente Schwierigkeiten beim robusten Lernen hochdimensionaler Gelenkverteilungen in hochdichten Szenarien. Dieses Paper stellt den City Crossings Dataset (CiCross) vor, einen großflächigen Datensatz, der aus echten urbanen Kreuzungen erfasst wurde und einzigartig dichte heterogene Multi-Agent-Interaktionen erfasst. Basierend auf diesem Datensatz wird IntersectioNDE vorgestellt, ein datengesteuerter Simulator für komplexe urbane Kreuzungsszenarien, dessen Kernkomponente die Interaktionsentkopplungsstrategie (IDS) ist, die es ermöglicht, kombinierte Dynamiken aus Agent-Teilmengen zu lernen und Simulation von marginal zu gemeinsam zu realisieren.
Das Kernproblem dieser Forschung ist die hochfidelistische Verkehrssimulation komplexer urbaner Kreuzungen, insbesondere in dichten heterogenen Interaktionsszenarios mit Motorfahrzeugen (MVs), Nicht-Motorfahrzeugen (NMVs) und Fußgängern.
- Anforderungen zur Sicherheitsvalidierung autonomer Fahrzeuge: Simulationstests werden aufgrund ihrer Skalierbarkeit, Kosteneffizienz und Fähigkeit, sicherheitskritische Grenzfälle zu erkunden, weit verbreitet eingesetzt
- Herausforderungen komplexer urbaner Umgebungen: Urbane Kreuzungen in Ländern wie China zeigen dichte, heterogene Verkehrsmuster, die mit bestehenden Methoden schwer effektiv modelliert werden können
- Praktischer Wert: Genaue Verkehrssimulation ist für die sichere Bereitstellung von AV-Systemen von kritischer Bedeutung
- Unzureichende Szenarioabdeckung: Bestehende datengesteuerte Simulatoren zeigen begrenzte Aufmerksamkeit für die Modellierung dichter heterogener Kreuzungsinteraktionen in urbanen Gebieten
- Technische Herausforderungen: Das direkte Lernen hochdimensionaler Gelenkverteilungen für vollständige Szenarien weist inhärente Schwierigkeiten auf, die häufig zu Moduskollaps und Instabilität bei Langzeitsimulation führen
- Datensatzbeschränkungen: Bestehende Datensätze weisen unzureichende Darstellung dichter Interaktionen zwischen MVs, NMVs und Fußgängern auf
Entwicklung eines Verkehrssimulationssystems, das speziell auf die besonderen Anforderungen komplexer urbaner Verkehrsumgebungen in Ländern wie China zugeschnitten ist und heterogene Interaktionen robust modellieren sowie Langzeitstabilität bewahren kann.
- Einführung des CiCross-Datensatzes: Großflächiger echter urbaner Kreuzungsdatensatz, der einzigartig dichte heterogene Multi-Agent-Interaktionen erfasst
- Entwicklung des IntersectioNDE-Simulators: Datengesteuerter Szenario-Level-Simulator speziell für komplexe urbane Kreuzungsszenarien
- Innovation der Interaktionsentkopplungsstrategie (IDS): Trainingsparadigma, das durch Lernen kombinierter Dynamiken aus Agent-Teilmengen Simulation von marginal zu gemeinsam ermöglicht
- Konstruktion eines szenariogesteuerten Transformer-Netzwerks: Integration spezialisierter Trainingstechniken, die die Robustheit und Langzeitstabilität der Simulation erheblich verbessern
Die Verkehrssimulationsaufgabe wird als Lernen eines generativen Modells modelliert, das innerhalb des Vorhersagezeitraums Tpred realistische zukünftige Szenariozustände erzeugen kann.
Sei Aτ={a1,...,aNτ} die Menge von Nτ Agenten, die zum Zeitpunkt τ vorhanden sind. Der Zustand des Agenten aj zum Zeitpunkt τ ist sj,τ∈Sagent. Die vollständige Szenarioinstanz Gτ enthält Agentenzustände Sτ, statische Karteninformationen M und dynamische Ampelzustände Lτ.
Das Ziel ist das Lernen der bedingten Wahrscheinlichkeitsverteilung:
Pdata(Gt+1:t+Tpred∣Gt−Thist+1:t)
- Agent-Gruppierung: Partitionierung der Agent-Menge At in k disjunkte Interaktionsgruppen basierend auf vordefinierten räumlichen und Verhaltensstandards (wie TTC):
At={At,1,At,2,...,At,k}
- Teilmengen-Sampling: Zufälliges Sampling von Gruppenindex-Teilmengen I⊆{1,...,k} zur Konstruktion von Szenarioinstanzen mit gesampelten Agenten
- Bedingte Wahrscheinlichkeitslernen: Training des neuronalen Netzwerkmodells Fθ zur Vorhersage der bedingten Wahrscheinlichkeitsverteilung gesampelter zukünftiger Szenarioinstanzen:
Pmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)
- Trainingsziel: Minimierung der erwarteten negativen Log-Likelihood:
L(θ)=−EG^∼DdataEI∼Psample(I)[logPmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)]
In der Inferenzphase realisiert das Modell die Vorhersage von Teilszenarien zu vollständigen Szenarien durch den folgenden Mechanismus:
- Lernen von Interaktionsprimitiven: IDS-Training ermöglicht dem Modell, eine vielfältige Menge von bedingten Interaktionsprimitiven P={p1,p2,...,pL} zu erwerben
- Primitiv-Identifikation und -Synthese: Für ein beliebiges Szenario Gt identifiziert das Modell zunächst die Kombination gelernter Interaktionsprimitiven in der aktuellen Konfiguration und synthetisiert dann deren zukünftige Zustände
- Robustheitsverbesserung: Durch die Beherrschung grundlegender Bausteine kann das Modell kohärent komplexe Szenariodynamiken vorhersagen, auch für Interaktionskombinationen, die während des Trainings nicht explizit beobachtet wurden
Multi-Input-Transformer-Netzwerk mit Encoder-Interaktions-Vorhersage-Struktur:
- Multimodale Input-Kodierung:
- Historische Agent-Trajektorien: Ht−Thist+1:t∈RN×Thist×6
- Statische Agent-Attribute: As∈RN×6
- Routeninformationen: Mr∈RNR×DR
- Ampelzustände: Md∈RThist×NL×3
- Duale Cross-Attention-Module: Kombination von Agent-Merkmalen mit Szenario-Kontext-Merkmalen zur Erzeugung umgebungsgesteuerter verbesserter Agent-Merkmale
- Transformer-Interaktionsnetzwerk: Modellierung komplexer Agent-Abhängigkeitsbeziehungen
- Spezialisierte Vorhersage-Köpfe: Vorhersage von Verteilungsparametern zukünftiger Bewegungszustände für verschiedene Agent-Kategorien
- Datengröße: Etwa 700 Stunden Aufnahmedaten, Experimente verwenden 23,6-Stunden-Teilmenge
- Datenmerkmale: 212.344 Frames (2,5 Hz), 56.578 eindeutige Agent-Instanzen
- Agent-Verteilung: 54,2% Motorfahrzeuge, 43,3% Nicht-Motorfahrzeuge, 2,5% Fußgänger
- Szenario-Charakteristiken: Hohe Agent-Dichte, TTC-Verteilungsspitze etwa 2 Sekunden, reflektiert hochriskante Interaktionen
- ADE (Average Displacement Error): Durchschnittlicher Versatzfehler
- FDE (Final Displacement Error): Endgültiger Versatzfehler
- Missing Rate: Verschwindungsrate von Agenten
- Collapse Time: Simulationszusammenbruchszeit
- Hardware: Einzelne NVIDIA RTX 4090 GPU
- Historienlänge: Thist=10
- Vorhersagebereich: Tpred=10
- Datenerweiterung: Translation, Rotation, Versatz, Trajektorienfehler-Injektion
- Closed-Loop-Simulation: Autoregressive Ausführung, 1-Frame-Schrittweite
Alle auf IDS basierenden Modelle übertreffen Baseline-Methoden und validieren die Gesamteffizienz der Strategie:
| Methode | Teilnehmertyp | ADE↓ | FDE↓ | Missing Rate↓ |
|---|
| Ohne IDS | Motorfahrzeuge | 0,9047 | 1,6526 | 0,2086 |
| Ohne IDS | Nicht-Motorfahrzeuge | 1,2864 | 2,4415 | 0,4553 |
| Ohne IDS | Fußgänger | 1,2197 | 2,0536 | 0,3732 |
| IDS(TTC=1s) | Motorfahrzeuge | 0,6693 | 1,2496 | 0,1750 |
| IDS(TTC=1s) | Nicht-Motorfahrzeuge | 0,9869 | 1,9694 | 0,3310 |
| IDS(TTC=1s) | Fußgänger | 1,0086 | 1,6150 | 0,2386 |
- TTC-Schwellenwert-Sensitivität: Test von 0s-, 1s-, 2s-, 4s-Schwellenwerten, 1s-Schwellenwert erreicht optimales Gleichgewicht
- Vergleich von Aufmerksamkeitsmechanismen: Duale Cross-Attention übertrifft Single-Cross-Attention-Varianten
- Langzeitstabilität: IDS verbessert Zusammenbruchszeit erheblich (895s vs. 15s)
Durch Vergleich von Geschwindigkeitsverteilungen und nächsten Distanzverteilungen zwischen Simulation und echten Daten wird die Fähigkeit des Modells zur Replikation von Verteilungs-Level-Verkehrsdynamiken in urbanen Gebieten validiert.
Darstellung von drei typischen Interaktionsszenarios:
- Nicht-Motorfahrzeug fährt bei Rotlicht und wird verlangsamt
- Motorfahrzeug verlangsamt sich höflich
- Motorfahrzeug biegt rechts ab und passiert schnell Nicht-Motorfahrzeugstrom
Obwohl bestehende Datensätze (Waymo, nuScenes, Argoverse usw.) groß und wertvoll sind, weisen sie Einschränkungen bei der Darstellung dichter Interaktionen an komplexen urbanen Kreuzungen auf.
- Regelbasiert: SUMO, VISSIM usw., abhängig von vordefinierten Parametern, schwer, die Vielfalt echten Fahrverhaltens nachzubilden
- Datengesteuert:
- Agent-zentrische Methoden: Lernen individuellen Verhaltens, aber ineffizient und schwer bei der Koordination komplexer Interaktionen
- Szenario-Level-Methoden: Direkte Ausgabe des nächsten Szenariozustands, aber Herausforderungen beim Lernen hochdimensionaler Verteilungen
- Der CiCross-Datensatz erfasst erfolgreich heterogene Interaktionsmerkmale komplexer urbaner Kreuzungen
- Die IDS-Strategie löst effektiv die Herausforderung des Lernens hochdimensionaler Gelenkverteilungen
- IntersectioNDE übertrifft Baseline-Methoden erheblich in Simulationstreue, Stabilität und Verteilungs-Replikationsfähigkeit
- Geografische Spezifität des Datensatzes: Hauptsächlich basierend auf urbanen Kreuzungen in China, möglicherweise mit geografischen Verzerrungen
- Rechenkomplexität: Rechenaufwand der Transformer-Architektur in großflächigen Szenarien
- Interaktionsdefinition: Auf TTC basierende Interaktionsgruppierung kann komplexe Interaktionsmuster zu stark vereinfachen
- Langzeitbewertung: Obwohl Stabilität verbessert wurde, bleibt die Leistung bei sehr langer Simulation zu validieren
- Erweiterung auf mehr geografische Regionen und Verkehrsmuster
- Optimierung der Recheneffizienz
- Erkundung verfeinerterer Interaktionsmodellierungsmethoden
- Integration zusätzlicher Sensormodi
- Starke Problembezogenheit: Fokus auf praktische Anforderungen komplexer urbaner Verkehrssysteme in Ländern wie China
- Hohe Methodische Innovativität: IDS-Strategie löst elegant das Problem des Lernens hochdimensionaler Verteilungen
- Großer Datensatzwert: CiCross füllt Lücke in Daten dichter heterogener Interaktionen
- Umfassende Experimente: Detaillierte Ablationsstudien und Fallanalysen
- Starker praktischer Wert: Erhebliche Verbesserung der Langzeitstabilitätsimulation
- Unzureichende theoretische Analyse: Fehlende Konvergenzanalyse der IDS-Strategie
- Begrenzte Vergleichsspanne: Hauptsächlich Vergleich mit selbstentwickelten Baselines, fehlende Vergleiche mit anderen SOTA-Methoden
- Unbekannte Generalisierungsfähigkeit: Validierung nur auf einzelnen Kreuzungsdaten, Verallgemeinerungsfähigkeit über Szenarien hinweg zu validieren
- Fehlende Rechenaufwand-Berichte: Detaillierte Analyse von Trainings- und Inferenzzeiten fehlt
- Akademischer Beitrag: Bietet neue Lösungsansätze für komplexe urbane Verkehrssimulation
- Praktischer Wert: Wichtig für Validierung von AV-Systemen in komplexen urbanen Umgebungen
- Datensatzbeitrag: CiCross-Datensatz kann verwandte Forschung fördern
- Reproduzierbarkeit: Klare Methodenbeschreibung mit guter Reproduzierbarkeit
- Urbane Kreuzungssimulation: Besonders geeignet für hochdichte, Multi-Agent-Interaktionsszenarien
- Autonomes Fahrzeugtesten: Werkzeug für Sicherheitsvalidierung von AV-Systemen in komplexen urbanen Umgebungen
- Verkehrsplanung: Anwendbar auf Analyse und Optimierung urbaner Verkehrsflüsse
- Forschungsplattform: Grundlage für Forschung zur Verkehrsverhaltensmodellierung
Das Paper zitiert wichtige Arbeiten aus den Bereichen Verkehrssimulation, autonomes Fahren und tiefes Lernen, einschließlich Waymo-Datensatz, NeuralNDE und verschiedene Transformer-Architekturen, was umfassendes Verständnis und tiefgreifende Überlegungen zum verwandten Forschungsgebiet widerspiegelt.