Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
- ID Articolo: 2510.11534
- Titolo: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
- Autori: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (Università Tsinghua)
- Classificazione: cs.RO (Robotica), cs.SY (Sistemi e Controllo), eess.SY (Sistemi e Controllo)
- Data di Pubblicazione: 13 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.11534
La simulazione realistica del traffico è essenziale per garantire la sicurezza e l'affidabilità dei veicoli autonomi (AV), in particolare negli ambienti urbani complessi e diversificati. Tuttavia, i simulatori attuali basati su dati affrontano due sfide critiche: attenzione limitata alla modellazione di interazioni eterogenee dense negli incroci urbani e difficoltà intrinseche nell'apprendimento robusto di distribuzioni congiunte ad alta dimensionalità in scenari ad alta densità. Questo articolo introduce il City Crossings Dataset (CiCross), un ampio dataset raccolto da incroci urbani reali, che cattura in modo unico interazioni multi-agente eterogenee dense. Sulla base di questo dataset, viene proposto IntersectioNDE, un simulatore basato su dati per scenari complessi di incroci urbani, il cui componente centrale è la Strategia di Disaccoppiamento delle Interazioni (IDS), che consente l'apprendimento della dinamica composita da sottoinsiemi di agenti, realizzando la simulazione dal marginale al congiunto.
Il problema centrale affrontato da questa ricerca è la simulazione del traffico ad alta fedeltà in incroci urbani complessi, in particolare scenari con interazioni eterogenee dense che includono veicoli a motore (MV), veicoli non a motore (NMV) e pedoni.
- Esigenza di Verifica della Sicurezza dei Veicoli Autonomi: I test di simulazione sono ampiamente adottati per la loro scalabilità, efficienza economica e capacità di esplorare casi limite critici per la sicurezza
- Sfide dell'Ambiente Urbano Complesso: Gli incroci urbani in paesi come la Cina presentano modelli di traffico densi e eterogenei, difficili da modellare con i metodi esistenti
- Valore Pratico: La simulazione accurata del traffico è di importanza critica per il dispiegamento sicuro dei sistemi AV
- Copertura di Scenari Insufficiente: I simulatori attuali basati su dati hanno attenzione limitata alla modellazione di interazioni eterogenee dense negli incroci urbani
- Sfide Tecniche: L'apprendimento diretto della distribuzione congiunta ad alta dimensionalità dell'intera scena presenta difficoltà intrinseche, spesso portando al collasso dei modi e all'instabilità della simulazione a lungo termine
- Limitazioni dei Dataset: I dataset esistenti mancano di rappresentazione adeguata delle interazioni dense tra MV, NMV e pedoni
Sviluppare un sistema di simulazione del traffico che possa modellare robustamente le interazioni eterogenee e mantenere la stabilità a lungo termine, rispondendo alle esigenze specifiche degli ambienti urbani complessi in paesi come la Cina.
- Proposta del Dataset CiCross: Un ampio dataset di incroci urbani reali che cattura in modo unico le interazioni multi-agente eterogenee dense
- Progettazione del Simulatore IntersectioNDE: Un simulatore a livello di scena basato su dati specificamente progettato per scenari complessi di incroci urbani
- Innovazione della Strategia di Disaccoppiamento delle Interazioni (IDS): Un paradigma di addestramento che realizza la simulazione dal marginale al congiunto attraverso l'apprendimento della dinamica composita da sottoinsiemi di agenti
- Costruzione di una Rete Transformer Consapevole della Scena: Integrazione di tecniche di addestramento specializzate che migliorano significativamente la robustezza della simulazione e la stabilità a lungo termine
Il compito di simulazione del traffico è modellato come l'apprendimento di un modello generativo capace di produrre stati di scena futuri realistici entro l'intervallo di tempo di predizione Tpred.
Sia Aτ={a1,...,aNτ} l'insieme di Nτ agenti presenti al tempo τ. Lo stato dell'agente aj al tempo τ è sj,τ∈Sagent. L'istanza di scena completa Gτ contiene gli stati degli agenti Sτ, le informazioni statiche della mappa M e lo stato dinamico dei semafori Lτ.
L'obiettivo è apprendere la distribuzione di probabilità condizionata:
Pdata(Gt+1:t+Tpred∣Gt−Thist+1:t)
- Raggruppamento degli Agenti: Partizione dell'insieme di agenti At in k gruppi di interazione disgiunti sulla base di criteri spaziali e comportamentali predefiniti (come TTC):
At={At,1,At,2,...,At,k}
- Campionamento dei Sottoinsiemi: Campionamento casuale di sottoinsiemi di indici di gruppo I⊆{1,...,k}, costruendo istanze di scena contenenti gli agenti campionati
- Apprendimento della Probabilità Condizionata: Addestramento del modello di rete neurale Fθ per predire la distribuzione di probabilità condizionata dell'istanza di scena futura campionata:
Pmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)
- Obiettivo di Addestramento: Minimizzazione della verosimiglianza logaritmica negativa attesa:
L(θ)=−EG^∼DdataEI∼Psample(I)[logPmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)]
Nella fase di inferenza, il modello realizza la predizione dalla scena parziale a quella completa attraverso il seguente meccanismo:
- Apprendimento dei Primitivi di Interazione: L'addestramento IDS consente al modello di acquisire un insieme diversificato di primitivi di interazione condizionati P={p1,p2,...,pL}
- Identificazione e Sintesi dei Primitivi: Per qualsiasi scena Gt, il modello identifica prima la combinazione di primitivi di interazione appresi nella configurazione attuale, quindi sintetizza il loro stato futuro
- Miglioramento della Robustezza: Padroneggiando i blocchi costruttivi fondamentali, il modello è in grado di predire coerentemente la dinamica di scene complesse, anche per combinazioni di interazioni non esplicitamente viste durante l'addestramento
Una rete Transformer multi-input con struttura encoder-interazione-predizione:
- Codifica Multi-Modale degli Input:
- Traiettorie storiche degli agenti: Ht−Thist+1:t∈RN×Thist×6
- Attributi statici degli agenti: As∈RN×6
- Informazioni di percorso: Mr∈RNR×DR
- Stato dei semafori: Md∈RThist×NL×3
- Modulo di Attenzione Incrociata Duale: Combinazione delle caratteristiche degli agenti con le caratteristiche di contesto della scena, producendo caratteristiche degli agenti migliorate consapevoli dell'ambiente
- Rete di Interazione Transformer: Modellazione delle complesse relazioni di dipendenza tra agenti
- Teste di Predizione Specializzate: Predizione dei parametri di distribuzione dello stato cinematico futuro per diverse categorie di agenti
- Scala dei Dati: Circa 700 ore di dati registrati, esperimenti utilizzano un sottoinsieme di 23,6 ore
- Caratteristiche dei Dati: 212.344 fotogrammi (2,5 Hz), 56.578 istanze di agenti unici
- Distribuzione degli Agenti: 54,2% veicoli a motore, 43,3% veicoli non a motore, 2,5% pedoni
- Caratteristiche della Scena: Densità elevata di agenti, picco di distribuzione TTC circa 2 secondi, riflettendo interazioni ad alto rischio
- ADE (Average Displacement Error): Errore di spostamento medio
- FDE (Final Displacement Error): Errore di spostamento finale
- Missing Rate: Tasso di scomparsa degli agenti
- Collapse Time: Tempo di collasso della simulazione
- Hardware: Singola GPU NVIDIA RTX 4090
- Lunghezza storica: Thist=10
- Intervallo di predizione: Tpred=10
- Aumento dei dati: Traslazione, rotazione, spostamento, iniezione di errore di traiettoria
- Simulazione ad anello chiuso: Esecuzione autoregressiva, passo di 1 fotogramma
Tutti i modelli basati su IDS superano i metodi di base, verificando l'efficacia complessiva della strategia:
| Metodo | Tipo di Partecipante | ADE↓ | FDE↓ | Missing Rate↓ |
|---|
| Senza IDS | Veicoli a motore | 0,9047 | 1,6526 | 0,2086 |
| Senza IDS | Veicoli non a motore | 1,2864 | 2,4415 | 0,4553 |
| Senza IDS | Pedoni | 1,2197 | 2,0536 | 0,3732 |
| IDS(TTC=1s) | Veicoli a motore | 0,6693 | 1,2496 | 0,1750 |
| IDS(TTC=1s) | Veicoli non a motore | 0,9869 | 1,9694 | 0,3310 |
| IDS(TTC=1s) | Pedoni | 1,0086 | 1,6150 | 0,2386 |
- Sensibilità della Soglia TTC: Test di soglie 0s, 1s, 2s, 4s, con soglia 1s che raggiunge il miglior equilibrio
- Confronto dei Meccanismi di Attenzione: L'attenzione incrociata duale supera le varianti di attenzione incrociata singola
- Stabilità a Lungo Termine: IDS migliora significativamente il tempo di collasso (895s vs 15s)
Attraverso il confronto delle distribuzioni di velocità e distanza più vicina tra simulazione e dati reali, viene verificata la capacità del modello di replicare la dinamica del traffico urbano a livello distributivo.
Presentazione di tre scenari di interazione tipici:
- Veicolo non a motore che attraversa con il rosso incontra un ostacolo e rallenta
- Veicolo a motore che cede il passo rallenta
- Veicolo a motore che gira a destra incontra il flusso di veicoli non a motore e passa rapidamente
I dataset esistenti (Waymo, nuScenes, Argoverse, ecc.) sebbene di grande scala e di valore, hanno limitazioni nella rappresentazione di interazioni dense negli incroci urbani complessi.
- Basati su Regole: SUMO, VISSIM, ecc., dipendono da parametri predefiniti, difficili da riprodurre la diversità dei comportamenti di guida reali
- Basati su Dati:
- Metodi incentrati sull'agente: Apprendimento del comportamento individuale, ma bassa efficienza e difficile coordinamento di interazioni complesse
- Metodi a livello di scena: Output diretto dello stato successivo dell'intera scena, ma affrontano sfide nell'apprendimento di distribuzioni ad alta dimensionalità
- Il dataset CiCross cattura con successo le caratteristiche di interazione eterogenea degli incroci urbani complessi
- La strategia IDS risolve efficacemente le sfide dell'apprendimento della distribuzione congiunta ad alta dimensionalità
- IntersectioNDE supera significativamente i metodi di base in fedeltà di simulazione, stabilità e capacità di replicazione distributiva
- Specificità Geografica del Dataset: Principalmente basato su incroci urbani cinesi, potrebbe presentare pregiudizi geografici
- Complessità Computazionale: Costi computazionali dell'architettura Transformer in scenari su larga scala
- Definizione delle Interazioni: Il raggruppamento delle interazioni basato su TTC potrebbe essere eccessivamente semplificato per modelli di interazione complessi
- Valutazione a Lungo Termine: Sebbene la stabilità sia migliorata, le prestazioni di simulazione ultra-lungo termine richiedono ancora verifica
- Estensione a più aree geografiche e modelli di traffico
- Ottimizzazione dell'efficienza computazionale
- Esplorazione di metodi di modellazione delle interazioni più raffinati
- Integrazione di ulteriori modalità di sensori
- Forte Specificità del Problema: Focalizzazione sulle esigenze reali del traffico urbano complesso in paesi come la Cina
- Alta Innovatività del Metodo: La strategia IDS risolve abilmente il problema dell'apprendimento di distribuzioni ad alta dimensionalità
- Grande Valore del Dataset: CiCross colma il vuoto nei dati di interazioni eterogenee dense
- Esperimenti Completi: Include esperimenti di ablazione dettagliati e analisi di casi
- Forte Praticità: Migliora significativamente la stabilità della simulazione a lungo termine
- Analisi Teorica Insufficiente: Manca l'analisi della convergenza teorica della strategia IDS
- Intervallo di Confronto Limitato: Principalmente confronti con baseline auto-costruiti, manca il confronto con altri metodi SOTA
- Capacità di Generalizzazione Sconosciuta: Verificato solo su dati di un singolo incrocio, la capacità di generalizzazione tra scene rimane da verificare
- Costi Computazionali Non Riportati: Manca l'analisi dettagliata dei tempi di addestramento e inferenza
- Contributo Accademico: Fornisce nuovi approcci risolutivi per la simulazione del traffico urbano complesso
- Valore Pratico: Di importanza significativa per la verifica dei sistemi AV in ambienti urbani complessi
- Contributo ai Dataset: Il dataset CiCross può promuovere lo sviluppo della ricerca correlata
- Riproducibilità: La descrizione del metodo è chiara e possiede buona riproducibilità
- Simulazione di Incroci Urbani: Particolarmente adatto a scenari di interazione multi-agente ad alta densità e tipo eterogeneo
- Test di Veicoli Autonomi: Fornisce strumenti per la verifica della sicurezza dei sistemi AV in ambienti urbani complessi
- Pianificazione del Traffico: Può essere utilizzato per l'analisi e l'ottimizzazione del flusso di traffico urbano
- Piattaforma di Ricerca: Fornisce una piattaforma di base per la ricerca sulla modellazione del comportamento del traffico
L'articolo cita lavori importanti nei campi della simulazione del traffico, dei veicoli autonomi e dell'apprendimento profondo, inclusi il dataset Waymo, NeuralNDE e varie architetture Transformer, riflettendo una comprensione completa e una riflessione profonda sui campi correlati.