2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.
Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
academic

IntersectioNDE: इंटरैक्शन डिकपलिंग स्ट्रेटेजी के आधार पर जटिल शहरी ट्रैफिक गतिशीलता सीखना

मूल जानकारी

  • पेपर ID: 2510.11534
  • शीर्षक: IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy
  • लेखक: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (थिंघुआ विश्वविद्यालय)
  • वर्गीकरण: cs.RO (रोबोटिक्स), cs.SY (सिस्टम और नियंत्रण), eess.SY (सिस्टम और नियंत्रण)
  • प्रकाशन तिथि: 13 अक्टूबर 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.11534

सारांश

वास्तविक ट्रैफिक सिमुलेशन स्वायत्त वाहनों (AV) की सुरक्षा और विश्वसनीयता सुनिश्चित करने के लिए महत्वपूर्ण है, विशेष रूप से जटिल और विविध शहरी ट्रैफिक वातावरण में। हालांकि, मौजूदा डेटा-संचालित सिमुलेटर दो महत्वपूर्ण चुनौतियों का सामना करते हैं: शहरी चौराहों में घने विषमांगी इंटरैक्शन के मॉडलिंग पर सीमित ध्यान, और उच्च-घनत्व परिदृश्यों में मजबूत तरीके से उच्च-आयामी संयुक्त वितरण सीखने की अंतर्निहित कठिनाई। यह पेपर City Crossings Dataset (CiCross) प्रस्तुत करता है, जो वास्तविक शहरी चौराहों से एकत्र किया गया एक बड़े पैमाने पर डेटासेट है, जो अद्वितीय रूप से घने विषमांगी बहु-एजेंट इंटरैक्शन को कैप्चर करता है। इस डेटासेट के आधार पर, IntersectioNDE प्रस्तावित किया गया है, जो जटिल शहरी चौराहे के परिदृश्यों के लिए एक डेटा-संचालित सिमुलेटर है, जिसका मुख्य घटक इंटरैक्शन डिकपलिंग स्ट्रेटेजी (IDS) है, जो एजेंट सबसेट से संयुक्त गतिशीलता सीखने में सक्षम है, सीमांत से संयुक्त सिमुलेशन को प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान जो मुख्य समस्या को हल करने का प्रयास करता है वह है जटिल शहरी चौराहों का उच्च-निष्ठा ट्रैफिक सिमुलेशन, विशेष रूप से मोटर वाहन (MVs), गैर-मोटर वाहन (NMVs) और पैदल चलने वालों के घने विषमांगी इंटरैक्शन परिदृश्य।

समस्या की महत्ता

  1. स्वायत्त वाहन सुरक्षा सत्यापन की आवश्यकता: सिमुलेशन परीक्षण इसकी स्केलेबिलिटी, लागत-प्रभावशीलता और सुरक्षा-महत्वपूर्ण सीमांत मामलों की खोज करने की क्षमता के कारण व्यापक रूप से अपनाया जाता है
  2. जटिल शहरी वातावरण चुनौतियां: चीन जैसे देशों में शहरी चौराहे घने, विषमांगी ट्रैफिक पैटर्न प्रदर्शित करते हैं, जिन्हें मौजूदा तरीके प्रभावी ढंग से मॉडल करने में विफल रहते हैं
  3. व्यावहारिक मूल्य: सटीक ट्रैफिक सिमुलेशन AV सिस्टम की सुरक्षित तैनाती के लिए महत्वपूर्ण है

मौजूदा तरीकों की सीमाएं

  1. परिदृश्य कवरेज अपर्याप्त: मौजूदा डेटा-संचालित सिमुलेटर घने विषमांगी शहरी चौराहे इंटरैक्शन के मॉडलिंग पर सीमित ध्यान देते हैं
  2. तकनीकी चुनौतियां: पूरे परिदृश्य के उच्च-आयामी संयुक्त वितरण को सीधे सीखने में अंतर्निहित कठिनाई होती है, जो अक्सर मोड कोलैप्स और दीर्घकालीन सिमुलेशन अस्थिरता का कारण बनती है
  3. डेटासेट सीमाएं: मौजूदा डेटासेट MVs, NMVs और पैदल चलने वालों के घने इंटरैक्शन का पर्याप्त प्रतिनिधित्व नहीं करते हैं

अनुसंधान प्रेरणा

चीन जैसे देशों के जटिल शहरी ट्रैफिक वातावरण की विशेष आवश्यकताओं को संबोधित करते हुए, विषमांगी इंटरैक्शन को मजबूत तरीके से मॉडल करने और दीर्घकालीन स्थिरता बनाए रखने में सक्षम ट्रैफिक सिमुलेशन सिस्टम विकसित करना।

मुख्य योगदान

  1. CiCross डेटासेट प्रस्तावित किया: बड़े पैमाने पर वास्तविक शहरी चौराहे डेटासेट, जो अद्वितीय रूप से घने विषमांगी बहु-एजेंट इंटरैक्शन को कैप्चर करता है
  2. IntersectioNDE सिमुलेटर डिजाइन किया: जटिल शहरी चौराहे परिदृश्यों के लिए विशेष रूप से डिजाइन किया गया डेटा-संचालित परिदृश्य-स्तरीय सिमुलेटर
  3. इंटरैक्शन डिकपलिंग स्ट्रेटेजी (IDS) में नवाचार किया: एजेंट सबसेट से संयुक्त गतिशीलता सीखकर, सीमांत से संयुक्त सिमुलेशन के प्रशिक्षण प्रतिमान को प्राप्त करता है
  4. परिदृश्य-जागरूक Transformer नेटवर्क का निर्माण किया: विशेष प्रशिक्षण तकनीकों को एकीकृत करता है, सिमुलेशन मजबूती और दीर्घकालीन स्थिरता में महत्वपूर्ण सुधार करता है

विधि विवरण

कार्य परिभाषा

ट्रैफिक सिमुलेशन कार्य को एक जनरेटिव मॉडल सीखने के रूप में मॉडल किया जाता है, जो पूर्वानुमान समय सीमा TpredT_{pred} के भीतर वास्तविक भविष्य के परिदृश्य स्थितियां उत्पन्न कर सकता है।

Aτ={a1,...,aNτ}A_τ = \{a_1, ..., a_{N_τ}\} को समय ττ पर मौजूद NτN_τ एजेंटों का समुच्चय माना जाता है। एजेंट aja_j की समय ττ पर स्थिति sj,τSagents_{j,τ} ∈ S_{agent} है। पूर्ण परिदृश्य उदाहरण GτG_τ में एजेंट स्थितियां SτS_τ, स्थिर मानचित्र जानकारी MM और गतिशील ट्रैफिक लाइट स्थिति LτL_τ शामिल हैं।

लक्ष्य सशर्त संभाव्यता वितरण सीखना है: Pdata(Gt+1:t+TpredGtThist+1:t)P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})

इंटरैक्शन डिकपलिंग स्ट्रेटेजी (IDS)

IDS प्रशिक्षण प्रक्रिया

  1. एजेंट समूहीकरण: पूर्वनिर्धारित स्थानिक और व्यवहार मानदंड (जैसे TTC) के आधार पर एजेंट समुच्चय AtA_t को kk असंबद्ध इंटरैक्शन समूहों में विभाजित करना: At={At,1,At,2,...,At,k}A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}
  2. सबसेट सैंपलिंग: समूह सूचकांक सबसेट I{1,...,k}I ⊆ \{1, ..., k\} को यादृच्छिक रूप से सैंपल करना, सैंपल किए गए एजेंटों वाले परिदृश्य उदाहरण का निर्माण करना
  3. सशर्त संभाव्यता सीखना: तंत्रिका नेटवर्क मॉडल FθF_θ को सैंपल किए गए भविष्य के परिदृश्य उदाहरण के सशर्त संभाव्यता वितरण की भविष्यवाणी करने के लिए प्रशिक्षित करना: Pmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)
  4. प्रशिक्षण उद्देश्य: अपेक्षित नकारात्मक लॉग संभाव्यता को कम करना: L(θ)=EG^DdataEIPsample(I)[logPmodel(G^t+1:t+Tpred(I)GtThist+1:tGT(I);θ)]L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]

सीमांत से संयुक्त सिमुलेशन

अनुमान चरण में, मॉडल निम्नलिखित तंत्र के माध्यम से आंशिक से पूर्ण परिदृश्य की भविष्यवाणी प्राप्त करता है:

  1. इंटरैक्शन प्राइमिटिव सीखना: IDS प्रशिक्षण मॉडल को विविध सशर्त इंटरैक्शन प्राइमिटिव समुच्चय P={p1,p2,...,pL}P = \{p_1, p_2, ..., p_L\} प्राप्त करने में सक्षम बनाता है
  2. प्राइमिटिव पहचान और संश्लेषण: किसी भी परिदृश्य GtG_t के लिए, मॉडल पहले वर्तमान कॉन्फ़िगरेशन में सीखे गए इंटरैक्शन प्राइमिटिव संयोजन की पहचान करता है, फिर इसकी भविष्य की स्थिति को संश्लेषित करता है
  3. मजबूती वृद्धि: मूल निर्माण खंडों में महारत हासिल करके, मॉडल जटिल परिदृश्य गतिशीलता की सुसंगत भविष्यवाणी कर सकता है, भले ही प्रशिक्षण में स्पष्ट रूप से न देखे गए इंटरैक्शन संयोजनों के लिए

नेटवर्क आर्किटेक्चर

परिदृश्य-जागरूक इंटरैक्शन Transformer

एनकोडर-इंटरैक्शन-भविष्यवाणी संरचना के साथ बहु-इनपुट Transformer नेटवर्क का उपयोग:

  1. बहु-मोडल इनपुट एन्कोडिंग:
    • ऐतिहासिक एजेंट ट्रैजेक्टरी: HtThist+1:tRN×Thist×6H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}
    • एजेंट स्थिर विशेषताएं: AsRN×6A_s ∈ R^{N×6}
    • मार्ग जानकारी: MrRNR×DRM_r ∈ R^{N_R×D_R}
    • ट्रैफिक लाइट स्थिति: MdRThist×NL×3M_d ∈ R^{T_{hist}×N_L×3}
  2. दोहरी क्रॉस-अटेंशन मॉड्यूल: एजेंट विशेषताओं को परिदृश्य संदर्भ विशेषताओं के साथ संयोजित करता है, पर्यावरण-जागरूक वर्धित एजेंट विशेषताएं उत्पन्न करता है
  3. Transformer इंटरैक्शन नेटवर्क: जटिल एजेंट-अंतर-निर्भरताओं को मॉडल करता है
  4. विशेष भविष्यवाणी हेड: विभिन्न एजेंट श्रेणियों के लिए भविष्य की गतिशीलता स्थिति वितरण पैरामीटर की भविष्यवाणी करता है

प्रयोगात्मक सेटअप

CiCross डेटासेट

  • डेटा स्केल: लगभग 700 घंटे रिकॉर्ड किए गए डेटा, प्रयोग 23.6 घंटे सबसेट का उपयोग करते हैं
  • डेटा विशेषताएं: 212,344 फ्रेम (2.5Hz), 56,578 अद्वितीय एजेंट उदाहरण
  • एजेंट वितरण: 54.2% मोटर वाहन, 43.3% गैर-मोटर वाहन, 2.5% पैदल चलने वाले
  • परिदृश्य विशेषताएं: उच्च एजेंट घनत्व, TTC वितरण शिखर लगभग 2 सेकंड, उच्च जोखिम इंटरैक्शन को दर्शाता है

मूल्यांकन मेट्रिक्स

  • ADE (औसत विस्थापन त्रुटि): औसत विस्थापन त्रुटि
  • FDE (अंतिम विस्थापन त्रुटि): अंतिम विस्थापन त्रुटि
  • Missing Rate: एजेंट लापता दर
  • Collapse Time: सिमुलेशन पतन समय

कार्यान्वयन विवरण

  • हार्डवेयर: एकल NVIDIA RTX 4090 GPU
  • ऐतिहासिक लंबाई: Thist=10T_{hist} = 10
  • भविष्यवाणी सीमा: Tpred=10T_{pred} = 10
  • डेटा वृद्धि: अनुवाद, घूर्णन, विस्थापन, ट्रैजेक्टरी त्रुटि इंजेक्शन
  • बंद-लूप सिमुलेशन: स्वचालित निष्पादन, 1 फ्रेम स्टेप साइज

प्रयोगात्मक परिणाम

मुख्य परिणाम

सभी IDS-आधारित मॉडल बेसलाइन विधियों से बेहतर हैं, रणनीति की समग्र प्रभावशीलता को सत्यापित करते हैं:

विधिप्रतिभागी प्रकारADE↓FDE↓Missing Rate↓
IDS के बिनामोटर वाहन0.90471.65260.2086
IDS के बिनागैर-मोटर वाहन1.28642.44150.4553
IDS के बिनापैदल चलने वाले1.21972.05360.3732
IDS(TTC=1s)मोटर वाहन0.66931.24960.1750
IDS(TTC=1s)गैर-मोटर वाहन0.98691.96940.3310
IDS(TTC=1s)पैदल चलने वाले1.00861.61500.2386

विलोपन प्रयोग

  1. TTC थ्रेशोल्ड संवेदनशीलता: 0s, 1s, 2s, 4s थ्रेशोल्ड का परीक्षण, 1s थ्रेशोल्ड सर्वोत्तम संतुलन प्राप्त करता है
  2. अटेंशन तंत्र तुलना: दोहरी क्रॉस-अटेंशन एकल क्रॉस-अटेंशन वेरिएंट से बेहतर है
  3. दीर्घकालीन स्थिरता: IDS पतन समय में महत्वपूर्ण सुधार (895s बनाम 15s)

वितरण निष्ठा मूल्यांकन

सिमुलेशन और वास्तविक डेटा के वेग वितरण और निकटतम दूरी वितरण की तुलना करके, मॉडल की वितरण-स्तरीय शहरी ट्रैफिक गतिशीलता को दोहराने की क्षमता को सत्यापित किया।

केस विश्लेषण

तीन विशिष्ट इंटरैक्शन परिदृश्य प्रदर्शित करता है:

  1. गैर-मोटर वाहन लाल बत्ती तोड़ता है और बाधा से धीमा होता है
  2. मोटर वाहन विनम्रता से धीमा होता है
  3. मोटर वाहन दाएं मुड़ता है और गैर-मोटर वाहन प्रवाह से तेजी से गुजरता है

संबंधित कार्य

ट्रैफिक डेटासेट

मौजूदा डेटासेट (Waymo, nuScenes, Argoverse आदि) हालांकि बड़े पैमाने पर और मूल्यवान हैं, जटिल शहरी चौराहे घने इंटरैक्शन प्रतिनिधित्व में सीमाएं हैं।

ट्रैफिक सिमुलेशन विधियां

  • नियम-आधारित: SUMO, VISSIM आदि, पूर्वनिर्धारित पैरामीटर पर निर्भर, वास्तविक ड्राइविंग व्यवहार विविधता को पुनः प्रस्तुत करने में कठिन
  • डेटा-संचालित:
    • एजेंट-केंद्रित विधि: व्यक्तिगत व्यवहार सीखता है, लेकिन दक्षता कम और जटिल इंटरैक्शन समन्वय में कठिन
    • परिदृश्य-स्तरीय विधि: पूरे परिदृश्य की अगली स्थिति को सीधे आउटपुट करता है, लेकिन उच्च-आयामी वितरण सीखने की चुनौती का सामना करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. CiCross डेटासेट जटिल शहरी चौराहे की विषमांगी इंटरैक्शन विशेषताओं को सफलतापूर्वक कैप्चर करता है
  2. IDS रणनीति उच्च-आयामी संयुक्त वितरण सीखने की चुनौती को प्रभावी ढंग से हल करती है
  3. IntersectioNDE सिमुलेशन निष्ठा, स्थिरता और वितरण प्रतिकृति क्षमता में बेसलाइन विधियों से महत्वपूर्ण रूप से बेहतर है

सीमाएं

  1. डेटासेट भौगोलिकता: मुख्य रूप से चीनी शहरी चौराहों पर आधारित, संभावित भौगोलिक पूर्वाग्रह हो सकता है
  2. कम्प्यूटेशनल जटिलता: बड़े पैमाने पर परिदृश्यों में Transformer आर्किटेक्चर की कम्प्यूटेशनल ओवरहेड
  3. इंटरैक्शन परिभाषा: TTC-आधारित इंटरैक्शन समूहीकरण जटिल इंटरैक्शन पैटर्न को अत्यधिक सरल बना सकता है
  4. दीर्घकालीन मूल्यांकन: हालांकि स्थिरता में सुधार हुआ है, अति-दीर्घकालीन सिमुलेशन प्रदर्शन को अभी भी सत्यापन की आवश्यकता है

भविष्य की दिशाएं

  1. अधिक भौगोलिक क्षेत्रों और ट्रैफिक पैटर्न तक विस्तार
  2. कम्प्यूटेशनल दक्षता को अनुकूलित करना
  3. अधिक परिष्कृत इंटरैक्शन मॉडलिंग विधियों की खोज
  4. अधिक सेंसर मोडल को एकीकृत करना

गहन मूल्यांकन

शक्तियां

  1. समस्या लक्ष्य शक्तिशाली: चीन जैसे देशों के जटिल शहरी ट्रैफिक की वास्तविक आवश्यकताओं पर केंद्रित
  2. विधि नवाचार उच्च: IDS रणनीति उच्च-आयामी वितरण सीखने की कठिनाई को चतुराई से हल करती है
  3. डेटासेट मूल्य बड़ा: CiCross घने विषमांगी इंटरैक्शन डेटा के अंतराल को भरता है
  4. प्रयोग व्यापक: विस्तृत विलोपन प्रयोग और केस विश्लेषण शामिल
  5. व्यावहारिकता मजबूत: दीर्घकालीन सिमुलेशन स्थिरता में महत्वपूर्ण सुधार

कमियां

  1. सैद्धांतिक विश्लेषण अपर्याप्त: IDS रणनीति के सैद्धांतिक अभिसरण विश्लेषण की कमी
  2. तुलना सीमा सीमित: मुख्य रूप से स्व-निर्मित बेसलाइन के साथ तुलना, अन्य SOTA विधियों के साथ तुलना की कमी
  3. सामान्यीकरण क्षमता अज्ञात: केवल एकल चौराहे डेटा पर सत्यापित, क्रॉस-परिदृश्य सामान्यीकरण क्षमता अभी भी सत्यापन की प्रतीक्षा में है
  4. कम्प्यूटेशनल ओवरहेड रिपोर्ट नहीं: प्रशिक्षण और अनुमान समय का विस्तृत विश्लेषण की कमी

प्रभाव

  1. शैक्षणिक योगदान: जटिल शहरी ट्रैफिक सिमुलेशन के लिए नई समस्या-समाधान सोच प्रदान करता है
  2. व्यावहारिक मूल्य: जटिल शहरी वातावरण में AV सिस्टम सत्यापन के लिए महत्वपूर्ण
  3. डेटा योगदान: CiCross डेटासेट संबंधित अनुसंधान विकास को बढ़ावा दे सकता है
  4. पुनरुत्पादनीयता: विधि विवरण स्पष्ट, अच्छी पुनरुत्पादनीयता है

लागू परिदृश्य

  1. शहरी चौराहे सिमुलेशन: विशेष रूप से उच्च-घनत्व, बहु-प्रकार एजेंट इंटरैक्शन परिदृश्यों के लिए उपयुक्त
  2. स्वायत्त वाहन परीक्षण: जटिल शहरी वातावरण में AV सिस्टम सुरक्षा सत्यापन के लिए उपकरण प्रदान करता है
  3. ट्रैफिक योजना: शहरी ट्रैफिक प्रवाह विश्लेषण और अनुकूलन के लिए उपयोग किया जा सकता है
  4. अनुसंधान मंच: ट्रैफिक व्यवहार मॉडलिंग अनुसंधान के लिए आधार मंच प्रदान करता है

संदर्भ

पेपर ट्रैफिक सिमुलेशन, स्वायत्त ड्राइविंग, गहन शिक्षा आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें Waymo डेटासेट, NeuralNDE, विभिन्न Transformer आर्किटेक्चर आदि शामिल हैं, जो संबंधित क्षेत्रों की व्यापक समझ और गहन विचार को दर्शाता है।