Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.
- معرّف الورقة: 2510.11534
- العنوان: IntersectioNDE: تعلم ديناميكيات حركة المرور الحضرية المعقدة بناءً على استراتيجية فك الارتباط التفاعلي
- المؤلفون: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (جامعة تسينغهوا)
- التصنيف: cs.RO (الروبوتات)، cs.SY (الأنظمة والتحكم)، eess.SY (الأنظمة والتحكم)
- تاريخ النشر: 13 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.11534
يعتبر محاكاة حركة المرور الواقعية أمراً حاسماً لضمان سلامة وموثوقية المركبات ذاتية القيادة (AV)، خاصة في بيئات حركة المرور الحضرية المعقدة والمتنوعة. ومع ذلك، تواجه محاكيات حركة المرور المستندة إلى البيانات تحديين رئيسيين: الاهتمام المحدود بنمذجة التفاعلات غير المتجانسة الكثيفة في التقاطعات الحضرية، والصعوبة الأساسية في تعلم التوزيعات المشتركة عالية الأبعاد بشكل قوي في السيناريوهات عالية الكثافة. تقدم هذه الورقة مجموعة بيانات التقاطعات الحضرية (CiCross)، وهي مجموعة بيانات واسعة النطاق تم جمعها من تقاطعات حضرية حقيقية، وتلتقط بشكل فريد التفاعلات متعددة الوكلاء غير المتجانسة الكثيفة. بناءً على هذه المجموعة، يتم اقتراح IntersectioNDE، وهي محاكاة مستندة إلى البيانات مخصصة لسيناريوهات التقاطعات الحضرية المعقدة، حيث المكون الأساسي هو استراتيجية فك الارتباط التفاعلي (IDS)، التي تمكن من تعلم الديناميكيات المركبة من مجموعات فرعية من الوكلاء، مما يحقق محاكاة من الهامشية إلى المشتركة.
المشكلة الأساسية التي تعالجها هذه الدراسة هي محاكاة حركة المرور عالية الدقة للتقاطعات الحضرية المعقدة، خاصة في السيناريوهات التي تتضمن تفاعلات كثيفة وغير متجانسة بين المركبات (MVs) والمركبات غير الآلية (NMVs) والمشاة.
- الحاجة إلى التحقق من سلامة المركبات ذاتية القيادة: يتم اعتماد اختبارات المحاكاة على نطاق واسع لقابليتها للتوسع وفعاليتها من حيث التكلفة وقدرتها على استكشاف الحالات الحدية الحرجة للسلامة
- تحديات البيئة الحضرية المعقدة: تظهر التقاطعات الحضرية في دول مثل الصين أنماط حركة مرور كثيفة وغير متجانسة، مما يصعب على الطرق الحالية نمذجتها بفعالية
- القيمة العملية: تعتبر محاكاة حركة المرور الدقيقة ذات أهمية حاسمة للنشر الآمن لأنظمة المركبات ذاتية القيادة
- تغطية السيناريوهات غير الكافية: تركز محاكيات حركة المرور المستندة إلى البيانات الموجودة بشكل محدود على نمذجة التفاعلات الكثيفة وغير المتجانسة في التقاطعات الحضرية
- التحديات التقنية: يؤدي التعلم المباشر للتوزيع المشترك عالي الأبعاد للمشهد الكامل إلى صعوبات أساسية، مما يسبب غالباً انهيار الأنماط وعدم استقرار المحاكاة على المدى الطويل
- قيود مجموعات البيانات: تفتقر مجموعات البيانات الموجودة إلى تمثيل كافٍ للتفاعلات الكثيفة بين المركبات والمركبات غير الآلية والمشاة
تطوير نظام محاكاة حركة مرور قادر على نمذجة التفاعلات غير المتجانسة بشكل قوي والحفاظ على الاستقرار على المدى الطويل، موجه نحو الاحتياجات الخاصة للبيئات الحضرية المعقدة في دول مثل الصين.
- اقتراح مجموعة بيانات CiCross: مجموعة بيانات واسعة النطاق من التقاطعات الحضرية الحقيقية، تلتقط بشكل فريد التفاعلات متعددة الوكلاء غير المتجانسة الكثيفة
- تصميم محاكاة IntersectioNDE: محاكاة مستندة إلى البيانات على مستوى السيناريو مخصصة لسيناريوهات التقاطعات الحضرية المعقدة
- ابتكار استراتيجية فك الارتباط التفاعلي (IDS): نموذج تدريب يحقق محاكاة من الهامشية إلى المشتركة من خلال تعلم الديناميكيات المركبة من مجموعات فرعية من الوكلاء
- بناء شبكة Transformer الحساسة للمشهد: شبكة متعددة المدخلات مع تقنيات تدريب متخصصة، مما يعزز بشكل كبير قوة المحاكاة والاستقرار على المدى الطويل
يتم نمذجة مهمة محاكاة حركة المرور كتعلم نموذج توليدي قادر على إنتاج حالات مشهد مستقبلية واقعية خلال نطاق التنبؤ الزمني Tpred.
دع Aτ={a1,...,aNτ} تكون مجموعة Nτ من الوكلاء الموجودين في الوقت τ. حالة الوكيل aj في الوقت τ هي sj,τ∈Sagent. مثيل المشهد الكامل Gτ يتضمن حالات الوكلاء Sτ ومعلومات الخريطة الثابتة M وحالات إشارات المرور الديناميكية Lτ.
الهدف هو تعلم التوزيع الاحتمالي الشرطي:
Pdata(Gt+1:t+Tpred∣Gt−Thist+1:t)
- تجميع الوكلاء: تقسيم مجموعة الوكلاء At إلى k مجموعات تفاعلية منفصلة بناءً على معايير مكانية وسلوكية محددة مسبقاً (مثل TTC):
At={At,1,At,2,...,At,k}
- أخذ عينات من المجموعات الفرعية: أخذ عينات عشوائية من مجموعة فرعية من فهارس المجموعات I⊆{1,...,k}، وبناء مثيل مشهد يحتوي على الوكلاء المأخوذة عينات منهم
- تعلم الاحتمالية الشرطية: تدريب نموذج الشبكة العصبية Fθ للتنبؤ بالتوزيع الاحتمالي الشرطي لمثيل المشهد المستقبلي المأخوذ عينات منه:
Pmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)
- هدف التدريب: تقليل احتمالية السجل السالب المتوقعة:
L(θ)=−EG^∼DdataEI∼Psample(I)[logPmodel(G^t+1:t+Tpred(I)∣Gt−Thist+1:tGT(I);θ)]
في مرحلة الاستدلال، يحقق النموذج التنبؤ من المشهد الجزئي إلى الكامل من خلال الآلية التالية:
- تعلم البدائيات التفاعلية: يكتسب النموذج من خلال تدريب IDS مجموعة متنوعة من البدائيات التفاعلية الشرطية P={p1,p2,...,pL}
- تحديد البدائيات والتركيب: بالنسبة لأي مشهد Gt، يحدد النموذج أولاً مجموعة البدائيات التفاعلية المتعلمة في التكوين الحالي، ثم يركب حالتها المستقبلية
- تعزيز القوة: من خلال إتقان اللبنات الأساسية، يمكن للنموذج التنبؤ بشكل متماسك بديناميكيات المشهد المعقد، حتى بالنسبة لمجموعات التفاعل التي لم يشهدها بشكل صريح أثناء التدريب
تستخدم شبكة Transformer متعددة المدخلات بهيكل مشفر-تفاعلي-تنبؤي:
- ترميز المدخلات متعددة الأنماط:
- المسارات التاريخية للوكلاء: Ht−Thist+1:t∈RN×Thist×6
- الخصائص الثابتة للوكلاء: As∈RN×6
- معلومات المسار: Mr∈RNR×DR
- حالات إشارات المرور: Md∈RThist×NL×3
- وحدة الانتباه المتقاطع المزدوج: دمج ميزات الوكلاء مع ميزات السياق المشهد، مما ينتج عنه ميزات وكيل محسّنة وحساسة للبيئة
- شبكة Transformer التفاعلية: نمذجة العلاقات المعقدة بين الوكلاء
- رؤوس تنبؤ متخصصة: التنبؤ بمعاملات توزيع حالات الحركة المستقبلية لفئات الوكلاء المختلفة
- حجم البيانات: حوالي 700 ساعة من بيانات التسجيل، مع استخدام مجموعة فرعية بحجم 23.6 ساعة في التجارب
- خصائص البيانات: 212,344 إطار (2.5 هرتز)، 56,578 مثيل وكيل فريد
- توزيع الوكلاء: 54.2% مركبات، 43.3% مركبات غير آلية، 2.5% مشاة
- خصائص المشهد: كثافة وكيل عالية، توزيع TTC بقمة حوالي ثانيتين، مما يعكس تفاعلات عالية المخاطر
- ADE (متوسط خطأ الإزاحة): متوسط الخطأ في الإزاحة
- FDE (خطأ الإزاحة النهائي): خطأ الإزاحة في الإطار الأخير
- Missing Rate: معدل اختفاء الوكلاء
- Collapse Time: وقت انهيار المحاكاة
- الأجهزة: وحدة معالجة رسومات NVIDIA RTX 4090 واحدة
- طول السجل التاريخي: Thist=10
- نطاق التنبؤ: Tpred=10
- تعزيز البيانات: الترجمة والدوران والإزاحة وحقن أخطاء المسار
- المحاكاة في الحلقة المغلقة: التنفيذ الانحداري، خطوة بخطوة واحدة
تتفوق جميع النماذج القائمة على IDS على طرق الأساس، مما يتحقق من الفعالية الشاملة للاستراتيجية:
| الطريقة | نوع المشارك | ADE↓ | FDE↓ | Missing Rate↓ |
|---|
| بدون IDS | مركبات | 0.9047 | 1.6526 | 0.2086 |
| بدون IDS | مركبات غير آلية | 1.2864 | 2.4415 | 0.4553 |
| بدون IDS | مشاة | 1.2197 | 2.0536 | 0.3732 |
| IDS(TTC=1s) | مركبات | 0.6693 | 1.2496 | 0.1750 |
| IDS(TTC=1s) | مركبات غير آلية | 0.9869 | 1.9694 | 0.3310 |
| IDS(TTC=1s) | مشاة | 1.0086 | 1.6150 | 0.2386 |
- حساسية عتبة TTC: اختبار عتبات 0 ثانية و1 ثانية و2 ثانية و4 ثوان، حيث تحقق عتبة 1 ثانية أفضل توازن
- مقارنة آليات الانتباه: يتفوق الانتباه المتقاطع المزدوج على متغيرات الانتباه المتقاطع الفردي
- الاستقرار على المدى الطويل: يحسّن IDS بشكل كبير وقت الانهيار (895 ثانية مقابل 15 ثانية)
من خلال مقارنة توزيعات السرعة وتوزيعات أقرب مسافة بين البيانات المحاكاة والبيانات الحقيقية، يتم التحقق من قدرة النموذج على نسخ ديناميكيات حركة المرور الحضرية على مستوى التوزيع.
يعرض ثلاث سيناريوهات تفاعلية نموذجية:
- مركبة غير آلية تخترق إشارة حمراء وتواجه عائقاً وتبطئ
- مركبة تتنازل وتبطئ
- مركبة تنعطف لليمين وتمر بسرعة عبر تدفق المركبات غير الآلية
على الرغم من أن مجموعات البيانات الموجودة (Waymo و nuScenes و Argoverse وغيرها) كبيرة الحجم وذات قيمة، إلا أنها محدودة في تمثيل التفاعلات الكثيفة غير المتجانسة في التقاطعات الحضرية المعقدة.
- الطرق القائمة على القواعد: SUMO و VISSIM وغيرها، تعتمد على معاملات محددة مسبقاً، مما يصعب إعادة إنتاج تنوع السلوك الحقيقي للقيادة
- الطرق المستندة إلى البيانات:
- طرق مركزة على الوكيل: تعلم السلوك الفردي، لكنها غير فعالة وصعبة التنسيق للتفاعلات المعقدة
- طرق على مستوى المشهد: إخراج الحالة التالية للمشهد بأكمله مباشرة، لكنها تواجه تحديات في تعلم التوزيعات عالية الأبعاد
- نجحت مجموعة بيانات CiCross في التقاط خصائص التفاعلات غير المتجانسة في التقاطعات الحضرية المعقدة
- أثبتت استراتيجية IDS فعاليتها في حل تحديات تعلم التوزيع المشترك عالي الأبعاد
- تتفوق IntersectioNDE بشكل كبير على طرق الأساس من حيث دقة المحاكاة والاستقرار وقدرة نسخ التوزيع
- الطابع الجغرافي لمجموعة البيانات: تستند بشكل أساسي إلى التقاطعات الحضرية الصينية، مما قد يؤدي إلى انحياز جغرافي
- التعقيد الحسابي: التكلفة الحسابية لمعمارية Transformer في السيناريوهات واسعة النطاق
- تعريف التفاعل: قد يكون تجميع التفاعلات بناءً على TTC مبسطاً جداً للأنماط التفاعلية المعقدة
- التقييم على المدى الطويل: على الرغم من تحسين الاستقرار، لا تزال الأداء على المدى الطويل جداً بحاجة إلى التحقق
- التوسع إلى مناطق جغرافية وأنماط حركة مرور أكثر تنوعاً
- تحسين الكفاءة الحسابية
- استكشاف طرق نمذجة تفاعلية أكثر دقة
- دمج أنماط استشعار إضافية
- قوة استهداف المشكلة: التركيز على الاحتياجات العملية الفعلية لحركة المرور الحضرية المعقدة في دول مثل الصين
- ابتكار الطريقة العالي: استراتيجية IDS تحل بذكاء مشكلة تعلم التوزيع عالي الأبعاد
- قيمة مجموعة البيانات الكبيرة: تملأ CiCross الفراغ في بيانات التفاعلات غير المتجانسة الكثيفة
- التجارب الشاملة: تتضمن تجارب استئصالية مفصلة وتحليل الحالات
- القوة العملية: تحسن بشكل كبير استقرار المحاكاة على المدى الطويل
- نقص التحليل النظري: غياب تحليل التقارب النظري لاستراتيجية IDS
- نطاق المقارنة محدود: المقارنة الأساسية مع خطوط الأساس المبنية ذاتياً، مع نقص المقارنة مع طرق SOTA الأخرى
- القدرة على التعميم غير معروفة: التحقق فقط على بيانات تقاطع واحد، مع عدم التأكد من قدرة التعميم عبر المشاهد
- عدم الإبلاغ عن التكاليف الحسابية: غياب التحليل التفصيلي لأوقات التدريب والاستدلال
- المساهمة الأكاديمية: توفير منظور حل جديد لمحاكاة حركة المرور الحضرية المعقدة
- القيمة العملية: ذات أهمية حاسمة للتحقق من أنظمة المركبات ذاتية القيادة في البيئات الحضرية المعقدة
- مساهمة البيانات: يمكن لمجموعة بيانات CiCross أن تعزز تطور الأبحاث ذات الصلة
- قابلية التكرار: وصف الطريقة واضح، مع قابلية تكرار جيدة
- محاكاة التقاطعات الحضرية: مناسبة بشكل خاص للسيناريوهات عالية الكثافة مع تفاعلات وكلاء متعددة الأنواع
- اختبار المركبات ذاتية القيادة: توفير أدوات للتحقق من السلامة لأنظمة المركبات ذاتية القيادة في البيئات الحضرية المعقدة
- تخطيط حركة المرور: يمكن استخدامها لتحليل وتحسين تدفق حركة المرور الحضرية
- منصة البحث: توفير منصة أساسية لأبحاث نمذجة السلوك المروري
تستشهد الورقة بأعمال مهمة في مجالات محاكاة حركة المرور والمركبات ذاتية القيادة والتعلم العميق، بما في ذلك مجموعة بيانات Waymo و NeuralNDE ومعماريات Transformer المختلفة، مما يعكس فهماً شاملاً وتفكيراً عميقاً في المجالات ذات الصلة.