2025-11-25T17:58:17.832731

IntersectioNDE: Learning Complex Urban Traffic Dynamics based on Interaction Decoupling Strategy

Lin, Yang, Lu et al.

Realistic traffic simulation is critical for ensuring the safety and reliability of autonomous vehicles (AVs), especially in complex and diverse urban traffic environments. However, existing data-driven simulators face two key challenges: a limited focus on modeling dense, heterogeneous interactions at urban intersections - which are prevalent, crucial, and practically significant in countries like China, featuring diverse agents including motorized vehicles (MVs), non-motorized vehicles (NMVs), and pedestrians - and the inherent difficulty in robustly learning high-dimensional joint distributions for such high-density scenes, often leading to mode collapse and long-term simulation instability. We introduce City Crossings Dataset (CiCross), a large-scale dataset collected from a real-world urban intersection, uniquely capturing dense, heterogeneous multi-agent interactions, particularly with a substantial proportion of MVs, NMVs and pedestrians. Based on this dataset, we propose IntersectioNDE (Intersection Naturalistic Driving Environment), a data-driven simulator tailored for complex urban intersection scenarios. Its core component is the Interaction Decoupling Strategy (IDS), a training paradigm that learns compositional dynamics from agent subsets, enabling the marginal-to-joint simulation. Integrated into a scene-aware Transformer network with specialized training techniques, IDS significantly enhances simulation robustness and long-term stability for modeling heterogeneous interactions. Experiments on CiCross show that IntersectioNDE outperforms baseline methods in simulation fidelity, stability, and its ability to replicate complex, distribution-level urban traffic dynamics.

academic

IntersectioNDE: تعلم ديناميكيات حركة المرور الحضرية المعقدة بناءً على استراتيجية فك الارتباط التفاعلي

المعلومات الأساسية

معرّف الورقة: 2510.11534
العنوان: IntersectioNDE: تعلم ديناميكيات حركة المرور الحضرية المعقدة بناءً على استراتيجية فك الارتباط التفاعلي
المؤلفون: Enli Lin, Ziyuan Yang, Qiujing Lu, Jianming Hu, Shuo Feng (جامعة تسينغهوا)
التصنيف: cs.RO (الروبوتات)، cs.SY (الأنظمة والتحكم)، eess.SY (الأنظمة والتحكم)
تاريخ النشر: 13 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.11534

الملخص

يعتبر محاكاة حركة المرور الواقعية أمراً حاسماً لضمان سلامة وموثوقية المركبات ذاتية القيادة (AV)، خاصة في بيئات حركة المرور الحضرية المعقدة والمتنوعة. ومع ذلك، تواجه محاكيات حركة المرور المستندة إلى البيانات تحديين رئيسيين: الاهتمام المحدود بنمذجة التفاعلات غير المتجانسة الكثيفة في التقاطعات الحضرية، والصعوبة الأساسية في تعلم التوزيعات المشتركة عالية الأبعاد بشكل قوي في السيناريوهات عالية الكثافة. تقدم هذه الورقة مجموعة بيانات التقاطعات الحضرية (CiCross)، وهي مجموعة بيانات واسعة النطاق تم جمعها من تقاطعات حضرية حقيقية، وتلتقط بشكل فريد التفاعلات متعددة الوكلاء غير المتجانسة الكثيفة. بناءً على هذه المجموعة، يتم اقتراح IntersectioNDE، وهي محاكاة مستندة إلى البيانات مخصصة لسيناريوهات التقاطعات الحضرية المعقدة، حيث المكون الأساسي هو استراتيجية فك الارتباط التفاعلي (IDS)، التي تمكن من تعلم الديناميكيات المركبة من مجموعات فرعية من الوكلاء، مما يحقق محاكاة من الهامشية إلى المشتركة.

السياق البحثي والدافع

تعريف المشكلة

المشكلة الأساسية التي تعالجها هذه الدراسة هي محاكاة حركة المرور عالية الدقة للتقاطعات الحضرية المعقدة، خاصة في السيناريوهات التي تتضمن تفاعلات كثيفة وغير متجانسة بين المركبات (MVs) والمركبات غير الآلية (NMVs) والمشاة.

أهمية المشكلة

الحاجة إلى التحقق من سلامة المركبات ذاتية القيادة: يتم اعتماد اختبارات المحاكاة على نطاق واسع لقابليتها للتوسع وفعاليتها من حيث التكلفة وقدرتها على استكشاف الحالات الحدية الحرجة للسلامة
تحديات البيئة الحضرية المعقدة: تظهر التقاطعات الحضرية في دول مثل الصين أنماط حركة مرور كثيفة وغير متجانسة، مما يصعب على الطرق الحالية نمذجتها بفعالية
القيمة العملية: تعتبر محاكاة حركة المرور الدقيقة ذات أهمية حاسمة للنشر الآمن لأنظمة المركبات ذاتية القيادة

حدود الطرق الموجودة

تغطية السيناريوهات غير الكافية: تركز محاكيات حركة المرور المستندة إلى البيانات الموجودة بشكل محدود على نمذجة التفاعلات الكثيفة وغير المتجانسة في التقاطعات الحضرية
التحديات التقنية: يؤدي التعلم المباشر للتوزيع المشترك عالي الأبعاد للمشهد الكامل إلى صعوبات أساسية، مما يسبب غالباً انهيار الأنماط وعدم استقرار المحاكاة على المدى الطويل
قيود مجموعات البيانات: تفتقر مجموعات البيانات الموجودة إلى تمثيل كافٍ للتفاعلات الكثيفة بين المركبات والمركبات غير الآلية والمشاة

الدافع البحثي

تطوير نظام محاكاة حركة مرور قادر على نمذجة التفاعلات غير المتجانسة بشكل قوي والحفاظ على الاستقرار على المدى الطويل، موجه نحو الاحتياجات الخاصة للبيئات الحضرية المعقدة في دول مثل الصين.

المساهمات الأساسية

اقتراح مجموعة بيانات CiCross: مجموعة بيانات واسعة النطاق من التقاطعات الحضرية الحقيقية، تلتقط بشكل فريد التفاعلات متعددة الوكلاء غير المتجانسة الكثيفة
تصميم محاكاة IntersectioNDE: محاكاة مستندة إلى البيانات على مستوى السيناريو مخصصة لسيناريوهات التقاطعات الحضرية المعقدة
ابتكار استراتيجية فك الارتباط التفاعلي (IDS): نموذج تدريب يحقق محاكاة من الهامشية إلى المشتركة من خلال تعلم الديناميكيات المركبة من مجموعات فرعية من الوكلاء
بناء شبكة Transformer الحساسة للمشهد: شبكة متعددة المدخلات مع تقنيات تدريب متخصصة، مما يعزز بشكل كبير قوة المحاكاة والاستقرار على المدى الطويل

شرح الطريقة

تعريف المهمة

يتم نمذجة مهمة محاكاة حركة المرور كتعلم نموذج توليدي قادر على إنتاج حالات مشهد مستقبلية واقعية خلال نطاق التنبؤ الزمني $T_{pred}$ .

دع $A_τ = \{a_1, ..., a_{N_τ}\}$ تكون مجموعة $N_τ$ من الوكلاء الموجودين في الوقت $τ$ . حالة الوكيل $a_j$ في الوقت $τ$ هي $s_{j,τ} ∈ S_{agent}$ . مثيل المشهد الكامل $G_τ$ يتضمن حالات الوكلاء $S_τ$ ومعلومات الخريطة الثابتة $M$ وحالات إشارات المرور الديناميكية $L_τ$ .

الهدف هو تعلم التوزيع الاحتمالي الشرطي: $P_{data}(G_{t+1:t+T_{pred}} | G_{t-T_{hist}+1:t})$

استراتيجية فك الارتباط التفاعلي (IDS)

عملية تدريب IDS

تجميع الوكلاء: تقسيم مجموعة الوكلاء $A_t$ إلى $k$ مجموعات تفاعلية منفصلة بناءً على معايير مكانية وسلوكية محددة مسبقاً (مثل TTC): $A_t = \{A_{t,1}, A_{t,2}, ..., A_{t,k}\}$
أخذ عينات من المجموعات الفرعية: أخذ عينات عشوائية من مجموعة فرعية من فهارس المجموعات $I ⊆ \{1, ..., k\}$ ، وبناء مثيل مشهد يحتوي على الوكلاء المأخوذة عينات منهم
تعلم الاحتمالية الشرطية: تدريب نموذج الشبكة العصبية $F_θ$ للتنبؤ بالتوزيع الاحتمالي الشرطي لمثيل المشهد المستقبلي المأخوذ عينات منه: $P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)$
هدف التدريب: تقليل احتمالية السجل السالب المتوقعة: $L(θ) = -E_{\hat{G}∼D_{data}} E_{I∼P_{sample}(I)}[\log P_{model}(\hat{G}_{t+1:t+T_{pred}}(I) | G^{GT}_{t-T_{hist}+1:t}(I); θ)]$

محاكاة من الهامشية إلى المشتركة

في مرحلة الاستدلال، يحقق النموذج التنبؤ من المشهد الجزئي إلى الكامل من خلال الآلية التالية:

تعلم البدائيات التفاعلية: يكتسب النموذج من خلال تدريب IDS مجموعة متنوعة من البدائيات التفاعلية الشرطية $P = \{p_1, p_2, ..., p_L\}$
تحديد البدائيات والتركيب: بالنسبة لأي مشهد $G_t$ ، يحدد النموذج أولاً مجموعة البدائيات التفاعلية المتعلمة في التكوين الحالي، ثم يركب حالتها المستقبلية
تعزيز القوة: من خلال إتقان اللبنات الأساسية، يمكن للنموذج التنبؤ بشكل متماسك بديناميكيات المشهد المعقد، حتى بالنسبة لمجموعات التفاعل التي لم يشهدها بشكل صريح أثناء التدريب

معمارية الشبكة

شبكة Transformer التفاعلية الحساسة للمشهد

تستخدم شبكة Transformer متعددة المدخلات بهيكل مشفر-تفاعلي-تنبؤي:

ترميز المدخلات متعددة الأنماط:
- المسارات التاريخية للوكلاء: $H_{t-T_{hist}+1:t} ∈ R^{N×T_{hist}×6}$
- الخصائص الثابتة للوكلاء: $A_s ∈ R^{N×6}$
- معلومات المسار: $M_r ∈ R^{N_R×D_R}$
- حالات إشارات المرور: $M_d ∈ R^{T_{hist}×N_L×3}$
وحدة الانتباه المتقاطع المزدوج: دمج ميزات الوكلاء مع ميزات السياق المشهد، مما ينتج عنه ميزات وكيل محسّنة وحساسة للبيئة
شبكة Transformer التفاعلية: نمذجة العلاقات المعقدة بين الوكلاء
رؤوس تنبؤ متخصصة: التنبؤ بمعاملات توزيع حالات الحركة المستقبلية لفئات الوكلاء المختلفة

إعداد التجارب

مجموعة بيانات CiCross

حجم البيانات: حوالي 700 ساعة من بيانات التسجيل، مع استخدام مجموعة فرعية بحجم 23.6 ساعة في التجارب
خصائص البيانات: 212,344 إطار (2.5 هرتز)، 56,578 مثيل وكيل فريد
توزيع الوكلاء: 54.2% مركبات، 43.3% مركبات غير آلية، 2.5% مشاة
خصائص المشهد: كثافة وكيل عالية، توزيع TTC بقمة حوالي ثانيتين، مما يعكس تفاعلات عالية المخاطر

مؤشرات التقييم

ADE (متوسط خطأ الإزاحة): متوسط الخطأ في الإزاحة
FDE (خطأ الإزاحة النهائي): خطأ الإزاحة في الإطار الأخير
Missing Rate: معدل اختفاء الوكلاء
Collapse Time: وقت انهيار المحاكاة

تفاصيل التنفيذ

الأجهزة: وحدة معالجة رسومات NVIDIA RTX 4090 واحدة
طول السجل التاريخي: $T_{hist} = 10$
نطاق التنبؤ: $T_{pred} = 10$
تعزيز البيانات: الترجمة والدوران والإزاحة وحقن أخطاء المسار
المحاكاة في الحلقة المغلقة: التنفيذ الانحداري، خطوة بخطوة واحدة

نتائج التجارب

النتائج الرئيسية

تتفوق جميع النماذج القائمة على IDS على طرق الأساس، مما يتحقق من الفعالية الشاملة للاستراتيجية:

الطريقة	نوع المشارك	ADE↓	FDE↓	Missing Rate↓
بدون IDS	مركبات	0.9047	1.6526	0.2086
بدون IDS	مركبات غير آلية	1.2864	2.4415	0.4553
بدون IDS	مشاة	1.2197	2.0536	0.3732
IDS(TTC=1s)	مركبات	0.6693	1.2496	0.1750
IDS(TTC=1s)	مركبات غير آلية	0.9869	1.9694	0.3310
IDS(TTC=1s)	مشاة	1.0086	1.6150	0.2386

التجارب الاستئصالية

حساسية عتبة TTC: اختبار عتبات 0 ثانية و1 ثانية و2 ثانية و4 ثوان، حيث تحقق عتبة 1 ثانية أفضل توازن
مقارنة آليات الانتباه: يتفوق الانتباه المتقاطع المزدوج على متغيرات الانتباه المتقاطع الفردي
الاستقرار على المدى الطويل: يحسّن IDS بشكل كبير وقت الانهيار (895 ثانية مقابل 15 ثانية)

تقييم دقة التوزيع

من خلال مقارنة توزيعات السرعة وتوزيعات أقرب مسافة بين البيانات المحاكاة والبيانات الحقيقية، يتم التحقق من قدرة النموذج على نسخ ديناميكيات حركة المرور الحضرية على مستوى التوزيع.

تحليل الحالات

يعرض ثلاث سيناريوهات تفاعلية نموذجية:

مركبة غير آلية تخترق إشارة حمراء وتواجه عائقاً وتبطئ
مركبة تتنازل وتبطئ
مركبة تنعطف لليمين وتمر بسرعة عبر تدفق المركبات غير الآلية

الأعمال ذات الصلة

مجموعات بيانات حركة المرور

على الرغم من أن مجموعات البيانات الموجودة (Waymo و nuScenes و Argoverse وغيرها) كبيرة الحجم وذات قيمة، إلا أنها محدودة في تمثيل التفاعلات الكثيفة غير المتجانسة في التقاطعات الحضرية المعقدة.

طرق محاكاة حركة المرور

الطرق القائمة على القواعد: SUMO و VISSIM وغيرها، تعتمد على معاملات محددة مسبقاً، مما يصعب إعادة إنتاج تنوع السلوك الحقيقي للقيادة
الطرق المستندة إلى البيانات:
- طرق مركزة على الوكيل: تعلم السلوك الفردي، لكنها غير فعالة وصعبة التنسيق للتفاعلات المعقدة
- طرق على مستوى المشهد: إخراج الحالة التالية للمشهد بأكمله مباشرة، لكنها تواجه تحديات في تعلم التوزيعات عالية الأبعاد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجحت مجموعة بيانات CiCross في التقاط خصائص التفاعلات غير المتجانسة في التقاطعات الحضرية المعقدة
أثبتت استراتيجية IDS فعاليتها في حل تحديات تعلم التوزيع المشترك عالي الأبعاد
تتفوق IntersectioNDE بشكل كبير على طرق الأساس من حيث دقة المحاكاة والاستقرار وقدرة نسخ التوزيع

القيود

الطابع الجغرافي لمجموعة البيانات: تستند بشكل أساسي إلى التقاطعات الحضرية الصينية، مما قد يؤدي إلى انحياز جغرافي
التعقيد الحسابي: التكلفة الحسابية لمعمارية Transformer في السيناريوهات واسعة النطاق
تعريف التفاعل: قد يكون تجميع التفاعلات بناءً على TTC مبسطاً جداً للأنماط التفاعلية المعقدة
التقييم على المدى الطويل: على الرغم من تحسين الاستقرار، لا تزال الأداء على المدى الطويل جداً بحاجة إلى التحقق

الاتجاهات المستقبلية

التوسع إلى مناطق جغرافية وأنماط حركة مرور أكثر تنوعاً
تحسين الكفاءة الحسابية
استكشاف طرق نمذجة تفاعلية أكثر دقة
دمج أنماط استشعار إضافية

التقييم المتعمق

المزايا

قوة استهداف المشكلة: التركيز على الاحتياجات العملية الفعلية لحركة المرور الحضرية المعقدة في دول مثل الصين
ابتكار الطريقة العالي: استراتيجية IDS تحل بذكاء مشكلة تعلم التوزيع عالي الأبعاد
قيمة مجموعة البيانات الكبيرة: تملأ CiCross الفراغ في بيانات التفاعلات غير المتجانسة الكثيفة
التجارب الشاملة: تتضمن تجارب استئصالية مفصلة وتحليل الحالات
القوة العملية: تحسن بشكل كبير استقرار المحاكاة على المدى الطويل

أوجه القصور

نقص التحليل النظري: غياب تحليل التقارب النظري لاستراتيجية IDS
نطاق المقارنة محدود: المقارنة الأساسية مع خطوط الأساس المبنية ذاتياً، مع نقص المقارنة مع طرق SOTA الأخرى
القدرة على التعميم غير معروفة: التحقق فقط على بيانات تقاطع واحد، مع عدم التأكد من قدرة التعميم عبر المشاهد
عدم الإبلاغ عن التكاليف الحسابية: غياب التحليل التفصيلي لأوقات التدريب والاستدلال

التأثير

المساهمة الأكاديمية: توفير منظور حل جديد لمحاكاة حركة المرور الحضرية المعقدة
القيمة العملية: ذات أهمية حاسمة للتحقق من أنظمة المركبات ذاتية القيادة في البيئات الحضرية المعقدة
مساهمة البيانات: يمكن لمجموعة بيانات CiCross أن تعزز تطور الأبحاث ذات الصلة
قابلية التكرار: وصف الطريقة واضح، مع قابلية تكرار جيدة

السيناريوهات المعمول بها

محاكاة التقاطعات الحضرية: مناسبة بشكل خاص للسيناريوهات عالية الكثافة مع تفاعلات وكلاء متعددة الأنواع
اختبار المركبات ذاتية القيادة: توفير أدوات للتحقق من السلامة لأنظمة المركبات ذاتية القيادة في البيئات الحضرية المعقدة
تخطيط حركة المرور: يمكن استخدامها لتحليل وتحسين تدفق حركة المرور الحضرية
منصة البحث: توفير منصة أساسية لأبحاث نمذجة السلوك المروري

المراجع

تستشهد الورقة بأعمال مهمة في مجالات محاكاة حركة المرور والمركبات ذاتية القيادة والتعلم العميق، بما في ذلك مجموعة بيانات Waymo و NeuralNDE ومعماريات Transformer المختلفة، مما يعكس فهماً شاملاً وتفكيراً عميقاً في المجالات ذات الصلة.