2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic

CoDS: تعزيز الإدراك التعاوني في السيناريوهات غير المتجانسة عبر فصل المجال

المعلومات الأساسية

  • معرّف الورقة: 2510.13432
  • العنوان: CoDS: تعزيز الإدراك التعاوني في السيناريوهات غير المتجانسة عبر فصل المجال
  • المؤلفون: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
  • التصنيف: cs.CV (رؤية الحاسوب)
  • تاريخ النشر: 15 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.13432

الملخص

تقترح هذه الورقة طريقة CoDS لحل مشكلة الاختلافات في الميزات في الإدراك التعاوني في السيناريوهات غير المتجانسة من خلال تقنيات فصل المجال. تستخدم CoDS معدّل مكاني-قنوي خفيف الوزن (LSCR) وموديول محاذاة التوزيع القائم على فصل المجال (DADS)، مع دمج خسارة المعلومات المتبادلة لمحاذاة المجال (DAMI)، لتحقيق محاذاة ميزات غير متجانسة فعالة. تستخدم الطريقة بنية معمارية كاملة الالتفاف، مما يضمن دقة الكشف مع تحسين كفاءة الاستدلال بشكل كبير.

خلفية البحث والدافع

1. المشكلة الأساسية

تفترض طرق الإدراك التعاوني الحالية بشكل عام أن جميع الوكلاء يستخدمون نفس المشفّر، لكن في النشر الفعلي، غالباً ما تكون المركبات المختلفة والوحدات الجانبية مجهزة بتكوينات أجهزة وبرامج مختلفة، مما يؤدي إلى اختلافات في الأبعاد والتوزيع في استخراج الميزات.

2. أهمية المشكلة

  • المتطلبات العملية: سيناريوهات التعاون V2V و V2X في العالم الحقيقي لا بد أن تكون غير متجانسة
  • تأثير الأداء: الاختلافات في الميزات تؤدي إلى ضعف تأثير الدمج، وقد تهدد السلامة المرورية
  • تحديات النشر: تنخفض أداء الطرق الحالية بشكل حاد في السيناريوهات غير المتجانسة

3. قيود الطرق الموجودة

  • تحويل المجال القسري: محاذاة ميزات الجيران بالقوة إلى مجال السيارة الذاتية، مما يسهل تأثره بضوضاء الفجوة بين المجالات
  • عدم الكفاءة الحسابية: وحدات التكيف المجالي القائمة على Transformer ذات كفاءة استدلال منخفضة
  • فقدان المعلومات: قد يؤدي تحويل المجال المباشر إلى فقدان المعلومات ذات الصلة بالمهمة

4. دافع البحث

بناءً على فرضية التمثيل المشترك من العلوم المعرفية وعلم الأعصاب: المعلومات المشتركة في وجهات النظر المتعددة هي الأكثر قيمة للإدراك التعاوني، بينما المعلومات الخاصة بالمشفّر تعيق الدمج الفعال.

المساهمات الأساسية

  1. اقتراح طريقة CoDS: أول محول إدراك تعاوني قائم على فصل المجال، يحل مشكلة الاختلافات في الميزات في السيناريوهات غير المتجانسة من خلال فصل المعلومات ذات الصلة بالمجال والمعلومات المستقلة عن المجال
  2. تصميم وحدات LSCR و DADS:
    • LSCR: محاذاة أبعاد مكانية-قنوية خفيفة الوزن
    • DADS: آلية فصل مجال خاصة بالمشفّر ومستقلة عن المشفّر
  3. إدخال خسارة DAMI: تعزيز تأثير فصل المجال من خلال تعظيم المعلومات المتبادلة بين الميزات المحاذاة
  4. بنية معمارية كاملة الالتفاف: تحسين كفاءة الاستدلال بشكل كبير مقارنة بالطرق القائمة على Transformer
  5. التحقق التجريبي الواسع: التحقق من فعالية الطريقة وكفاءتها على ثلاث مجموعات بيانات كبيرة الحجم

شرح الطريقة

تعريف المهمة

يتم تعريف مهمة الإدراك التعاوني غير المتجانس على النحو التالي: بالنظر إلى N وكيل، تستقبل السيارة الذاتية وتدمج ميزات الوكلاء المجاورين. في السيناريوهات غير المتجانسة، يستخدم الوكلاء المختلفون مشفّرات مختلفة F^ego_enc و F^nei_enc، مما يؤدي إلى اختلافات في الأبعاد والتوزيع في الميزات fi و fj. الهدف هو تصميم محول قابل للتوصيل والتشغيل لتخفيف الاختلافات في الميزات.

معمارية النموذج

1. الإطار العام

يتضمن CoDS وحدتي محاذاة ودالة خسارة واحدة:

  • وحدة LSCR: تعديل الأبعاد المكانية والقنوية للميزات المجاورة
  • وحدة DADS: محاذاة توزيع الميزات من خلال فصل المجال
  • خسارة DAMI: تعظيم المعلومات المتبادلة بين الميزات المحاذاة أثناء التدريب

2. معدّل المكاني-القنوي الخفيف الوزن (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # التفاف 1×1 لمحاذاة القنوات
f̄_{j→i} = BI(f^0_{j→i})   # الاستيفاء الثنائي الخطي للمحاذاة المكانية

3. محاذاة التوزيع القائمة على فصل المجال (DADS)

تستخدم DADS نوعين من وحدات فصل المجال:

  • وحدة خاصة بالمشفّر M^es: إزالة المعلومات ذات الصلة بالمجال
  • وحدة مستقلة عن المشفّر M^ea: التقاط المعلومات ذات الصلة بالمهمة (مع مشاركة الأوزان)

يتم تعريف دالة الإسقاط على النحو التالي:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. خسارة المعلومات المتبادلة لمحاذاة المجال (DAMI)

تعظم خسارة DAMI المعلومات المتبادلة بين الميزات المحاذاة من خلال التعلم التباعدي:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

يتم استخدام مصنّف للتمييز بين أزواج العينات الموجبة (الميزات المحاذاة من نفس السيناريو) وأزواج العينات السالبة (الميزات المحاذاة من سيناريوهات مختلفة).

نقاط الابتكار التقني

  1. فكرة فصل المجال: تجنب تحويل المجال القسري، بدلاً من ذلك فصل المعلومات ذات الصلة بالمجال والمعلومات المستقلة عن المجال
  2. آلية فصل مزدوجة: تزيل وحدة خاصة بالمشفّر المعلومات الخاصة، وتستخرج وحدة مستقلة عن المشفّر المعلومات المشتركة
  3. تعظيم المعلومات المتبادلة: ضمان احتفاظ الميزات المحاذاة بالمعلومات ذات الصلة بالمهمة
  4. تصميم كامل الالتفاف: كفاءة استدلال أعلى مقارنة بـ Transformer

إعداد التجارب

مجموعات البيانات

  1. V2V4Real: أول مجموعة بيانات V2V حقيقية كبيرة الحجم، تحتوي على 20K إطار من بيانات السحابة النقطية
  2. OPV2V: مجموعة بيانات إدراك V2V محاكاة، تحتوي على 11,464 إطار من السحابة النقطية ثلاثية الأبعاد
  3. V2XSet: مجموعة بيانات V2X محاكاة، تحتوي على بيانات المركبات والوحدات الجانبية

مؤشرات التقييم

  • مؤشرات الدقة: AP@0.50 و AP@0.70
  • مؤشرات الكفاءة: FPS (إطارات في الثانية)

طرق المقارنة

  • HETE: طريقة أساسية بسيطة
  • MPDA: طريقة Transformer عبر المجالات
  • PnPDA: طريقة محول دلالي
  • STAMP: طريقة شبكة البروتوكول
  • PolyInter: طريقة المفسّر متعدد الأشكال

تفاصيل التنفيذ

  • المحسّن: Adam، معدل التعلم 0.002
  • أوزان الخسارة: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
  • المشفّرات: تكوينات مختلفة من PointPillars و SECOND و VoxelNet

نتائج التجارب

النتائج الرئيسية

1. مقارنة دقة الكشف

على مجموعة بيانات V2V4Real، مقارنة CoDS مع خط الأساس HETE:

  • عند استخدام DiscoNet، متوسط تحسن AP@0.50 بمقدار 20.32، ومتوسط تحسن AP@0.70 بمقدار 11.39
  • يتفوق على معظم طرق المحولات الأخرى، مع أداء الأكثر استقراراً

على OPV2V و V2XSet، حققت CoDS أفضل أو قريبة من أفضل النتائج في معظم السيناريوهات غير المتجانسة.

2. مقارنة كفاءة الاستدلال

تتفوق CoDS بشكل كبير على الطرق الأخرى من حيث سرعة الاستدلال:

  • تحسن يزيد عن 100% FPS مقارنة بـ MPDA
  • تحسن يزيد عن 20% FPS مقارنة بـ PnPDA و STAMP و PolyInter
  • عدد المعاملات 3.67M فقط، أقل بكثير من 46.22M لـ PolyInter

3. تجارب الاستقرار

في وجود أخطاء التموضع، تتفوق CoDS دائماً على الطرق الأخرى، مع الحفاظ على أداء أعلى من الإدراك الفردي للسيارة.

تجارب الاستئصال

1. تحليل مساهمة المكونات

  • استخدام LSCR وحده يمكن أن يحسّن AP@0.70 بحوالي 18%
  • التأثير المشترك لـ LSCR+DAMI أفضل من LSCR+DADS
  • CoDS الكامل (LSCR+DADS+DAMI) يحقق أفضل أداء

2. تحليل وحدة فصل المجال

  • استخدام وحدة مستقلة عن المشفّر أو خاصة بالمشفّر وحدها يعطي نتائج سيئة
  • يحقق الاستخدام المشترك للنوعين من الوحدات أفضل أداء
  • وحدات فصل مجال إضافية تؤدي إلى الإفراط في التدريب

تحليل الحالات

تُظهر تصور الميزات أن الميزات غير المتجانسة بعد معالجة CoDS تكون أكثر تشابهاً من الناحية الدلالية، وكلاهما يبرز مناطق الهدف، مما يثبت فعالية فصل المجال.

يشير تصور نتائج الكشف إلى أن CoDS يقلل بشكل كبير من الكشف الضائع مقارنة بالطرق الأخرى، مع أفضل أداء كشف.

الأعمال ذات الصلة

1. الإدراك التعاوني

تركز الطرق الموجودة بشكل أساسي على آليات الاتصال واستراتيجيات الدمج ومشاكل الضوضاء، لكن معظمها يفترض سيناريوهات متجانسة.

2. الإدراك التعاوني غير المتجانس

تشمل الحلول الموجودة:

  • إعادة تدريب المشفّر: تتطلب الوصول إلى البنية الأصلية
  • الدمج غير المتجانس: تصميم وحدات دمج متخصصة
  • محولات قابلة للتوصيل والتشغيل: أفضل مرونة، التركيز الرئيسي لهذه الورقة

3. التكيف المجالي

يحدد التكيف المجالي على مستوى الميزات الميزات الثابتة عبر المجالات من خلال تقليل الاختلافات والتعلم الخصومي وغيرها.

4. تقدير المعلومات المتبادلة

تقدير المعلومات المتبادلة من خلال الشبكات العصبية، المستخدمة في التعلم التمثيلي ومحاذاة المجال.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تحل CoDS بفعالية مشكلة الاختلافات في الميزات في الإدراك التعاوني غير المتجانس من خلال فصل المجال
  2. تحسّن البنية المعمارية كاملة الالتفاف كفاءة الاستدلال بشكل كبير مع ضمان الدقة
  3. تعزز خسارة DAMI تأثير فصل المجال من خلال تعظيم المعلومات المتبادلة
  4. تم التحقق من فعالية الطريقة واستقرارها على عدة مجموعات بيانات وإعدادات

القيود

  1. يقتصر حالياً على إعداد مبسط لنوعين مختلفين من المشفّرات
  2. يفترض نقل خرائط الميزات الكاملة، مما يتطلب ضغط الميزات في التطبيقات العملية
  3. قد لا تزال توجد تحديات للفجوات الكبيرة جداً بين المجالات

الاتجاهات المستقبلية

  1. التوسع إلى سيناريوهات غير متجانسة مفتوحة مع أنواع مشفّرات أكثر
  2. الدمج مع تقنيات ضغط الميزات لتقليل تكاليف الاتصال
  3. دراسة آليات فصل مجال أكثر تعقيداً

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول من يقدم فكرة فصل المجال للإدراك التعاوني، مما يتجنب مشكلة تحويل المجال القسري
  2. تصميم معقول: تصميم آلية فصل مزدوجة ذكي مع أساس نظري متين
  3. تجارب شاملة: تقييم شامل على عدة مجموعات بيانات وإعدادات
  4. قيمة عملية عالية: يوازن التصميم كامل الالتفاف بين الدقة والكفاءة، مما يناسب النشر الفعلي بشكل أفضل
  5. تحليل متعمق: يوفر تجارب استئصال غنية وتحليل تصور

أوجه القصور

  1. قيود السيناريو: يقتصر على سيناريوهات غير متجانسة مبسطة لنوعين من المشفّرات
  2. التحليل النظري: يفتقد تحليل التقارب النظري لآلية فصل المجال
  3. المقارنة غير كافية: لم يتم إجراء مقارنة كافية مع طرق إعادة التدريب
  4. القابلية للتعميم: لا تزال أداء الطريقة في سيناريوهات حقيقية أكثر تعقيداً بحاجة إلى التحقق

التأثير

  1. المساهمة الأكاديمية: توفير منظور حل جديد للإدراك التعاوني غير المتجانس
  2. القيمة العملية: الطريقة بسيطة وفعالة، سهلة التنفيذ الهندسي
  3. قابلية التكرار: إعداد تجريبي مفصل، يجب أن يكون الكود سهل التكرار

السيناريوهات المطبقة

  1. أنظمة الإدراك التعاوني V2V/V2X في شبكات المركبات
  2. مهام التعاون بين الروبوتات المتعددة
  3. سيناريوهات إدراك أخرى تتطلب تعاون الأجهزة غير المتجانسة

المراجع

تستشهد الورقة بـ 65 مرجعاً ذا صلة، تغطي الإدراك التعاوني والتكيف المجالي وتقدير المعلومات المتبادلة وغيرها من المجالات ذات الصلة، مع بحث أدبي شامل نسبياً.


التقييم الإجمالي: هذه ورقة عالية الجودة في مجال الإدراك التعاوني، وتقترح حلاً مبتكراً لمشكلة مهمة وعملية في السيناريوهات غير المتجانسة. يتميز التصميم بالذكاء، والتحقق التجريبي شامل، مع قيمة نظرية وعملية قوية.