2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.

Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.

academic

CoDS: डोमेन विभाजन के माध्यम से विषमांग परिदृश्यों में सहयोगी धारणा को बढ़ाना

मूल जानकारी

पेपर ID: 2510.13432
शीर्षक: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
लेखक: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13432

सारांश

यह पेपर CoDS विधि प्रस्तावित करता है, जो डोमेन विभाजन तकनीक के माध्यम से विषमांग परिदृश्यों में सहयोगी धारणा में विशेषता अंतर की समस्या को हल करता है। CoDS हल्के वजन वाले स्थानिक-चैनल समायोजक (LSCR) और डोमेन विभाजन-आधारित वितरण संरेखण मॉड्यूल (DADS) का उपयोग करता है, जो डोमेन संरेखण पारस्परिक सूचना (DAMI) हानि के साथ मिलकर कुशल विषमांग विशेषता संरेखण को प्राप्त करता है। यह विधि पूर्ण कनवोल्यूशनल आर्किटेक्चर अपनाती है, जो पहचान सटीकता सुनिश्चित करते हुए अनुमान दक्षता में उल्लेखनीय सुधार करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

1. मूल समस्या

मौजूदा सहयोगी धारणा विधियां आमतौर पर मानती हैं कि सभी एजेंट एक ही एनकोडर का उपयोग करते हैं, लेकिन वास्तविक तैनाती में, विभिन्न वाहन और रोडसाइड इकाइयां अक्सर विभिन्न हार्डवेयर और सॉफ्टवेयर कॉन्फ़िगरेशन से सुसज्जित होती हैं, जिससे विशेषता निष्कर्षण में आयाम और वितरण अंतर होता है।

2. समस्या की महत्ता

व्यावहारिक आवश्यकता: वास्तविक दुनिया में V2V और V2X सहयोग परिदृश्य आवश्यक रूप से विषमांग होते हैं
प्रदर्शन प्रभाव: विशेषता अंतर संलयन प्रभाव को कम करता है, यहां तक कि यातायात सुरक्षा को खतरे में डाल सकता है
तैनाती चुनौती: मौजूदा विधियां विषमांग परिदृश्यों में गंभीर प्रदर्शन गिरावट दिखाती हैं

3. मौजूदा विधियों की सीमाएं

जबरदस्ती डोमेन रूपांतरण: पड़ोसी विशेषताओं को अहंकार डोमेन में जबरदस्ती संरेखित करना, डोमेन अंतराल शोर से आसानी से प्रभावित होता है
कम्प्यूटेशनल अक्षमता: ट्रांसफॉर्मर-आधारित डोमेन अनुकूलन मॉड्यूल कम अनुमान दक्षता प्रदान करते हैं
सूचना हानि: सीधा डोमेन रूपांतरण कार्य-संबंधित सूचना हानि का कारण बन सकता है

4. अनुसंधान प्रेरणा

संज्ञानात्मक विज्ञान और तंत्रिका विज्ञान की साझा प्रतिनिधित्व धारणा पर आधारित: बहु-दृश्य में साझा सूचना सहयोगी धारणा के लिए सबसे मूल्यवान है, जबकि एनकोडर-विशिष्ट सूचना प्रभावी संलयन में बाधा डालती है।

मूल योगदान

CoDS विधि प्रस्तावित करना: डोमेन विभाजन पर आधारित पहला सहयोगी धारणा अनुकूलक, जो डोमेन-संबंधित और डोमेन-अज्ञेय सूचना को विभाजित करके विषमांग परिदृश्य विशेषता अंतर समस्या को हल करता है
LSCR और DADS मॉड्यूल डिजाइन करना:
- LSCR: हल्के वजन वाला स्थानिक-चैनल आयाम संरेखण
- DADS: एनकोडर-विशिष्ट और एनकोडर-अज्ञेय डोमेन विभाजन तंत्र
DAMI हानि प्रस्तुत करना: संरेखित विशेषताओं के बीच पारस्परिक सूचना को अधिकतम करके डोमेन विभाजन प्रभाव को बढ़ाना
पूर्ण कनवोल्यूशनल आर्किटेक्चर: ट्रांसफॉर्मर-आधारित विधियों की तुलना में अनुमान दक्षता में उल्लेखनीय सुधार
व्यापक प्रायोगिक सत्यापन: तीन बड़े पैमाने पर डेटासेट पर विधि की प्रभावशीलता और दक्षता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

विषमांग सहयोगी धारणा कार्य को इस प्रकार परिभाषित किया जाता है: N एजेंटों को देखते हुए, अहंकार वाहन पड़ोसी एजेंटों की विशेषताओं को प्राप्त और संलयित करता है। विषमांग परिदृश्य में, विभिन्न एजेंट विभिन्न एनकोडर F^ego_enc और F^nei_enc का उपयोग करते हैं, जिससे विशेषताएं fi और fj आयाम और वितरण में भिन्न होती हैं। लक्ष्य विशेषता अंतर को कम करने के लिए प्लग-एंड-प्ले अनुकूलक डिजाइन करना है।

मॉडल आर्किटेक्चर

1. समग्र ढांचा

CoDS में दो संरेखण मॉड्यूल और एक हानि फ़ंक्शन शामिल हैं:

LSCR मॉड्यूल: पड़ोसी विशेषताओं के स्थानिक और चैनल आयाम को समायोजित करता है
DADS मॉड्यूल: डोमेन विभाजन के माध्यम से विशेषता वितरण को संरेखित करता है
DAMI हानि: प्रशिक्षण समय में संरेखित विशेषताओं के बीच पारस्परिक सूचना को अधिकतम करता है

2. हल्के वजन वाला स्थानिक-चैनल समायोजक (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # 1×1 कनवोल्यूशन चैनल संरेखण के लिए
f̄_{j→i} = BI(f^0_{j→i})   # द्विरेखीय प्रक्षेप स्थानिक संरेखण के लिए

3. डोमेन विभाजन-आधारित वितरण संरेखण (DADS)

DADS दो प्रकार के डोमेन विभाजन मॉड्यूल का उपयोग करता है:

एनकोडर-विशिष्ट मॉड्यूल M^es: डोमेन-संबंधित सूचना को हटाता है
एनकोडर-अज्ञेय मॉड्यूल M^ea: कार्य-संबंधित सूचना को कैप्चर करता है (वजन साझाकरण)

प्रक्षेपण फ़ंक्शन को इस प्रकार परिभाषित किया जाता है:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. डोमेन संरेखण पारस्परिक सूचना हानि (DAMI)

DAMI हानि विपरीत शिक्षा के माध्यम से संरेखित विशेषताओं के बीच पारस्परिक सूचना को अधिकतम करती है:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

सकारात्मक नमूना जोड़ी (एक ही परिदृश्य की संरेखित विशेषताएं) और नकारात्मक नमूना जोड़ी (विभिन्न परिदृश्यों की संरेखित विशेषताएं) को अलग करने के लिए विभेदक का उपयोग करता है।

तकनीकी नवाचार बिंदु

डोमेन विभाजन विचार: जबरदस्ती डोमेन रूपांतरण से बचता है, बल्कि डोमेन-संबंधित और डोमेन-अज्ञेय सूचना को विभाजित करता है
दोहरा विभाजन तंत्र: एनकोडर-विशिष्ट मॉड्यूल निजी सूचना को हटाता है, एनकोडर-अज्ञेय मॉड्यूल साझा सूचना निकालता है
पारस्परिक सूचना अधिकतमकरण: सुनिश्चित करता है कि संरेखित विशेषताएं कार्य-संबंधित सूचना को बनाए रखती हैं
पूर्ण कनवोल्यूशनल डिजाइन: ट्रांसफॉर्मर की तुलना में उच्च अनुमान दक्षता

प्रायोगिक सेटअप

डेटासेट

V2V4Real: पहला बड़े पैमाने पर वास्तविक V2V डेटासेट, 20K फ्रेम पॉइंट क्लाउड डेटा सहित
OPV2V: सिमुलेशन V2V धारणा डेटासेट, 11,464 फ्रेम 3D पॉइंट क्लाउड सहित
V2XSet: सिमुलेशन V2X डेटासेट, वाहन और रोडसाइड इकाई डेटा सहित

मूल्यांकन मेट्रिक्स

सटीकता मेट्रिक्स: AP@0.50 और AP@0.70
दक्षता मेट्रिक्स: FPS (प्रति सेकंड फ्रेम)

तुलनात्मक विधियां

HETE: सरल आधार रेखा विधि
MPDA: क्रॉस-डोमेन ट्रांसफॉर्मर विधि
PnPDA: सिमेंटिक ट्रांसफॉर्मर विधि
STAMP: प्रोटोकॉल नेटवर्क विधि
PolyInter: बहुरूपी दुभाषिया विधि

कार्यान्वयन विवरण

अनुकूलक: Adam, सीखने की दर 0.002
हानि भार: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
एनकोडर: PointPillars, SECOND, VoxelNet के विभिन्न कॉन्फ़िगरेशन

प्रायोगिक परिणाम

मुख्य परिणाम

1. पहचान सटीकता तुलना

V2V4Real डेटासेट पर, CoDS की HETE आधार रेखा से तुलना:

DiscoNet का उपयोग करते समय, AP@0.50 में औसत 20.32 की वृद्धि, AP@0.70 में औसत 11.39 की वृद्धि
अधिकांश सेटिंग्स में अन्य अनुकूलक विधियों से बेहतर, सबसे स्थिर प्रदर्शन

OPV2V और V2XSet पर, CoDS अधिकांश विषमांग परिदृश्यों में सर्वश्रेष्ठ या निकट-सर्वश्रेष्ठ परिणाम प्राप्त करता है।

2. अनुमान दक्षता तुलना

CoDS अनुमान गति में अन्य विधियों से काफी बेहतर है:

MPDA की तुलना में 100% से अधिक FPS वृद्धि
PnPDA, STAMP, PolyInter की तुलना में 20% से अधिक FPS वृद्धि
पैरामीटर मात्र 3.67M, PolyInter के 46.22M से काफी कम

3. मजबूती प्रयोग

स्थानीयकरण त्रुटि की स्थिति में, CoDS हमेशा अन्य विधियों से बेहतर है, और एकल-वाहन धारणा से अधिक प्रदर्शन बनाए रखता है।

विलोपन प्रयोग

1. घटक योगदान विश्लेषण

LSCR अकेले AP@0.70 में लगभग 18% की वृद्धि कर सकता है
LSCR+DAMI संयोजन LSCR+DADS से बेहतर प्रभाव दिखाता है
पूर्ण CoDS (LSCR+DADS+DAMI) सर्वश्रेष्ठ प्रदर्शन प्राप्त करता है

2. डोमेन विभाजन मॉड्यूल विश्लेषण

एनकोडर-अज्ञेय या एनकोडर-विशिष्ट मॉड्यूल अकेले खराब प्रभाव दिखाते हैं
दोनों प्रकार के मॉड्यूल संयोजन से सर्वश्रेष्ठ प्रभाव प्राप्त होता है
अतिरिक्त डोमेन विभाजन मॉड्यूल अति-फिटिंग का कारण बनते हैं

केस विश्लेषण

विशेषता दृश्य दिखाता है कि CoDS द्वारा संसाधित विषमांग विशेषताएं सिमेंटिक रूप से अधिक समान हैं, दोनों लक्ष्य क्षेत्र को उजागर करते हैं, जो डोमेन विभाजन की प्रभावशीलता को साबित करता है।

पहचान परिणाम दृश्य दिखाता है कि CoDS अन्य विधियों की तुलना में काफी हद तक मिस्ड डिटेक्शन को कम करता है, पहचान प्रदर्शन सर्वश्रेष्ठ है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

CoDS डोमेन विभाजन के माध्यम से विषमांग सहयोगी धारणा में विशेषता अंतर समस्या को प्रभावी ढंग से हल करता है
पूर्ण कनवोल्यूशनल आर्किटेक्चर सटीकता सुनिश्चित करते हुए अनुमान दक्षता में उल्लेखनीय सुधार करता है
DAMI हानि पारस्परिक सूचना अधिकतमकरण के माध्यम से डोमेन विभाजन प्रभाव को बढ़ाती है
कई डेटासेट और सेटिंग्स में विधि की प्रभावशीलता और मजबूती को सत्यापित किया गया है

सीमाएं

वर्तमान में केवल दो अलग-अलग एनकोडर की सरलीकृत सेटिंग पर विचार करता है
पूर्ण विशेषता मानचित्र के संचरण को मानता है, व्यावहारिक अनुप्रयोग में विशेषता संपीड़न की आवश्यकता है
अत्यधिक बड़े डोमेन अंतराल के लिए अभी भी चुनौतियां हो सकती हैं

भविष्य की दिशाएं

अधिक प्रकार के एनकोडर के खुले विषमांग परिदृश्य तक विस्तार करना
संचार लागत को कम करने के लिए विशेषता संपीड़न तकनीक के साथ संयोजन करना
अधिक जटिल डोमेन विभाजन तंत्र का अनुसंधान करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार डोमेन विभाजन विचार को सहयोगी धारणा में पेश किया, जबरदस्ती डोमेन रूपांतरण की समस्या से बचा
उचित डिजाइन: दोहरा डोमेन विभाजन तंत्र डिजाइन चतुर है, सैद्धांतिक आधार मजबूत है
पर्याप्त प्रयोग: कई डेटासेट, कई सेटिंग्स में व्यापक मूल्यांकन किया गया है
उच्च व्यावहारिक मूल्य: पूर्ण कनवोल्यूशनल डिजाइन सटीकता और दक्षता दोनों को ध्यान में रखता है, वास्तविक तैनाती के लिए अधिक उपयुक्त है
गहन विश्लेषण: समृद्ध विलोपन प्रयोग और दृश्य विश्लेषण प्रदान करता है

कमियां

परिदृश्य सीमा: केवल दो एनकोडर की सरलीकृत विषमांग परिदृश्य पर विचार करता है
सैद्धांतिक विश्लेषण: डोमेन विभाजन तंत्र के सैद्धांतिक अभिसरण विश्लेषण की कमी है
अपर्याप्त तुलना: पुनः प्रशिक्षण प्रकार की विधियों के साथ पर्याप्त तुलना नहीं की गई है
सामान्यीकरण: अधिक जटिल वास्तविक विषमांग परिदृश्यों में प्रदर्शन को सत्यापित करने की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: विषमांग सहयोगी धारणा के लिए नई समस्या-समाधान दिशा प्रदान करता है
व्यावहारिक मूल्य: विधि सरल और कुशल है, इंजीनियरिंग कार्यान्वयन के लिए आसान है
पुनरुत्पादनीयता: प्रायोगिक सेटअप विस्तृत है, कोड आसानी से पुनरुत्पादित होना चाहिए

लागू परिदृश्य

वाहन नेटवर्क V2V/V2X सहयोगी धारणा प्रणाली
बहु-रोबोट सहयोग कार्य
अन्य विषमांग उपकरण सहयोग धारणा परिदृश्य

संदर्भ

पेपर ने 65 संबंधित संदर्भों का हवाला दिया है, जिसमें सहयोगी धारणा, डोमेन अनुकूलन, पारस्परिक सूचना अनुमान आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, साहित्य अनुसंधान काफी व्यापक है।

समग्र मूल्यांकन: यह सहयोगी धारणा का एक उच्च-गुणवत्ता वाला पेपर है, जो विषमांग परिदृश्य की महत्वपूर्ण और व्यावहारिक समस्या पर एक नवीन समाधान प्रस्तावित करता है। विधि डिजाइन चतुर है, प्रायोगिक सत्यापन पर्याप्त है, इसमें मजबूत सैद्धांतिक महत्व और व्यावहारिक मूल्य है।