2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic

CoDS: Miglioramento della Percezione Collaborativa in Scenari Eterogenei tramite Separazione di Dominio

Informazioni Fondamentali

  • ID Articolo: 2510.13432
  • Titolo: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
  • Autori: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: 15 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.13432

Riassunto

L'articolo propone il metodo CoDS, che affronta il problema delle differenze di caratteristiche nella percezione collaborativa in scenari eterogenei attraverso tecniche di separazione di dominio. CoDS impiega un regolatore spaziale-canale leggero (LSCR) e un modulo di allineamento della distribuzione basato sulla separazione di dominio (DADS), combinati con una perdita di informazione mutua di allineamento di dominio (DAMI), per realizzare un allineamento efficiente delle caratteristiche eterogenee. Il metodo utilizza un'architettura completamente convoluzionale, garantendo precisione di rilevamento mantenendo un significativo miglioramento dell'efficienza di inferenza.

Contesto di Ricerca e Motivazione

1. Problema Centrale

I metodi di percezione collaborativa esistenti presuppongono comunemente che tutti gli agenti utilizzino lo stesso codificatore, ma nelle implementazioni pratiche, diversi veicoli e unità roadside sono spesso equipaggiati con configurazioni hardware e software differenti, causando differenze dimensionali e di distribuzione nell'estrazione delle caratteristiche.

2. Importanza del Problema

  • Esigenze Pratiche: Gli scenari di collaborazione V2V e V2X nel mondo reale sono necessariamente eterogenei
  • Impatto Prestazionale: Le differenze di caratteristiche determinano scarsi risultati di fusione, potenzialmente compromettendo la sicurezza stradale
  • Sfide di Implementazione: I metodi esistenti mostrano degradazione significativa delle prestazioni in scenari eterogenei

3. Limitazioni dei Metodi Esistenti

  • Conversione di Dominio Forzata: L'allineamento forzato delle caratteristiche dei vicini al dominio dell'ego-vehicle è suscettibile al rumore del divario di dominio
  • Inefficienza Computazionale: I moduli di adattamento di dominio basati su Transformer hanno bassa efficienza di inferenza
  • Perdita di Informazioni: La conversione diretta di dominio può causare perdita di informazioni rilevanti per il compito

4. Motivazione della Ricerca

Basata sull'ipotesi di rappresentazione condivisa della scienza cognitiva e neuroscienza: le informazioni condivise in più prospettive hanno il massimo valore per la percezione collaborativa, mentre le informazioni specifiche del codificatore ostacolano la fusione efficace.

Contributi Principali

  1. Propone il Metodo CoDS: Primo adattatore di percezione collaborativa basato sulla separazione di dominio, che affronta il problema delle differenze di caratteristiche in scenari eterogenei separando informazioni correlate e non correlate al dominio
  2. Progetta i Moduli LSCR e DADS:
    • LSCR: Allineamento leggero delle dimensioni spaziali-canale
    • DADS: Meccanismo di separazione di dominio specifico e indipendente dal codificatore
  3. Introduce la Perdita DAMI: Migliora l'effetto della separazione di dominio massimizzando l'informazione mutua tra le caratteristiche allineate
  4. Architettura Completamente Convoluzionale: Migliora significativamente l'efficienza di inferenza rispetto ai metodi basati su Transformer
  5. Verifica Sperimentale Estesa: Convalida l'efficacia e l'efficienza del metodo su tre dataset su larga scala

Spiegazione Dettagliata del Metodo

Definizione del Compito

Il compito di percezione collaborativa eterogenea è definito come: dato N agenti, l'ego-vehicle riceve e fonde le caratteristiche degli agenti vicini. In scenari eterogenei, diversi agenti utilizzano codificatori differenti F^ego_enc e F^nei_enc, causando differenze dimensionali e di distribuzione nelle caratteristiche fi e fj. L'obiettivo è progettare adattatori plug-and-play per mitigare le differenze di caratteristiche.

Architettura del Modello

1. Framework Generale

CoDS contiene due moduli di allineamento e una funzione di perdita:

  • Modulo LSCR: Regola le dimensioni spaziali e canale delle caratteristiche dei vicini
  • Modulo DADS: Allinea la distribuzione delle caratteristiche attraverso la separazione di dominio
  • Perdita DAMI: Massimizza l'informazione mutua tra le caratteristiche allineate durante l'addestramento

2. Regolatore Spaziale-Canale Leggero (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # Convoluzione 1×1 per allineamento canale
f̄_{j→i} = BI(f^0_{j→i})   # Interpolazione bilineare per allineamento spaziale

3. Allineamento della Distribuzione Basato sulla Separazione di Dominio (DADS)

DADS impiega due classi di moduli di separazione di dominio:

  • Modulo Specifico del Codificatore M^es: Rimuove le informazioni correlate al dominio
  • Modulo Indipendente dal Codificatore M^ea: Cattura le informazioni rilevanti per il compito (pesi condivisi)

La funzione di proiezione è definita come:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. Perdita di Informazione Mutua di Allineamento di Dominio (DAMI)

La perdita DAMI massimizza l'informazione mutua tra le caratteristiche allineate attraverso l'apprendimento contrastivo:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

Utilizza un discriminatore per distinguere coppie di campioni positivi (caratteristiche allineate dello stesso scenario) e coppie negative (caratteristiche allineate di scenari diversi).

Punti di Innovazione Tecnica

  1. Idea di Separazione di Dominio: Evita la conversione di dominio forzata, separando invece le informazioni correlate e non correlate al dominio
  2. Meccanismo di Doppia Separazione: Il modulo specifico del codificatore rimuove le informazioni private, il modulo indipendente dal codificatore estrae le informazioni condivise
  3. Massimizzazione dell'Informazione Mutua: Assicura che le caratteristiche allineate conservino le informazioni rilevanti per il compito
  4. Progettazione Completamente Convoluzionale: Rispetto a Transformer, offre maggiore efficienza di inferenza

Configurazione Sperimentale

Dataset

  1. V2V4Real: Primo dataset V2V reale su larga scala, contenente 20K frame di dati point cloud
  2. OPV2V: Dataset di percezione V2V simulato, contenente 11.464 frame di point cloud 3D
  3. V2XSet: Dataset V2X simulato, contenente dati di veicoli e unità roadside

Metriche di Valutazione

  • Metriche di Precisione: AP@0.50 e AP@0.70
  • Metriche di Efficienza: FPS (frame al secondo)

Metodi di Confronto

  • HETE: Metodo baseline semplice
  • MPDA: Metodo Transformer cross-domain
  • PnPDA: Metodo semantic transformer
  • STAMP: Metodo protocol network
  • PolyInter: Metodo polymorphic interpreter

Dettagli di Implementazione

  • Ottimizzatore: Adam, learning rate 0.002
  • Pesi di perdita: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
  • Codificatori: Diverse configurazioni di PointPillars, SECOND, VoxelNet

Risultati Sperimentali

Risultati Principali

1. Confronto della Precisione di Rilevamento

Sul dataset V2V4Real, CoDS rispetto al baseline HETE:

  • Con DiscoNet, miglioramento medio di AP@0.50 di 20.32, miglioramento medio di AP@0.70 di 11.39
  • Supera altri metodi adattatori nella maggior parte delle impostazioni, mostrando le prestazioni più stabili

Su OPV2V e V2XSet, CoDS ha ottenuto risultati migliori o quasi ottimali nella maggior parte degli scenari eterogenei.

2. Confronto dell'Efficienza di Inferenza

CoDS mostra un significativo vantaggio nella velocità di inferenza rispetto ad altri metodi:

  • Miglioramento superiore al 100% di FPS rispetto a MPDA
  • Miglioramento superiore al 20% di FPS rispetto a PnPDA, STAMP, PolyInter
  • Parametri di soli 3.67M, significativamente inferiori ai 46.22M di PolyInter

3. Esperimenti di Robustezza

In presenza di errori di localizzazione, CoDS rimane superiore ad altri metodi, mantenendo prestazioni superiori alla percezione del singolo veicolo.

Esperimenti di Ablazione

1. Analisi del Contributo dei Componenti

  • LSCR da solo può migliorare AP@0.70 di circa il 18%
  • La combinazione LSCR+DAMI mostra prestazioni migliori di LSCR+DADS
  • CoDS completo (LSCR+DADS+DAMI) raggiunge le migliori prestazioni

2. Analisi del Modulo di Separazione di Dominio

  • L'uso esclusivo del modulo indipendente dal codificatore o specifico del codificatore mostra prestazioni scadenti
  • L'uso combinato di entrambi i tipi di moduli raggiunge le migliori prestazioni
  • Moduli di separazione di dominio aggiuntivi causano overfitting

Analisi dei Casi

La visualizzazione delle caratteristiche mostra che le caratteristiche eterogenee elaborate da CoDS sono semanticamente più simili, evidenziando entrambe le aree target, confermando l'efficacia della separazione di dominio.

La visualizzazione dei risultati di rilevamento indica che CoDS riduce significativamente i falsi negativi rispetto ad altri metodi, con le migliori prestazioni di rilevamento.

Lavori Correlati

1. Percezione Collaborativa

I metodi esistenti si concentrano principalmente su meccanismi di comunicazione, strategie di fusione e problemi di rumore, ma la maggior parte presuppone scenari omogenei.

2. Percezione Collaborativa Eterogenea

Le soluzioni esistenti includono:

  • Ri-addestramento del Codificatore: Richiede accesso all'architettura originale
  • Fusione Eterogenea: Progettazione di moduli di fusione specializzati
  • Adattatori Plug-and-Play: Massima flessibilità, focus principale di questo lavoro

3. Adattamento di Dominio

L'adattamento di dominio a livello di caratteristiche identifica caratteristiche invarianti di dominio attraverso minimizzazione delle differenze, apprendimento avversariale e altre tecniche.

4. Stima dell'Informazione Mutua

Stima dell'informazione mutua attraverso reti neurali, utilizzata nell'apprendimento di rappresentazioni e nell'allineamento di dominio.

Conclusioni e Discussione

Conclusioni Principali

  1. CoDS affronta efficacemente il problema delle differenze di caratteristiche nella percezione collaborativa eterogenea attraverso la separazione di dominio
  2. L'architettura completamente convoluzionale migliora significativamente l'efficienza di inferenza mantenendo la precisione
  3. La perdita DAMI migliora l'effetto della separazione di dominio attraverso la massimizzazione dell'informazione mutua
  4. L'efficacia e la robustezza del metodo sono state verificate su più dataset e impostazioni

Limitazioni

  1. Attualmente considera solo l'impostazione semplificata di due codificatori diversi
  2. Presuppone la trasmissione di mappe di caratteristiche complete, richiedendo compressione delle caratteristiche nelle applicazioni pratiche
  3. Potrebbe ancora affrontare sfide con divari di dominio estremamente grandi

Direzioni Future

  1. Estensione a scenari eterogenei aperti con più tipi di codificatori
  2. Integrazione con tecniche di compressione delle caratteristiche per ridurre i costi di comunicazione
  3. Ricerca di meccanismi di separazione di dominio più complessi

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a introdurre l'idea di separazione di dominio nella percezione collaborativa, evitando il problema della conversione di dominio forzata
  2. Progettazione Razionale: Il meccanismo di doppia separazione di dominio è ingegnoso con solide basi teoriche
  3. Sperimentazione Completa: Valutazione comprensiva su più dataset e impostazioni
  4. Alto Valore Pratico: La progettazione completamente convoluzionale bilancia precisione ed efficienza, più adatta all'implementazione pratica
  5. Analisi Approfondita: Fornisce ricchi esperimenti di ablazione e analisi di visualizzazione

Insufficienze

  1. Limitazioni di Scenario: Considera solo l'impostazione semplificata di due codificatori eterogenei
  2. Analisi Teorica: Manca l'analisi teorica della convergenza del meccanismo di separazione di dominio
  3. Confronto Incompleto: Manca il confronto sufficiente con metodi di ri-addestramento
  4. Generalizzabilità: Le prestazioni in scenari eterogenei reali più complessi richiedono ulteriore verifica

Impatto

  1. Contributo Accademico: Fornisce un nuovo approccio risolutivo per la percezione collaborativa eterogenea
  2. Valore Pratico: Il metodo è semplice ed efficiente, facile da implementare in ingegneria
  3. Riproducibilità: La configurazione sperimentale è dettagliata, il codice dovrebbe essere facilmente riproducibile

Scenari Applicabili

  1. Sistemi di percezione collaborativa V2V/V2X in reti veicolari
  2. Compiti di collaborazione multi-robot
  3. Altri scenari di percezione che richiedono collaborazione tra dispositivi eterogenei

Riferimenti Bibliografici

L'articolo cita 65 lavori correlati, coprendo aree rilevanti come percezione collaborativa, adattamento di dominio, stima dell'informazione mutua, con ricerca bibliografica relativamente completa.


Valutazione Complessiva: Questo è un articolo di alta qualità sulla percezione collaborativa che propone una soluzione innovativa a un importante e pratico problema negli scenari eterogenei. La progettazione del metodo è ingegnosa, la verifica sperimentale è completa, con significativo valore teorico e pratico.