2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.

Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.

academic

CoDS : Amélioration de la Perception Collaborative dans les Scénarios Hétérogènes via la Séparation de Domaine

Informations Fondamentales

ID de l'article : 2510.13432
Titre : CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Auteurs : Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
Classification : cs.CV (Vision par Ordinateur)
Date de Publication : 15 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.13432

Résumé

Cet article propose la méthode CoDS, qui résout le problème des différences de caractéristiques dans la perception collaborative en scénarios hétérogènes par la technique de séparation de domaine. CoDS emploie un ajusteur spatial-canal léger (LSCR) et un module d'alignement de distribution basé sur la séparation de domaine (DADS), combinés avec une perte d'information mutuelle d'alignement de domaine (DAMI), pour réaliser un alignement efficace des caractéristiques hétérogènes. La méthode adopte une architecture entièrement convolutive, améliorant significativement l'efficacité d'inférence tout en garantissant la précision de détection.

Contexte de Recherche et Motivation

1. Problème Central

Les méthodes existantes de perception collaborative supposent généralement que tous les agents utilisent le même encodeur. Cependant, lors du déploiement pratique, différents véhicules et unités au bord de la route sont souvent équipés de configurations matérielles et logicielles différentes, entraînant des différences de dimension et de distribution dans l'extraction de caractéristiques.

2. Importance du Problème

Besoins Pratiques : Les scénarios réels de collaboration V2V et V2X sont nécessairement hétérogènes
Impact sur les Performances : Les différences de caractéristiques entraînent une fusion inefficace, pouvant même compromettre la sécurité routière
Défis de Déploiement : Les méthodes existantes connaissent une dégradation sévère des performances en scénarios hétérogènes

3. Limitations des Méthodes Existantes

Conversion de Domaine Forcée : L'alignement forcé des caractéristiques des voisins vers le domaine du véhicule ego est sensible au bruit d'écart de domaine
Inefficacité Computationnelle : Les modules d'adaptation de domaine basés sur Transformer ont une faible efficacité d'inférence
Perte d'Information : La conversion directe de domaine peut entraîner une perte d'informations pertinentes pour la tâche

4. Motivation de la Recherche

Basée sur l'hypothèse de représentation partagée issue des sciences cognitives et des neurosciences : les informations partagées dans les perspectives multiples sont les plus précieuses pour la perception collaborative, tandis que les informations spécifiques à l'encodeur entravent la fusion efficace.

Contributions Principales

Proposition de la Méthode CoDS : Premier adaptateur de perception collaborative basé sur la séparation de domaine, résolvant le problème des différences de caractéristiques en scénarios hétérogènes par la séparation des informations dépendantes et indépendantes du domaine
Conception des Modules LSCR et DADS :
- LSCR : Alignement léger des dimensions spatiales et canal
- DADS : Mécanisme de séparation de domaine spécifique et indépendant de l'encodeur
Introduction de la Perte DAMI : Amélioration de l'effet de séparation de domaine par la maximisation de l'information mutuelle entre les caractéristiques alignées
Architecture Entièrement Convolutive : Amélioration significative de l'efficacité d'inférence par rapport aux méthodes basées sur Transformer
Validation Expérimentale Étendue : Vérification de l'efficacité et de l'efficience de la méthode sur trois ensembles de données à grande échelle

Détails de la Méthode

Définition de la Tâche

La tâche de perception collaborative hétérogène est définie comme suit : étant donné N agents, le véhicule ego reçoit et fusionne les caractéristiques des agents voisins. En scénarios hétérogènes, différents agents utilisent des encodeurs différents F^ego_enc et F^nei_enc, entraînant des différences de dimension et de distribution entre les caractéristiques fi et fj. L'objectif est de concevoir un adaptateur enfichable pour atténuer les différences de caractéristiques.

Architecture du Modèle

1. Cadre Global

CoDS comprend deux modules d'alignement et une fonction de perte :

Module LSCR : Ajuste les dimensions spatiales et canal des caractéristiques des voisins
Module DADS : Aligne la distribution des caractéristiques par séparation de domaine
Perte DAMI : Maximise l'information mutuelle entre les caractéristiques alignées lors de l'entraînement

2. Ajusteur Spatial-Canal Léger (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # Convolution 1×1 pour l'alignement de canal
f̄_{j→i} = BI(f^0_{j→i})   # Interpolation bilinéaire pour l'alignement spatial

3. Alignement de Distribution Basé sur la Séparation de Domaine (DADS)

DADS emploie deux classes de modules de séparation de domaine :

Module Spécifique à l'Encodeur M^es : Supprime les informations dépendantes du domaine
Module Indépendant de l'Encodeur M^ea : Capture les informations pertinentes pour la tâche (poids partagés)

La fonction de projection est définie comme :

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. Perte d'Information Mutuelle d'Alignement de Domaine (DAMI)

La perte DAMI maximise l'information mutuelle entre les caractéristiques alignées par apprentissage contrastif :

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

Un discriminateur distingue les paires d'échantillons positifs (caractéristiques alignées du même scénario) et les paires négatives (caractéristiques alignées de scénarios différents).

Points d'Innovation Technique

Concept de Séparation de Domaine : Évite la conversion de domaine forcée en séparant les informations dépendantes et indépendantes du domaine
Mécanisme de Séparation Double : Le module spécifique à l'encodeur supprime les informations privées, le module indépendant de l'encodeur extrait les informations partagées
Maximisation de l'Information Mutuelle : Assure que les caractéristiques alignées conservent les informations pertinentes pour la tâche
Conception Entièrement Convolutive : Offre une efficacité d'inférence supérieure par rapport à Transformer

Configuration Expérimentale

Ensembles de Données

V2V4Real : Premier ensemble de données V2V réel à grande échelle, contenant 20K images de nuages de points
OPV2V : Ensemble de données de perception V2V simulé, contenant 11 464 images de nuages de points 3D
V2XSet : Ensemble de données V2X simulé, contenant des données de véhicules et d'unités au bord de la route

Métriques d'Évaluation

Métriques de Précision : AP@0.50 et AP@0.70
Métriques d'Efficacité : FPS (images par seconde)

Méthodes de Comparaison

HETE : Méthode de base simple
MPDA : Méthode Transformer inter-domaine
PnPDA : Méthode de transformateur sémantique
STAMP : Méthode de réseau de protocole
PolyInter : Méthode d'interpréteur polymorphe

Détails d'Implémentation

Optimiseur : Adam, taux d'apprentissage 0.002
Poids de perte : β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
Encodeurs : Configurations différentes de PointPillars, SECOND, VoxelNet

Résultats Expérimentaux

Résultats Principaux

1. Comparaison de la Précision de Détection

Sur l'ensemble de données V2V4Real, CoDS par rapport à la ligne de base HETE :

Avec DiscoNet, amélioration moyenne de 20.32 pour AP@0.50 et 11.39 pour AP@0.70
Surpasse les autres méthodes d'adaptateur dans la plupart des configurations, avec les performances les plus stables

Sur OPV2V et V2XSet, CoDS a obtenu les meilleurs résultats ou des résultats proches des meilleurs dans la plupart des scénarios hétérogènes.

2. Comparaison de l'Efficacité d'Inférence

CoDS surpasse significativement les autres méthodes en vitesse d'inférence :

Amélioration de plus de 100% FPS par rapport à MPDA
Amélioration de plus de 20% FPS par rapport à PnPDA, STAMP, PolyInter
Nombre de paramètres de seulement 3.67M, significativement inférieur aux 46.22M de PolyInter

3. Expériences de Robustesse

En présence d'erreurs de localisation, CoDS surpasse constamment les autres méthodes et maintient des performances supérieures à la perception monovéhicule.

Expériences d'Ablation

1. Analyse de la Contribution des Composants

LSCR seul peut améliorer AP@0.70 d'environ 18%
La combinaison LSCR+DAMI surpasse LSCR+DADS
Le CoDS complet (LSCR+DADS+DAMI) atteint les meilleures performances

2. Analyse du Module de Séparation de Domaine

L'utilisation seule du module indépendant ou spécifique à l'encodeur donne de mauvais résultats
La combinaison des deux classes de modules est nécessaire pour obtenir les meilleures performances
Les modules de séparation de domaine supplémentaires entraînent un surapprentissage

Analyse de Cas

La visualisation des caractéristiques montre que les caractéristiques hétérogènes traitées par CoDS sont sémantiquement plus similaires, mettant toutes en évidence les régions cibles, prouvant l'efficacité de la séparation de domaine.

La visualisation des résultats de détection indique que CoDS réduit significativement les faux négatifs par rapport aux autres méthodes, avec les meilleures performances de détection.

Travaux Connexes

1. Perception Collaborative

Les méthodes existantes se concentrent principalement sur les mécanismes de communication, les stratégies de fusion et les problèmes de bruit, mais supposent généralement des scénarios homogènes.

2. Perception Collaborative Hétérogène

Les solutions existantes incluent :

Réentraînement d'Encodeur : Nécessite l'accès à l'architecture originale
Fusion Hétérogène : Conception de modules de fusion spécialisés
Adaptateurs Enfichables : Flexibilité optimale, point focal de cet article

3. Adaptation de Domaine

L'adaptation de domaine au niveau des caractéristiques identifie les caractéristiques invariantes de domaine par minimisation de divergence, apprentissage adversarial, etc.

4. Estimation de l'Information Mutuelle

Estimation de l'information mutuelle via réseaux de neurones, utilisée pour l'apprentissage de représentation et l'alignement de domaine.

Conclusions et Discussion

Conclusions Principales

CoDS résout efficacement le problème des différences de caractéristiques dans la perception collaborative hétérogène par séparation de domaine
L'architecture entièrement convolutive améliore significativement l'efficacité d'inférence tout en garantissant la précision
La perte DAMI améliore l'effet de séparation de domaine par maximisation de l'information mutuelle
L'efficacité et la robustesse de la méthode ont été vérifiées sur plusieurs ensembles de données et configurations

Limitations

Considère actuellement un cadre simplifié avec seulement deux types d'encodeurs différents
Suppose la transmission de cartes de caractéristiques complètes, nécessitant une compression de caractéristiques en applications réelles
Peut présenter des défis pour les écarts de domaine extrêmement importants

Directions Futures

Extension à des scénarios hétérogènes ouverts avec plus de types d'encodeurs
Intégration de techniques de compression de caractéristiques pour réduire les coûts de communication
Étude de mécanismes de séparation de domaine plus complexes

Évaluation Approfondie

Avantages

Innovation Forte : Introduction novatrice du concept de séparation de domaine dans la perception collaborative, évitant les problèmes de conversion de domaine forcée
Conception Rationnelle : Mécanisme de séparation de domaine double ingénieusement conçu, fondations théoriques solides
Expérimentation Complète : Évaluation exhaustive sur plusieurs ensembles de données et configurations
Valeur Pratique Élevée : La conception entièrement convolutive équilibre précision et efficacité, mieux adaptée au déploiement pratique
Analyse Approfondie : Expériences d'ablation riches et analyses de visualisation

Insuffisances

Limitation de Scénarios : Considère uniquement un scénario hétérogène simplifié avec deux types d'encodeurs
Analyse Théorique : Manque d'analyse de convergence théorique du mécanisme de séparation de domaine
Comparaisons Insuffisantes : Comparaisons insuffisantes avec les méthodes de réentraînement
Généralisation : Les performances dans des scénarios hétérogènes réels plus complexes restent à vérifier

Impact

Contribution Académique : Fournit une nouvelle approche pour la perception collaborative hétérogène
Valeur Pratique : Méthode simple et efficace, facile à implémenter en ingénierie
Reproductibilité : Configuration expérimentale détaillée, code devrait être facile à reproduire

Scénarios Applicables

Systèmes de perception collaborative V2V/V2X pour réseaux véhiculaires
Tâches de collaboration multi-robots
Autres scénarios de perception nécessitant la collaboration d'appareils hétérogènes

Références

L'article cite 65 références connexes, couvrant les domaines importants de la perception collaborative, adaptation de domaine, estimation de l'information mutuelle, etc., avec une investigation bibliographique relativement complète.

Évaluation Globale : Cet article est une contribution de haute qualité à la perception collaborative, proposant une solution innovante à un problème important et pratique en scénarios hétérogènes. La conception de la méthode est ingénieuse, la validation expérimentale est complète, avec une signification théorique et une valeur pratique considérables.