CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic
CoDS : Amélioration de la Perception Collaborative dans les Scénarios Hétérogènes via la Séparation de Domaine
Cet article propose la méthode CoDS, qui résout le problème des différences de caractéristiques dans la perception collaborative en scénarios hétérogènes par la technique de séparation de domaine. CoDS emploie un ajusteur spatial-canal léger (LSCR) et un module d'alignement de distribution basé sur la séparation de domaine (DADS), combinés avec une perte d'information mutuelle d'alignement de domaine (DAMI), pour réaliser un alignement efficace des caractéristiques hétérogènes. La méthode adopte une architecture entièrement convolutive, améliorant significativement l'efficacité d'inférence tout en garantissant la précision de détection.
Les méthodes existantes de perception collaborative supposent généralement que tous les agents utilisent le même encodeur. Cependant, lors du déploiement pratique, différents véhicules et unités au bord de la route sont souvent équipés de configurations matérielles et logicielles différentes, entraînant des différences de dimension et de distribution dans l'extraction de caractéristiques.
Conversion de Domaine Forcée : L'alignement forcé des caractéristiques des voisins vers le domaine du véhicule ego est sensible au bruit d'écart de domaine
Inefficacité Computationnelle : Les modules d'adaptation de domaine basés sur Transformer ont une faible efficacité d'inférence
Perte d'Information : La conversion directe de domaine peut entraîner une perte d'informations pertinentes pour la tâche
Basée sur l'hypothèse de représentation partagée issue des sciences cognitives et des neurosciences : les informations partagées dans les perspectives multiples sont les plus précieuses pour la perception collaborative, tandis que les informations spécifiques à l'encodeur entravent la fusion efficace.
Proposition de la Méthode CoDS : Premier adaptateur de perception collaborative basé sur la séparation de domaine, résolvant le problème des différences de caractéristiques en scénarios hétérogènes par la séparation des informations dépendantes et indépendantes du domaine
Conception des Modules LSCR et DADS :
LSCR : Alignement léger des dimensions spatiales et canal
DADS : Mécanisme de séparation de domaine spécifique et indépendant de l'encodeur
Introduction de la Perte DAMI : Amélioration de l'effet de séparation de domaine par la maximisation de l'information mutuelle entre les caractéristiques alignées
Architecture Entièrement Convolutive : Amélioration significative de l'efficacité d'inférence par rapport aux méthodes basées sur Transformer
Validation Expérimentale Étendue : Vérification de l'efficacité et de l'efficience de la méthode sur trois ensembles de données à grande échelle
La tâche de perception collaborative hétérogène est définie comme suit : étant donné N agents, le véhicule ego reçoit et fusionne les caractéristiques des agents voisins. En scénarios hétérogènes, différents agents utilisent des encodeurs différents F^ego_enc et F^nei_enc, entraînant des différences de dimension et de distribution entre les caractéristiques fi et fj. L'objectif est de concevoir un adaptateur enfichable pour atténuer les différences de caractéristiques.
Un discriminateur distingue les paires d'échantillons positifs (caractéristiques alignées du même scénario) et les paires négatives (caractéristiques alignées de scénarios différents).
Concept de Séparation de Domaine : Évite la conversion de domaine forcée en séparant les informations dépendantes et indépendantes du domaine
Mécanisme de Séparation Double : Le module spécifique à l'encodeur supprime les informations privées, le module indépendant de l'encodeur extrait les informations partagées
Maximisation de l'Information Mutuelle : Assure que les caractéristiques alignées conservent les informations pertinentes pour la tâche
Conception Entièrement Convolutive : Offre une efficacité d'inférence supérieure par rapport à Transformer
En présence d'erreurs de localisation, CoDS surpasse constamment les autres méthodes et maintient des performances supérieures à la perception monovéhicule.
La visualisation des caractéristiques montre que les caractéristiques hétérogènes traitées par CoDS sont sémantiquement plus similaires, mettant toutes en évidence les régions cibles, prouvant l'efficacité de la séparation de domaine.
La visualisation des résultats de détection indique que CoDS réduit significativement les faux négatifs par rapport aux autres méthodes, avec les meilleures performances de détection.
Les méthodes existantes se concentrent principalement sur les mécanismes de communication, les stratégies de fusion et les problèmes de bruit, mais supposent généralement des scénarios homogènes.
L'adaptation de domaine au niveau des caractéristiques identifie les caractéristiques invariantes de domaine par minimisation de divergence, apprentissage adversarial, etc.
Innovation Forte : Introduction novatrice du concept de séparation de domaine dans la perception collaborative, évitant les problèmes de conversion de domaine forcée
Conception Rationnelle : Mécanisme de séparation de domaine double ingénieusement conçu, fondations théoriques solides
Expérimentation Complète : Évaluation exhaustive sur plusieurs ensembles de données et configurations
Valeur Pratique Élevée : La conception entièrement convolutive équilibre précision et efficacité, mieux adaptée au déploiement pratique
Analyse Approfondie : Expériences d'ablation riches et analyses de visualisation
L'article cite 65 références connexes, couvrant les domaines importants de la perception collaborative, adaptation de domaine, estimation de l'information mutuelle, etc., avec une investigation bibliographique relativement complète.
Évaluation Globale : Cet article est une contribution de haute qualité à la perception collaborative, proposant une solution innovante à un problème important et pratique en scénarios hétérogènes. La conception de la méthode est ingénieuse, la validation expérimentale est complète, avec une signification théorique et une valeur pratique considérables.