CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic
CoDS: Verbesserung der kollaborativen Wahrnehmung in heterogenen Szenarien durch Domänentrennung
Das Paper präsentiert die CoDS-Methode, die Merkmalsdifferenzen in der kollaborativen Wahrnehmung heterogener Szenarien durch Domänentrennung adressiert. CoDS nutzt einen leichtgewichtigen räumlich-kanalen Regler (LSCR) und ein Modul zur Verteilungsausrichtung basierend auf Domänentrennung (DADS), kombiniert mit einem Domänen-Ausrichtungs-gegenseitigen-Information-Verlust (DAMI), um eine effiziente heterogene Merkmalsausrichtung zu erreichen. Die Methode verwendet eine vollständig faltende Architektur und verbessert die Inferenzeffizienz erheblich, während die Erkennungsgenauigkeit gewährleistet wird.
Bestehende Methoden der kollaborativen Wahrnehmung gehen allgemein davon aus, dass alle Agenten denselben Encoder verwenden. Bei der praktischen Bereitstellung sind jedoch verschiedene Fahrzeuge und Straßenrandeinheiten häufig mit unterschiedlichen Hardware- und Softwarekonfigurationen ausgestattet, was zu Dimensionen- und Verteilungsdifferenzen bei der Merkmalsextraktion führt.
Erzwungene Domänentransformation: Nachbarmerkmale werden gewaltsam in die Ego-Fahrzeug-Domäne ausgerichtet, was anfällig für Domänenlücken-Rauschen ist
Geringe Recheneffizienz: Transformer-basierte Domänenadaptationsmodule haben niedrige Inferenzeffizienz
Informationsverlust: Direkte Domänentransformation kann zum Verlust aufgabenrelevanter Informationen führen
Basierend auf der Annahme gemeinsamer Repräsentationen aus Kognitionswissenschaft und Neurowissenschaften: Gemeinsame Informationen aus mehreren Perspektiven sind für die kollaborative Wahrnehmung am wertvollsten, während encoderspezifische Informationen eine effektive Fusion behindern.
Präsentation der CoDS-Methode: Erster auf Domänentrennung basierender Adapter für kollaborative Wahrnehmung, der domänenabhängige und domänenunabhängige Informationen trennt, um Merkmalsdifferenzen in heterogenen Szenarien zu lösen
Die heterogene kollaborative Wahrnehmungsaufgabe wird definiert als: Gegeben N Agenten empfängt das Ego-Fahrzeug und fusioniert Merkmale von Nachbaragenten. In heterogenen Szenarien verwenden verschiedene Agenten unterschiedliche Encoder F^ego_enc und F^nei_enc, was zu Unterschieden in Dimension und Verteilung zwischen Merkmalen fi und fj führt. Das Ziel ist die Gestaltung eines Plug-and-Play-Adapters zur Abschwächung von Merkmalsdifferenzen.
Ein Diskriminator wird verwendet, um positive Stichprobenpaare (ausgerichtete Merkmale aus demselben Szenario) von negativen Stichprobenpaaren (ausgerichtete Merkmale aus verschiedenen Szenarien) zu unterscheiden.
Bei Vorhandensein von Lokalisierungsfehlern bleibt CoDS anderen Methoden überlegen und behält eine Leistung oberhalb der Einzelfahrzeug-Wahrnehmung bei.
Merkmalsvisualisierung zeigt, dass nach CoDS-Verarbeitung heterogene Merkmale semantisch ähnlicher sind und beide Zielregionen hervorheben, was die Wirksamkeit der Domänentrennung beweist.
Erkennungsergebnis-Visualisierung zeigt, dass CoDS im Vergleich zu anderen Methoden Fehlerkennungen erheblich reduziert und beste Erkennungsleistung bietet.
Bestehende Methoden konzentrieren sich hauptsächlich auf Kommunikationsmechanismen, Fusionsstrategien und Rauschprobleme, gehen aber meist von homogenen Szenarien aus.
Das Paper zitiert 65 verwandte Arbeiten, die kollaborative Wahrnehmung, Domänenadaptation, gegenseitige Informationsschätzung und andere verwandte Bereiche abdecken, mit umfassender Literaturrecherche.
Gesamtbewertung: Dies ist ein hochqualitatives Paper zur kollaborativen Wahrnehmung, das eine innovative Lösung für das wichtige und praktische Problem heterogener Szenarien bietet. Das Methodendesign ist elegant, die experimentelle Validierung umfassend, mit starkem theoretischen und praktischem Wert.