2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.

Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.

academic

CoDS: Verbesserung der kollaborativen Wahrnehmung in heterogenen Szenarien durch Domänentrennung

Grundinformationen

Paper-ID: 2510.13432
Titel: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Autoren: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
Klassifizierung: cs.CV (Computer Vision)
Veröffentlichungsdatum: 15. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.13432

Zusammenfassung

Das Paper präsentiert die CoDS-Methode, die Merkmalsdifferenzen in der kollaborativen Wahrnehmung heterogener Szenarien durch Domänentrennung adressiert. CoDS nutzt einen leichtgewichtigen räumlich-kanalen Regler (LSCR) und ein Modul zur Verteilungsausrichtung basierend auf Domänentrennung (DADS), kombiniert mit einem Domänen-Ausrichtungs-gegenseitigen-Information-Verlust (DAMI), um eine effiziente heterogene Merkmalsausrichtung zu erreichen. Die Methode verwendet eine vollständig faltende Architektur und verbessert die Inferenzeffizienz erheblich, während die Erkennungsgenauigkeit gewährleistet wird.

Forschungshintergrund und Motivation

1. Kernproblem

Bestehende Methoden der kollaborativen Wahrnehmung gehen allgemein davon aus, dass alle Agenten denselben Encoder verwenden. Bei der praktischen Bereitstellung sind jedoch verschiedene Fahrzeuge und Straßenrandeinheiten häufig mit unterschiedlichen Hardware- und Softwarekonfigurationen ausgestattet, was zu Dimensionen- und Verteilungsdifferenzen bei der Merkmalsextraktion führt.

2. Bedeutung des Problems

Praktische Anforderungen: Reale V2V- und V2X-Kooperationsszenarien sind notwendigerweise heterogen
Leistungsauswirkungen: Merkmalsdifferenzen führen zu schlechteren Fusionsergebnissen und können sogar die Verkehrssicherheit gefährden
Bereitstellungsherausforderungen: Bestehende Methoden zeigen erhebliche Leistungseinbußen in heterogenen Szenarien

3. Einschränkungen bestehender Methoden

Erzwungene Domänentransformation: Nachbarmerkmale werden gewaltsam in die Ego-Fahrzeug-Domäne ausgerichtet, was anfällig für Domänenlücken-Rauschen ist
Geringe Recheneffizienz: Transformer-basierte Domänenadaptationsmodule haben niedrige Inferenzeffizienz
Informationsverlust: Direkte Domänentransformation kann zum Verlust aufgabenrelevanter Informationen führen

4. Forschungsmotivation

Basierend auf der Annahme gemeinsamer Repräsentationen aus Kognitionswissenschaft und Neurowissenschaften: Gemeinsame Informationen aus mehreren Perspektiven sind für die kollaborative Wahrnehmung am wertvollsten, während encoderspezifische Informationen eine effektive Fusion behindern.

Kernbeiträge

Präsentation der CoDS-Methode: Erster auf Domänentrennung basierender Adapter für kollaborative Wahrnehmung, der domänenabhängige und domänenunabhängige Informationen trennt, um Merkmalsdifferenzen in heterogenen Szenarien zu lösen
Entwurf von LSCR- und DADS-Modulen:
- LSCR: Leichtgewichtiger räumlich-kanaler Dimensionsausgleich
- DADS: Encoderspezifischer und encodeunabhängiger Domänentrennungsmechanismus
Einführung des DAMI-Verlusts: Verstärkung der Domänentrennung durch Maximierung der gegenseitigen Information zwischen ausgerichteten Merkmalen
Vollständig faltende Architektur: Signifikante Verbesserung der Inferenzeffizienz im Vergleich zu Transformer-basierten Methoden
Umfangreiche experimentelle Validierung: Validierung der Methode auf drei großen Datensätzen

Methodische Details

Aufgabendefinition

Die heterogene kollaborative Wahrnehmungsaufgabe wird definiert als: Gegeben N Agenten empfängt das Ego-Fahrzeug und fusioniert Merkmale von Nachbaragenten. In heterogenen Szenarien verwenden verschiedene Agenten unterschiedliche Encoder F^ego_enc und F^nei_enc, was zu Unterschieden in Dimension und Verteilung zwischen Merkmalen fi und fj führt. Das Ziel ist die Gestaltung eines Plug-and-Play-Adapters zur Abschwächung von Merkmalsdifferenzen.

Modellarchitektur

1. Gesamtrahmen

CoDS besteht aus zwei Ausrichtungsmodulen und einer Verlustfunktion:

LSCR-Modul: Anpassung räumlicher und kanaler Dimensionen von Nachbarmerkmalen
DADS-Modul: Ausrichtung von Merkmalsverteilungen durch Domänentrennung
DAMI-Verlust: Maximierung der gegenseitigen Information zwischen ausgerichteten Merkmalen während des Trainings

2. Leichtgewichtiger räumlich-kanaler Regler (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # 1×1-Faltung für Kanal-Ausrichtung
f̄_{j→i} = BI(f^0_{j→i})   # Bilineare Interpolation für räumliche Ausrichtung

3. Verteilungsausrichtung basierend auf Domänentrennung (DADS)

DADS verwendet zwei Klassen von Domänentrennungsmodulen:

Encoderspezifisches Modul M^es: Entfernung domänenabhängiger Informationen
Encodeunabhängiges Modul M^ea: Erfassung aufgabenrelevanter Informationen (Gewichtsfreigabe)

Die Projektionsfunktion wird definiert als:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. Domänen-Ausrichtungs-gegenseitige-Information-Verlust (DAMI)

Der DAMI-Verlust maximiert die gegenseitige Information zwischen ausgerichteten Merkmalen durch kontrastives Lernen:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

Ein Diskriminator wird verwendet, um positive Stichprobenpaare (ausgerichtete Merkmale aus demselben Szenario) von negativen Stichprobenpaaren (ausgerichtete Merkmale aus verschiedenen Szenarien) zu unterscheiden.

Technische Innovationen

Domänentrennungskonzept: Vermeidung erzwungener Domänentransformation durch Trennung domänenabhängiger und domänenunabhängiger Informationen
Dualer Trennungsmechanismus: Encoderspezifisches Modul entfernt private Informationen, encodeunabhängiges Modul extrahiert gemeinsame Informationen
Maximierung gegenseitiger Information: Sicherung aufgabenrelevanter Informationen in ausgerichteten Merkmalen
Vollständig faltiges Design: Höhere Inferenzeffizienz im Vergleich zu Transformer

Experimentelle Einrichtung

Datensätze

V2V4Real: Erster großer echter V2V-Datensatz mit 20K Punkt-Wolken-Frames
OPV2V: Simulierter V2V-Wahrnehmungsdatensatz mit 11.464 3D-Punkt-Wolken-Frames
V2XSet: Simulierter V2X-Datensatz mit Fahrzeug- und Straßenrandeinheitendaten

Bewertungsmetriken

Genauigkeitsmetriken: AP@0.50 und AP@0.70
Effizienzmetriken: FPS (Frames pro Sekunde)

Vergleichsmethoden

HETE: Einfache Baseline-Methode
MPDA: Cross-Domain-Transformer-Methode
PnPDA: Semantischer Transformer-Methode
STAMP: Protokoll-Netzwerk-Methode
PolyInter: Polymorphe Interpreter-Methode

Implementierungsdetails

Optimierer: Adam, Lernrate 0,002
Verlustwichtungen: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0,2
Encoder: Verschiedene Konfigurationen von PointPillars, SECOND, VoxelNet

Experimentelle Ergebnisse

Hauptergebnisse

1. Vergleich der Erkennungsgenauigkeit

Auf dem V2V4Real-Datensatz im Vergleich zur HETE-Baseline:

Bei Verwendung von DiscoNet durchschnittliche Verbesserung von AP@0.50 um 20,32 und AP@0.70 um 11,39
In den meisten Einstellungen besser als andere Adapter-Methoden, stabilste Leistung

Auf OPV2V und V2XSet erreichte CoDS in den meisten heterogenen Szenarien beste oder nahezu beste Ergebnisse.

2. Vergleich der Inferenzeffizienz

CoDS zeigt signifikante Vorteile in der Inferenzgeschwindigkeit:

Über 100% FPS-Verbesserung im Vergleich zu MPDA
Über 20% FPS-Verbesserung im Vergleich zu PnPDA, STAMP, PolyInter
Nur 3,67M Parameter, deutlich weniger als PolyInters 46,22M

3. Robustheitsexperimente

Bei Vorhandensein von Lokalisierungsfehlern bleibt CoDS anderen Methoden überlegen und behält eine Leistung oberhalb der Einzelfahrzeug-Wahrnehmung bei.

Ablationsstudien

1. Komponentenbeitragsanalyse

LSCR allein verbessert AP@0.70 um etwa 18%
LSCR+DAMI-Kombination übertrifft LSCR+DADS
Vollständiges CoDS (LSCR+DADS+DAMI) erreicht beste Leistung

2. Analyse des Domänentrennungsmoduls

Alleinige Verwendung encodeunabhängiger oder encoderspezifischer Module zeigt schlechte Ergebnisse
Kombination beider Modultypen erreicht beste Ergebnisse
Zusätzliche Domänentrennungsmodule führen zu Überanpassung

Fallstudien

Merkmalsvisualisierung zeigt, dass nach CoDS-Verarbeitung heterogene Merkmale semantisch ähnlicher sind und beide Zielregionen hervorheben, was die Wirksamkeit der Domänentrennung beweist.

Erkennungsergebnis-Visualisierung zeigt, dass CoDS im Vergleich zu anderen Methoden Fehlerkennungen erheblich reduziert und beste Erkennungsleistung bietet.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

CoDS löst effektiv Merkmalsdifferenzen in heterogener kollaborativer Wahrnehmung durch Domänentrennung
Vollständig faltive Architektur verbessert Inferenzeffizienz erheblich bei Gewährleistung der Genauigkeit
DAMI-Verlust verstärkt Domänentrennung durch gegenseitige Informationsmaximierung
Validierung der Methodenwirksamkeit und Robustheit über mehrere Datensätze und Einstellungen

Einschränkungen

Derzeit nur vereinfachte Einstellung mit zwei verschiedenen Encodern
Annahme vollständiger Merkmalskarten-Übertragung, praktische Anwendungen erfordern Merkmalskompression
Mögliche Herausforderungen bei extremen Domänenlücken

Zukünftige Richtungen

Erweiterung auf offene heterogene Szenarien mit mehr Encoder-Typen
Integration mit Merkmalskomprimierungstechniken zur Reduktion von Kommunikationskosten
Untersuchung komplexerer Domänentrennungsmechanismen

Tiefgreifende Bewertung

Stärken

Starke Innovation: Erste Anwendung von Domänentrennungskonzepten auf kollaborative Wahrnehmung, vermeidet Probleme erzwungener Domänentransformation
Vernünftiger Entwurf: Duales Domänentrennungsmechanismus-Design ist elegant mit solider theoretischer Grundlage
Umfangreiche Experimente: Umfassende Bewertung über mehrere Datensätze und Einstellungen
Hoher praktischer Wert: Vollständig faltiges Design balanciert Genauigkeit und Effizienz für bessere praktische Bereitstellung
Tiefgreifende Analyse: Reichhaltige Ablationsstudien und Visualisierungsanalysen

Mängel

Szenario-Einschränkungen: Nur vereinfachte heterogene Szenarien mit zwei Encoder-Typen
Theoretische Analyse: Fehlende Konvergenzanalyse des Domänentrennungsmechanismus
Unzureichender Vergleich: Unzureichender Vergleich mit Umschulungsmethoden
Generalisierbarkeit: Leistung in komplexeren echten heterogenen Szenarien erfordert Validierung

Auswirkungen

Akademischer Beitrag: Bietet neue Lösungsansätze für heterogene kollaborative Wahrnehmung
Praktischer Wert: Methode ist einfach und effizient, leicht technisch umsetzbar
Reproduzierbarkeit: Detaillierte experimentelle Einrichtung, Code sollte leicht reproduzierbar sein

Anwendungsszenarien

Fahrzeugvernetzungs-V2V/V2X-Kooperationswahrnehmungssysteme
Multi-Roboter-Kooperationsaufgaben
Andere Wahrnehmungsszenarien mit heterogenen Geräten

Literaturverzeichnis

Das Paper zitiert 65 verwandte Arbeiten, die kollaborative Wahrnehmung, Domänenadaptation, gegenseitige Informationsschätzung und andere verwandte Bereiche abdecken, mit umfassender Literaturrecherche.

Gesamtbewertung: Dies ist ein hochqualitatives Paper zur kollaborativen Wahrnehmung, das eine innovative Lösung für das wichtige und praktische Problem heterogener Szenarien bietet. Das Methodendesign ist elegant, die experimentelle Validierung umfassend, mit starkem theoretischen und praktischem Wert.