2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic

CoDS: Verbesserung der kollaborativen Wahrnehmung in heterogenen Szenarien durch Domänentrennung

Grundinformationen

  • Paper-ID: 2510.13432
  • Titel: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
  • Autoren: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
  • Klassifizierung: cs.CV (Computer Vision)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13432

Zusammenfassung

Das Paper präsentiert die CoDS-Methode, die Merkmalsdifferenzen in der kollaborativen Wahrnehmung heterogener Szenarien durch Domänentrennung adressiert. CoDS nutzt einen leichtgewichtigen räumlich-kanalen Regler (LSCR) und ein Modul zur Verteilungsausrichtung basierend auf Domänentrennung (DADS), kombiniert mit einem Domänen-Ausrichtungs-gegenseitigen-Information-Verlust (DAMI), um eine effiziente heterogene Merkmalsausrichtung zu erreichen. Die Methode verwendet eine vollständig faltende Architektur und verbessert die Inferenzeffizienz erheblich, während die Erkennungsgenauigkeit gewährleistet wird.

Forschungshintergrund und Motivation

1. Kernproblem

Bestehende Methoden der kollaborativen Wahrnehmung gehen allgemein davon aus, dass alle Agenten denselben Encoder verwenden. Bei der praktischen Bereitstellung sind jedoch verschiedene Fahrzeuge und Straßenrandeinheiten häufig mit unterschiedlichen Hardware- und Softwarekonfigurationen ausgestattet, was zu Dimensionen- und Verteilungsdifferenzen bei der Merkmalsextraktion führt.

2. Bedeutung des Problems

  • Praktische Anforderungen: Reale V2V- und V2X-Kooperationsszenarien sind notwendigerweise heterogen
  • Leistungsauswirkungen: Merkmalsdifferenzen führen zu schlechteren Fusionsergebnissen und können sogar die Verkehrssicherheit gefährden
  • Bereitstellungsherausforderungen: Bestehende Methoden zeigen erhebliche Leistungseinbußen in heterogenen Szenarien

3. Einschränkungen bestehender Methoden

  • Erzwungene Domänentransformation: Nachbarmerkmale werden gewaltsam in die Ego-Fahrzeug-Domäne ausgerichtet, was anfällig für Domänenlücken-Rauschen ist
  • Geringe Recheneffizienz: Transformer-basierte Domänenadaptationsmodule haben niedrige Inferenzeffizienz
  • Informationsverlust: Direkte Domänentransformation kann zum Verlust aufgabenrelevanter Informationen führen

4. Forschungsmotivation

Basierend auf der Annahme gemeinsamer Repräsentationen aus Kognitionswissenschaft und Neurowissenschaften: Gemeinsame Informationen aus mehreren Perspektiven sind für die kollaborative Wahrnehmung am wertvollsten, während encoderspezifische Informationen eine effektive Fusion behindern.

Kernbeiträge

  1. Präsentation der CoDS-Methode: Erster auf Domänentrennung basierender Adapter für kollaborative Wahrnehmung, der domänenabhängige und domänenunabhängige Informationen trennt, um Merkmalsdifferenzen in heterogenen Szenarien zu lösen
  2. Entwurf von LSCR- und DADS-Modulen:
    • LSCR: Leichtgewichtiger räumlich-kanaler Dimensionsausgleich
    • DADS: Encoderspezifischer und encodeunabhängiger Domänentrennungsmechanismus
  3. Einführung des DAMI-Verlusts: Verstärkung der Domänentrennung durch Maximierung der gegenseitigen Information zwischen ausgerichteten Merkmalen
  4. Vollständig faltende Architektur: Signifikante Verbesserung der Inferenzeffizienz im Vergleich zu Transformer-basierten Methoden
  5. Umfangreiche experimentelle Validierung: Validierung der Methode auf drei großen Datensätzen

Methodische Details

Aufgabendefinition

Die heterogene kollaborative Wahrnehmungsaufgabe wird definiert als: Gegeben N Agenten empfängt das Ego-Fahrzeug und fusioniert Merkmale von Nachbaragenten. In heterogenen Szenarien verwenden verschiedene Agenten unterschiedliche Encoder F^ego_enc und F^nei_enc, was zu Unterschieden in Dimension und Verteilung zwischen Merkmalen fi und fj führt. Das Ziel ist die Gestaltung eines Plug-and-Play-Adapters zur Abschwächung von Merkmalsdifferenzen.

Modellarchitektur

1. Gesamtrahmen

CoDS besteht aus zwei Ausrichtungsmodulen und einer Verlustfunktion:

  • LSCR-Modul: Anpassung räumlicher und kanaler Dimensionen von Nachbarmerkmalen
  • DADS-Modul: Ausrichtung von Merkmalsverteilungen durch Domänentrennung
  • DAMI-Verlust: Maximierung der gegenseitigen Information zwischen ausgerichteten Merkmalen während des Trainings

2. Leichtgewichtiger räumlich-kanaler Regler (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # 1×1-Faltung für Kanal-Ausrichtung
f̄_{j→i} = BI(f^0_{j→i})   # Bilineare Interpolation für räumliche Ausrichtung

3. Verteilungsausrichtung basierend auf Domänentrennung (DADS)

DADS verwendet zwei Klassen von Domänentrennungsmodulen:

  • Encoderspezifisches Modul M^es: Entfernung domänenabhängiger Informationen
  • Encodeunabhängiges Modul M^ea: Erfassung aufgabenrelevanter Informationen (Gewichtsfreigabe)

Die Projektionsfunktion wird definiert als:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. Domänen-Ausrichtungs-gegenseitige-Information-Verlust (DAMI)

Der DAMI-Verlust maximiert die gegenseitige Information zwischen ausgerichteten Merkmalen durch kontrastives Lernen:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

Ein Diskriminator wird verwendet, um positive Stichprobenpaare (ausgerichtete Merkmale aus demselben Szenario) von negativen Stichprobenpaaren (ausgerichtete Merkmale aus verschiedenen Szenarien) zu unterscheiden.

Technische Innovationen

  1. Domänentrennungskonzept: Vermeidung erzwungener Domänentransformation durch Trennung domänenabhängiger und domänenunabhängiger Informationen
  2. Dualer Trennungsmechanismus: Encoderspezifisches Modul entfernt private Informationen, encodeunabhängiges Modul extrahiert gemeinsame Informationen
  3. Maximierung gegenseitiger Information: Sicherung aufgabenrelevanter Informationen in ausgerichteten Merkmalen
  4. Vollständig faltiges Design: Höhere Inferenzeffizienz im Vergleich zu Transformer

Experimentelle Einrichtung

Datensätze

  1. V2V4Real: Erster großer echter V2V-Datensatz mit 20K Punkt-Wolken-Frames
  2. OPV2V: Simulierter V2V-Wahrnehmungsdatensatz mit 11.464 3D-Punkt-Wolken-Frames
  3. V2XSet: Simulierter V2X-Datensatz mit Fahrzeug- und Straßenrandeinheitendaten

Bewertungsmetriken

  • Genauigkeitsmetriken: AP@0.50 und AP@0.70
  • Effizienzmetriken: FPS (Frames pro Sekunde)

Vergleichsmethoden

  • HETE: Einfache Baseline-Methode
  • MPDA: Cross-Domain-Transformer-Methode
  • PnPDA: Semantischer Transformer-Methode
  • STAMP: Protokoll-Netzwerk-Methode
  • PolyInter: Polymorphe Interpreter-Methode

Implementierungsdetails

  • Optimierer: Adam, Lernrate 0,002
  • Verlustwichtungen: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0,2
  • Encoder: Verschiedene Konfigurationen von PointPillars, SECOND, VoxelNet

Experimentelle Ergebnisse

Hauptergebnisse

1. Vergleich der Erkennungsgenauigkeit

Auf dem V2V4Real-Datensatz im Vergleich zur HETE-Baseline:

  • Bei Verwendung von DiscoNet durchschnittliche Verbesserung von AP@0.50 um 20,32 und AP@0.70 um 11,39
  • In den meisten Einstellungen besser als andere Adapter-Methoden, stabilste Leistung

Auf OPV2V und V2XSet erreichte CoDS in den meisten heterogenen Szenarien beste oder nahezu beste Ergebnisse.

2. Vergleich der Inferenzeffizienz

CoDS zeigt signifikante Vorteile in der Inferenzgeschwindigkeit:

  • Über 100% FPS-Verbesserung im Vergleich zu MPDA
  • Über 20% FPS-Verbesserung im Vergleich zu PnPDA, STAMP, PolyInter
  • Nur 3,67M Parameter, deutlich weniger als PolyInters 46,22M

3. Robustheitsexperimente

Bei Vorhandensein von Lokalisierungsfehlern bleibt CoDS anderen Methoden überlegen und behält eine Leistung oberhalb der Einzelfahrzeug-Wahrnehmung bei.

Ablationsstudien

1. Komponentenbeitragsanalyse

  • LSCR allein verbessert AP@0.70 um etwa 18%
  • LSCR+DAMI-Kombination übertrifft LSCR+DADS
  • Vollständiges CoDS (LSCR+DADS+DAMI) erreicht beste Leistung

2. Analyse des Domänentrennungsmoduls

  • Alleinige Verwendung encodeunabhängiger oder encoderspezifischer Module zeigt schlechte Ergebnisse
  • Kombination beider Modultypen erreicht beste Ergebnisse
  • Zusätzliche Domänentrennungsmodule führen zu Überanpassung

Fallstudien

Merkmalsvisualisierung zeigt, dass nach CoDS-Verarbeitung heterogene Merkmale semantisch ähnlicher sind und beide Zielregionen hervorheben, was die Wirksamkeit der Domänentrennung beweist.

Erkennungsergebnis-Visualisierung zeigt, dass CoDS im Vergleich zu anderen Methoden Fehlerkennungen erheblich reduziert und beste Erkennungsleistung bietet.

Verwandte Arbeiten

1. Kollaborative Wahrnehmung

Bestehende Methoden konzentrieren sich hauptsächlich auf Kommunikationsmechanismen, Fusionsstrategien und Rauschprobleme, gehen aber meist von homogenen Szenarien aus.

2. Heterogene kollaborative Wahrnehmung

Bestehende Lösungen umfassen:

  • Encoder-Umschulung: Erfordert Zugriff auf ursprüngliche Architektur
  • Heterogene Fusion: Entwurf spezialisierter Fusionsmodule
  • Plug-and-Play-Adapter: Beste Flexibilität, Fokus dieses Papers

3. Domänenadaptation

Merkmalsebenen-Domänenadaptation identifiziert domäneninvariante Merkmale durch Differenzminimierung, adversariales Lernen und andere Techniken.

4. Gegenseitige Informationsschätzung

Schätzung gegenseitiger Information durch neuronale Netzwerke für Repräsentationslernen und Domänenausrichtung.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. CoDS löst effektiv Merkmalsdifferenzen in heterogener kollaborativer Wahrnehmung durch Domänentrennung
  2. Vollständig faltive Architektur verbessert Inferenzeffizienz erheblich bei Gewährleistung der Genauigkeit
  3. DAMI-Verlust verstärkt Domänentrennung durch gegenseitige Informationsmaximierung
  4. Validierung der Methodenwirksamkeit und Robustheit über mehrere Datensätze und Einstellungen

Einschränkungen

  1. Derzeit nur vereinfachte Einstellung mit zwei verschiedenen Encodern
  2. Annahme vollständiger Merkmalskarten-Übertragung, praktische Anwendungen erfordern Merkmalskompression
  3. Mögliche Herausforderungen bei extremen Domänenlücken

Zukünftige Richtungen

  1. Erweiterung auf offene heterogene Szenarien mit mehr Encoder-Typen
  2. Integration mit Merkmalskomprimierungstechniken zur Reduktion von Kommunikationskosten
  3. Untersuchung komplexerer Domänentrennungsmechanismen

Tiefgreifende Bewertung

Stärken

  1. Starke Innovation: Erste Anwendung von Domänentrennungskonzepten auf kollaborative Wahrnehmung, vermeidet Probleme erzwungener Domänentransformation
  2. Vernünftiger Entwurf: Duales Domänentrennungsmechanismus-Design ist elegant mit solider theoretischer Grundlage
  3. Umfangreiche Experimente: Umfassende Bewertung über mehrere Datensätze und Einstellungen
  4. Hoher praktischer Wert: Vollständig faltiges Design balanciert Genauigkeit und Effizienz für bessere praktische Bereitstellung
  5. Tiefgreifende Analyse: Reichhaltige Ablationsstudien und Visualisierungsanalysen

Mängel

  1. Szenario-Einschränkungen: Nur vereinfachte heterogene Szenarien mit zwei Encoder-Typen
  2. Theoretische Analyse: Fehlende Konvergenzanalyse des Domänentrennungsmechanismus
  3. Unzureichender Vergleich: Unzureichender Vergleich mit Umschulungsmethoden
  4. Generalisierbarkeit: Leistung in komplexeren echten heterogenen Szenarien erfordert Validierung

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für heterogene kollaborative Wahrnehmung
  2. Praktischer Wert: Methode ist einfach und effizient, leicht technisch umsetzbar
  3. Reproduzierbarkeit: Detaillierte experimentelle Einrichtung, Code sollte leicht reproduzierbar sein

Anwendungsszenarien

  1. Fahrzeugvernetzungs-V2V/V2X-Kooperationswahrnehmungssysteme
  2. Multi-Roboter-Kooperationsaufgaben
  3. Andere Wahrnehmungsszenarien mit heterogenen Geräten

Literaturverzeichnis

Das Paper zitiert 65 verwandte Arbeiten, die kollaborative Wahrnehmung, Domänenadaptation, gegenseitige Informationsschätzung und andere verwandte Bereiche abdecken, mit umfassender Literaturrecherche.


Gesamtbewertung: Dies ist ein hochqualitatives Paper zur kollaborativen Wahrnehmung, das eine innovative Lösung für das wichtige und praktische Problem heterogener Szenarien bietet. Das Methodendesign ist elegant, die experimentelle Validierung umfassend, mit starkem theoretischen und praktischem Wert.