CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic
CoDS: Mejoramiento de la Percepción Colaborativa en Escenarios Heterogéneos mediante Separación de Dominios
Este artículo propone el método CoDS, que aborda el problema de las diferencias de características en la percepción colaborativa en escenarios heterogéneos mediante técnicas de separación de dominios. CoDS utiliza un regulador espacial-canal ligero (LSCR) y un módulo de alineación de distribución basado en separación de dominios (DADS), combinado con una pérdida de información mutua de alineación de dominios (DAMI), para lograr una alineación eficiente de características heterogéneas. El método adopta una arquitectura completamente convolucional, mejorando significativamente la eficiencia de inferencia mientras se garantiza la precisión de detección.
Los métodos existentes de percepción colaborativa generalmente asumen que todos los agentes utilizan el mismo codificador. Sin embargo, en el despliegue real, diferentes vehículos y unidades de borde de carretera suelen estar equipados con diferentes configuraciones de hardware y software, lo que genera diferencias en dimensión y distribución en la extracción de características.
Conversión de Dominio Forzada: Alinear forzadamente características de vecinos al dominio del vehículo propio es susceptible al ruido de brecha de dominio
Baja Eficiencia Computacional: Los módulos de adaptación de dominio basados en Transformer tienen baja eficiencia de inferencia
Pérdida de Información: La conversión de dominio directo puede resultar en pérdida de información relevante para la tarea
Basada en suposiciones de representación compartida de la ciencia cognitiva y neurociencia: la información compartida en múltiples perspectivas es más valiosa para la percepción colaborativa, mientras que la información específica del codificador obstaculiza la fusión efectiva.
Propuesta del Método CoDS: Primer adaptador de percepción colaborativa basado en separación de dominios, que resuelve el problema de diferencias de características en escenarios heterogéneos mediante la separación de información relacionada y no relacionada con el dominio
Diseño de Módulos LSCR y DADS:
LSCR: Alineación ligera de dimensiones espacial-canal
DADS: Mecanismo de separación de dominios específico y agnóstico del codificador
Introducción de Pérdida DAMI: Mejora el efecto de separación de dominios maximizando la información mutua entre características alineadas
Arquitectura Completamente Convolucional: Mejora significativamente la eficiencia de inferencia en comparación con métodos basados en Transformer
Validación Experimental Extensiva: Verifica la efectividad y eficiencia del método en tres conjuntos de datos a gran escala
La tarea de percepción colaborativa heterogénea se define como: dado N agentes, el vehículo propio recibe y fusiona características de agentes vecinos. En escenarios heterogéneos, diferentes agentes utilizan diferentes codificadores F^ego_enc y F^nei_enc, resultando en que las características fi y fj difieran en dimensión y distribución. El objetivo es diseñar un adaptador intercambiable que mitigue las diferencias de características.
Utiliza un discriminador para distinguir pares de muestras positivas (características alineadas del mismo escenario) y pares negativos (características alineadas de diferentes escenarios).
Concepto de Separación de Dominios: Evita la conversión de dominio forzada, separando información relacionada y no relacionada con el dominio
Mecanismo de Separación Dual: El módulo específico del codificador elimina información privada, el módulo agnóstico del codificador extrae información compartida
Maximización de Información Mutua: Asegura que las características alineadas retengan información relevante para la tarea
Diseño Completamente Convolucional: Ofrece mayor eficiencia de inferencia en comparación con Transformer
Ante la presencia de errores de localización, CoDS supera consistentemente a otros métodos, manteniendo rendimiento superior a la percepción de vehículo único.
La visualización de características muestra que las características heterogéneas procesadas por CoDS son semánticamente más similares, destacando todas las regiones de objetivos, demostrando la efectividad de la separación de dominios.
La visualización de resultados de detección indica que CoDS reduce significativamente las detecciones faltantes en comparación con otros métodos, logrando el mejor rendimiento de detección.
Los métodos existentes se enfocaban principalmente en mecanismos de comunicación, estrategias de fusión y problemas de ruido, pero la mayoría asume escenarios homogéneos.
La adaptación de dominios a nivel de características identifica características invariantes de dominio mediante minimización de divergencia, aprendizaje adversarial, etc.
Innovación Fuerte: Primera introducción de concepto de separación de dominios en percepción colaborativa, evitando problemas de conversión de dominio forzada
Diseño Razonable: El mecanismo de separación de dominios dual está ingeniosamente diseñado con bases teóricas sólidas
Experimentación Completa: Evaluación integral en múltiples conjuntos de datos y configuraciones
Alto Valor Práctico: El diseño completamente convolucional equilibra precisión y eficiencia, más adecuado para despliegue real
Análisis Profundo: Proporciona abundantes experimentos de ablación y análisis de visualización
El artículo cita 65 referencias relacionadas, cubriendo trabajos importantes en percepción colaborativa, adaptación de dominios, estimación de información mutua y campos relacionados, con investigación bibliográfica relativamente completa.
Evaluación General: Este es un artículo de alta calidad sobre percepción colaborativa que propone una solución innovadora a un problema importante y práctico en escenarios heterogéneos. El diseño del método es ingenioso, la verificación experimental es completa, y posee un fuerte significado teórico y valor práctico.