2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.

Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.

academic

CoDS: Mejoramiento de la Percepción Colaborativa en Escenarios Heterogéneos mediante Separación de Dominios

Información Básica

ID del Artículo: 2510.13432
Título: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Autores: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 15 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.13432

Resumen

Este artículo propone el método CoDS, que aborda el problema de las diferencias de características en la percepción colaborativa en escenarios heterogéneos mediante técnicas de separación de dominios. CoDS utiliza un regulador espacial-canal ligero (LSCR) y un módulo de alineación de distribución basado en separación de dominios (DADS), combinado con una pérdida de información mutua de alineación de dominios (DAMI), para lograr una alineación eficiente de características heterogéneas. El método adopta una arquitectura completamente convolucional, mejorando significativamente la eficiencia de inferencia mientras se garantiza la precisión de detección.

Antecedentes de Investigación y Motivación

1. Problema Central

Los métodos existentes de percepción colaborativa generalmente asumen que todos los agentes utilizan el mismo codificador. Sin embargo, en el despliegue real, diferentes vehículos y unidades de borde de carretera suelen estar equipados con diferentes configuraciones de hardware y software, lo que genera diferencias en dimensión y distribución en la extracción de características.

2. Importancia del Problema

Necesidad Práctica: Los escenarios reales de colaboración V2V y V2X son necesariamente heterogéneos
Impacto en el Rendimiento: Las diferencias de características resultan en efectos de fusión deficientes, pudiendo comprometer la seguridad vial
Desafíos de Despliegue: El rendimiento de los métodos existentes se degrada severamente en escenarios heterogéneos

3. Limitaciones de Métodos Existentes

Conversión de Dominio Forzada: Alinear forzadamente características de vecinos al dominio del vehículo propio es susceptible al ruido de brecha de dominio
Baja Eficiencia Computacional: Los módulos de adaptación de dominio basados en Transformer tienen baja eficiencia de inferencia
Pérdida de Información: La conversión de dominio directo puede resultar en pérdida de información relevante para la tarea

4. Motivación de la Investigación

Basada en suposiciones de representación compartida de la ciencia cognitiva y neurociencia: la información compartida en múltiples perspectivas es más valiosa para la percepción colaborativa, mientras que la información específica del codificador obstaculiza la fusión efectiva.

Contribuciones Principales

Propuesta del Método CoDS: Primer adaptador de percepción colaborativa basado en separación de dominios, que resuelve el problema de diferencias de características en escenarios heterogéneos mediante la separación de información relacionada y no relacionada con el dominio
Diseño de Módulos LSCR y DADS:
- LSCR: Alineación ligera de dimensiones espacial-canal
- DADS: Mecanismo de separación de dominios específico y agnóstico del codificador
Introducción de Pérdida DAMI: Mejora el efecto de separación de dominios maximizando la información mutua entre características alineadas
Arquitectura Completamente Convolucional: Mejora significativamente la eficiencia de inferencia en comparación con métodos basados en Transformer
Validación Experimental Extensiva: Verifica la efectividad y eficiencia del método en tres conjuntos de datos a gran escala

Explicación Detallada del Método

Definición de la Tarea

La tarea de percepción colaborativa heterogénea se define como: dado N agentes, el vehículo propio recibe y fusiona características de agentes vecinos. En escenarios heterogéneos, diferentes agentes utilizan diferentes codificadores F^ego_enc y F^nei_enc, resultando en que las características fi y fj difieran en dimensión y distribución. El objetivo es diseñar un adaptador intercambiable que mitigue las diferencias de características.

Arquitectura del Modelo

1. Marco General

CoDS contiene dos módulos de alineación y una función de pérdida:

Módulo LSCR: Ajusta las dimensiones espacial y canal de características vecinas
Módulo DADS: Alinea la distribución de características mediante separación de dominios
Pérdida DAMI: Maximiza la información mutua entre características alineadas durante el entrenamiento

2. Regulador Espacial-Canal Ligero (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # Convolución 1×1 para alineación de canal
f̄_{j→i} = BI(f^0_{j→i})   # Interpolación bilineal para alineación espacial

3. Alineación de Distribución Basada en Separación de Dominios (DADS)

DADS emplea dos clases de módulos de separación de dominios:

Módulo Específico del Codificador M^es: Elimina información relacionada con el dominio
Módulo Agnóstico del Codificador M^ea: Captura información relevante para la tarea (pesos compartidos)

La función de proyección se define como:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. Pérdida de Información Mutua de Alineación de Dominios (DAMI)

La pérdida DAMI maximiza la información mutua entre características alineadas mediante aprendizaje contrastivo:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

Utiliza un discriminador para distinguir pares de muestras positivas (características alineadas del mismo escenario) y pares negativos (características alineadas de diferentes escenarios).

Puntos de Innovación Técnica

Concepto de Separación de Dominios: Evita la conversión de dominio forzada, separando información relacionada y no relacionada con el dominio
Mecanismo de Separación Dual: El módulo específico del codificador elimina información privada, el módulo agnóstico del codificador extrae información compartida
Maximización de Información Mutua: Asegura que las características alineadas retengan información relevante para la tarea
Diseño Completamente Convolucional: Ofrece mayor eficiencia de inferencia en comparación con Transformer

Configuración Experimental

Conjuntos de Datos

V2V4Real: Primer conjunto de datos V2V real a gran escala, contiene 20K fotogramas de datos de nube de puntos
OPV2V: Conjunto de datos de percepción V2V simulado, contiene 11,464 fotogramas de nube de puntos 3D
V2XSet: Conjunto de datos V2X simulado, contiene datos de vehículos y unidades de borde de carretera

Métricas de Evaluación

Métricas de Precisión: AP@0.50 y AP@0.70
Métricas de Eficiencia: FPS (fotogramas por segundo)

Métodos de Comparación

HETE: Método de línea base simple
MPDA: Método Transformer entre dominios
PnPDA: Método de transformador semántico
STAMP: Método de red de protocolo
PolyInter: Método de intérprete polimórfico

Detalles de Implementación

Optimizador: Adam, tasa de aprendizaje 0.002
Pesos de pérdida: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
Codificadores: Diferentes configuraciones de PointPillars, SECOND, VoxelNet

Resultados Experimentales

Resultados Principales

1. Comparación de Precisión de Detección

En el conjunto de datos V2V4Real, CoDS en comparación con la línea base HETE:

Cuando se utiliza DiscoNet, mejora promedio de AP@0.50 de 20.32, mejora promedio de AP@0.70 de 11.39
Supera a otros métodos adaptadores en la mayoría de configuraciones, mostrando el rendimiento más estable

En OPV2V y V2XSet, CoDS logra resultados óptimos o cercanos a óptimos en la mayoría de escenarios heterogéneos.

2. Comparación de Eficiencia de Inferencia

CoDS muestra una ventaja significativa en velocidad de inferencia:

Mejora superior al 100% en FPS en comparación con MPDA
Mejora superior al 20% en FPS en comparación con PnPDA, STAMP, PolyInter
Cantidad de parámetros de solo 3.67M, significativamente menor que los 46.22M de PolyInter

3. Experimentos de Robustez

Ante la presencia de errores de localización, CoDS supera consistentemente a otros métodos, manteniendo rendimiento superior a la percepción de vehículo único.

Experimentos de Ablación

1. Análisis de Contribución de Componentes

LSCR utilizado solo puede mejorar AP@0.70 aproximadamente 18%
La combinación LSCR+DAMI supera a LSCR+DADS
CoDS completo (LSCR+DADS+DAMI) logra el mejor rendimiento

2. Análisis del Módulo de Separación de Dominios

El uso individual de módulos agnósticos o específicos del codificador muestra rendimiento deficiente
La combinación de ambas clases de módulos logra el mejor rendimiento
Módulos de separación de dominios adicionales conducen a sobreajuste

Análisis de Casos

La visualización de características muestra que las características heterogéneas procesadas por CoDS son semánticamente más similares, destacando todas las regiones de objetivos, demostrando la efectividad de la separación de dominios.

La visualización de resultados de detección indica que CoDS reduce significativamente las detecciones faltantes en comparación con otros métodos, logrando el mejor rendimiento de detección.

Trabajo Relacionado

1. Percepción Colaborativa

Los métodos existentes se enfocaban principalmente en mecanismos de comunicación, estrategias de fusión y problemas de ruido, pero la mayoría asume escenarios homogéneos.

2. Percepción Colaborativa Heterogénea

Las soluciones existentes incluyen:

Reentrenamiento de Codificadores: Requiere acceso a la arquitectura original
Fusión Heterogénea: Diseña módulos de fusión especializados
Adaptadores Intercambiables: Mayor flexibilidad, enfoque principal de este trabajo

3. Adaptación de Dominios

La adaptación de dominios a nivel de características identifica características invariantes de dominio mediante minimización de divergencia, aprendizaje adversarial, etc.

4. Estimación de Información Mutua

Estima información mutua mediante redes neuronales, utilizada en aprendizaje de representación y alineación de dominios.

Conclusiones y Discusión

Conclusiones Principales

CoDS resuelve efectivamente el problema de diferencias de características en percepción colaborativa heterogénea mediante separación de dominios
La arquitectura completamente convolucional mejora significativamente la eficiencia de inferencia mientras se garantiza la precisión
La pérdida DAMI mejora el efecto de separación de dominios mediante maximización de información mutua
Se verifica la efectividad y robustez del método en múltiples conjuntos de datos y configuraciones

Limitaciones

Actualmente solo considera la configuración simplificada de dos codificadores diferentes
Asume transmisión de mapas de características completos; las aplicaciones reales requieren compresión de características
Puede enfrentar desafíos con brechas de dominio extremadamente grandes

Direcciones Futuras

Extender a escenarios heterogéneos abiertos con más tipos de codificadores
Integrar técnicas de compresión de características para reducir costos de comunicación
Investigar mecanismos de separación de dominios más complejos

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera introducción de concepto de separación de dominios en percepción colaborativa, evitando problemas de conversión de dominio forzada
Diseño Razonable: El mecanismo de separación de dominios dual está ingeniosamente diseñado con bases teóricas sólidas
Experimentación Completa: Evaluación integral en múltiples conjuntos de datos y configuraciones
Alto Valor Práctico: El diseño completamente convolucional equilibra precisión y eficiencia, más adecuado para despliegue real
Análisis Profundo: Proporciona abundantes experimentos de ablación y análisis de visualización

Insuficiencias

Limitaciones de Escenario: Solo considera escenarios heterogéneos simplificados con dos codificadores
Análisis Teórico: Carece de análisis de convergencia teórica del mecanismo de separación de dominios
Comparación Incompleta: Comparación insuficiente con métodos de reentrenamiento
Generalización: El rendimiento en escenarios heterogéneos reales más complejos requiere verificación

Impacto

Contribución Académica: Proporciona nuevas perspectivas de solución para percepción colaborativa heterogénea
Valor Práctico: El método es simple y eficiente, fácil de implementar en ingeniería
Reproducibilidad: Configuración experimental detallada, el código debería ser fácil de reproducir

Escenarios Aplicables

Sistemas de percepción colaborativa V2V/V2X en redes vehiculares
Tareas de colaboración multi-robot
Otros escenarios de percepción que requieren colaboración de dispositivos heterogéneos

Referencias

El artículo cita 65 referencias relacionadas, cubriendo trabajos importantes en percepción colaborativa, adaptación de dominios, estimación de información mutua y campos relacionados, con investigación bibliográfica relativamente completa.

Evaluación General: Este es un artículo de alta calidad sobre percepción colaborativa que propone una solución innovadora a un problema importante y práctico en escenarios heterogéneos. El diseño del método es ingenioso, la verificación experimental es completa, y posee un fuerte significado teórico y valor práctico.