2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.

Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.

academic

CoDS: Повышение совместного восприятия в гетерогенных сценариях посредством разделения доменов

Основная информация

ID статьи: 2510.13432
Название: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Авторы: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 15 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.13432

Аннотация

В данной статье предложен метод CoDS, который решает проблему различий признаков при совместном восприятии в гетерогенных сценариях посредством техники разделения доменов. CoDS использует облегченный пространственно-канальный регулятор (LSCR) и модуль выравнивания распределения на основе разделения доменов (DADS), в сочетании с потерей взаимной информации выравнивания доменов (DAMI), для достижения эффективного выравнивания гетерогенных признаков. Метод использует полносверточную архитектуру, обеспечивая высокую точность обнаружения при значительном повышении эффективности вывода.

Исследовательский контекст и мотивация

1. Основная проблема

Существующие методы совместного восприятия обычно предполагают, что все агенты используют одинаковые кодировщики, однако при практическом развертывании различные транспортные средства и придорожные блоки часто оснащены различным аппаратным и программным обеспечением, что приводит к различиям в размерности и распределении извлекаемых признаков.

2. Важность проблемы

Практические требования: Сценарии сотрудничества V2V и V2X в реальном мире неизбежно являются гетерогенными
Влияние на производительность: Различия в признаках приводят к плохим результатам слияния и могут даже угрожать безопасности дорожного движения
Проблемы развертывания: Существующие методы показывают серьезное снижение производительности в гетерогенных сценариях

3. Ограничения существующих методов

Принудительное преобразование доменов: Принудительное выравнивание признаков соседей с доменом собственного транспортного средства подвержено влиянию шума междоменного разрыва
Низкая вычислительная эффективность: Модули адаптации доменов на основе Transformer имеют низкую эффективность вывода
Потеря информации: Прямое преобразование доменов может привести к потере информации, связанной с задачей

4. Исследовательская мотивация

На основе гипотезы общего представления из когнитивной науки и нейронауки: общая информация из нескольких точек зрения наиболее ценна для совместного восприятия, тогда как информация, специфичная для кодировщика, препятствует эффективному слиянию.

Основные вклады

Предложен метод CoDS: Первый адаптер совместного восприятия на основе разделения доменов, решающий проблему различий признаков в гетерогенных сценариях путем разделения информации, связанной с доменом, и независимой от домена
Разработаны модули LSCR и DADS:
- LSCR: облегченное выравнивание пространственных и канальных размерностей
- DADS: механизм разделения доменов, специфичный и независимый от кодировщика
Введена потеря DAMI: Повышение эффективности разделения доменов путем максимизации взаимной информации между выровненными признаками
Полносверточная архитектура: Значительное повышение эффективности вывода по сравнению с методами на основе Transformer
Обширная экспериментальная проверка: Проверка эффективности и производительности метода на трех крупномасштабных наборах данных

Подробное описание метода

Определение задачи

Задача гетерогенного совместного восприятия определяется следующим образом: при наличии N агентов собственное транспортное средство получает и объединяет признаки соседних агентов. В гетерогенном сценарии различные агенты используют различные кодировщики F^ego_enc и F^nei_enc, что приводит к различиям в размерности и распределении признаков fi и fj. Цель состоит в разработке адаптера типа «подключи и работай» для смягчения различий в признаках.

Архитектура модели

1. Общая структура

CoDS содержит два модуля выравнивания и одну функцию потерь:

Модуль LSCR: Регулировка пространственных и канальных размерностей признаков соседей
Модуль DADS: Выравнивание распределения признаков посредством разделения доменов
Потеря DAMI: Максимизация взаимной информации между выровненными признаками во время обучения

2. Облегченный пространственно-канальный регулятор (LSCR)

f^0_{j→i} = Conv(f_{j→i})  # Выравнивание каналов с помощью свертки 1×1
f̄_{j→i} = BI(f^0_{j→i})   # Пространственное выравнивание с помощью билинейной интерполяции

3. Выравнивание распределения на основе разделения доменов (DADS)

DADS использует два класса модулей разделения доменов:

Модуль, специфичный для кодировщика M^es: Удаление информации, связанной с доменом
Модуль, независимый от кодировщика M^ea: Захват информации, связанной с задачей (общие веса)

Функция проекции определяется как:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. Потеря взаимной информации выравнивания доменов (DAMI)

Потеря DAMI максимизирует взаимную информацию между выровненными признаками посредством контрастивного обучения:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

Дискриминатор используется для различения положительных пар образцов (выровненные признаки из одного сценария) и отрицательных пар образцов (выровненные признаки из различных сценариев).

Технические инновации

Идея разделения доменов: Избежание принудительного преобразования доменов путем разделения информации, связанной с доменом, и независимой от домена
Двойной механизм разделения: Модуль, специфичный для кодировщика, удаляет приватную информацию, модуль, независимый от кодировщика, извлекает общую информацию
Максимизация взаимной информации: Обеспечение сохранения информации, связанной с задачей, в выровненных признаках
Полносверточный дизайн: Более высокая эффективность вывода по сравнению с Transformer

Экспериментальная установка

Наборы данных

V2V4Real: Первый крупномасштабный реальный набор данных V2V, содержащий 20K кадров облачных данных точек
OPV2V: Имитационный набор данных восприятия V2V, содержащий 11,464 кадра облачных данных 3D точек
V2XSet: Имитационный набор данных V2X, содержащий данные транспортных средств и придорожных блоков

Метрики оценки

Метрики точности: AP@0.50 и AP@0.70
Метрики эффективности: FPS (кадров в секунду)

Методы сравнения

HETE: Простой базовый метод
MPDA: Кроссдоменный метод Transformer
PnPDA: Метод семантического трансформера
STAMP: Метод сетей протоколов
PolyInter: Метод полиморфного интерпретатора

Детали реализации

Оптимизатор: Adam, скорость обучения 0.002
Веса потерь: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
Кодировщики: различные конфигурации PointPillars, SECOND, VoxelNet

Результаты экспериментов

Основные результаты

1. Сравнение точности обнаружения

На наборе данных V2V4Real CoDS по сравнению с базовым методом HETE:

При использовании DiscoNet среднее улучшение AP@0.50 составляет 20.32, AP@0.70 составляет 11.39
В большинстве параметров превосходит другие методы адаптеров, показывая наиболее стабильные результаты

На OPV2V и V2XSet CoDS достигает лучших или близких к лучшим результатов в большинстве гетерогенных сценариев.

2. Сравнение эффективности вывода

CoDS значительно превосходит другие методы по скорости вывода:

Улучшение более чем на 100% FPS по сравнению с MPDA
Улучшение более чем на 20% FPS по сравнению с PnPDA, STAMP, PolyInter
Количество параметров составляет всего 3.67M, значительно меньше, чем 46.22M у PolyInter

3. Эксперименты по робастности

При наличии ошибок позиционирования CoDS постоянно превосходит другие методы и сохраняет производительность выше, чем восприятие одного транспортного средства.

Абляционные исследования

1. Анализ вклада компонентов

LSCR при отдельном использовании может улучшить AP@0.70 примерно на 18%
Комбинация LSCR+DAMI показывает лучшие результаты, чем LSCR+DADS
Полный CoDS (LSCR+DADS+DAMI) достигает лучшей производительности

2. Анализ модуля разделения доменов

Отдельное использование модулей, специфичных для кодировщика или независимых от кодировщика, показывает плохие результаты
Комбинированное использование обоих типов модулей достигает лучших результатов
Дополнительные модули разделения доменов приводят к переобучению

Анализ примеров

Визуализация признаков показывает, что гетерогенные признаки, обработанные CoDS, семантически более похожи и выделяют целевые области, что доказывает эффективность разделения доменов.

Визуализация результатов обнаружения показывает, что CoDS значительно снижает количество пропущенных обнаружений по сравнению с другими методами, обеспечивая лучшую производительность обнаружения.

Связанные работы

1. Совместное восприятие

Существующие методы в основном сосредоточены на механизмах коммуникации, стратегиях слияния и проблемах шума, но большинство предполагают гомогенные сценарии.

2. Гетерогенное совместное восприятие

Существующие решения включают:

Переобучение кодировщика: Требует доступа к исходной архитектуре
Гетерогенное слияние: Разработка специализированных модулей слияния
Адаптеры типа «подключи и работай»: Наибольшая гибкость, основной фокус данной работы

3. Адаптация доменов

Адаптация признаков на уровне доменов идентифицирует инвариантные признаки доменов посредством минимизации различий, противоборствующего обучения и других техник.

4. Оценка взаимной информации

Оценка взаимной информации с помощью нейронных сетей, используемая в представлении обучения и выравнивании доменов.

Заключение и обсуждение

Основные выводы

CoDS эффективно решает проблему различий признаков при гетерогенном совместном восприятии посредством разделения доменов
Полносверточная архитектура значительно повышает эффективность вывода при сохранении точности
Потеря DAMI повышает эффективность разделения доменов путем максимизации взаимной информации
Эффективность и робастность метода проверены на нескольких наборах данных и параметрах

Ограничения

В настоящее время рассматривается упрощенная установка с двумя различными кодировщиками
Предполагается передача полных карт признаков, в практических приложениях требуется сжатие признаков
Для экстремально больших междоменных разрывов могут сохраняться проблемы

Направления будущих исследований

Расширение на открытые гетерогенные сценарии с большим количеством типов кодировщиков
Интеграция с техниками сжатия признаков для снижения затрат на коммуникацию
Исследование более сложных механизмов разделения доменов

Глубокая оценка

Преимущества

Высокая инновационность: Впервые применена идея разделения доменов к совместному восприятию, избегая проблем принудительного преобразования доменов
Разумный дизайн: Двойной механизм разделения доменов разработан искусно с прочной теоретической базой
Полные эксперименты: Комплексная оценка на нескольких наборах данных и параметрах
Высокая практическая ценность: Полносверточный дизайн сочетает точность и эффективность, более подходит для практического развертывания
Глубокий анализ: Предоставляет богатые абляционные эксперименты и визуализационный анализ

Недостатки

Ограничения сценариев: Рассматривается только упрощенный гетерогенный сценарий с двумя кодировщиками
Теоретический анализ: Отсутствует анализ теоретической сходимости механизма разделения доменов
Недостаточное сравнение: Отсутствует полное сравнение с методами переобучения
Обобщаемость: Производительность в более сложных реальных гетерогенных сценариях требует дальнейшей проверки

Влияние

Академический вклад: Предоставляет новый подход к решению проблемы гетерогенного совместного восприятия
Практическая ценность: Метод прост и эффективен, легко реализуется в инженерных приложениях
Воспроизводимость: Детальная экспериментальная установка, код должен быть легко воспроизводим

Применимые сценарии

Системы совместного восприятия V2V/V2X в сетях транспортных средств
Задачи сотрудничества многороботных систем
Другие сценарии восприятия, требующие сотрудничества гетерогенных устройств

Библиография

Статья цитирует 65 связанных работ, охватывающих важные исследования в области совместного восприятия, адаптации доменов, оценки взаимной информации и других смежных областей, с достаточно полным обзором литературы.

Общая оценка: Это высококачественная статья по совместному восприятию, предлагающая инновационное решение важной и практической проблемы гетерогенных сценариев. Метод разработан искусно, эксперименты проведены полно, работа имеет значительную теоретическую и практическую ценность.