CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic
CoDS: Повышение совместного восприятия в гетерогенных сценариях посредством разделения доменов
В данной статье предложен метод CoDS, который решает проблему различий признаков при совместном восприятии в гетерогенных сценариях посредством техники разделения доменов. CoDS использует облегченный пространственно-канальный регулятор (LSCR) и модуль выравнивания распределения на основе разделения доменов (DADS), в сочетании с потерей взаимной информации выравнивания доменов (DAMI), для достижения эффективного выравнивания гетерогенных признаков. Метод использует полносверточную архитектуру, обеспечивая высокую точность обнаружения при значительном повышении эффективности вывода.
Существующие методы совместного восприятия обычно предполагают, что все агенты используют одинаковые кодировщики, однако при практическом развертывании различные транспортные средства и придорожные блоки часто оснащены различным аппаратным и программным обеспечением, что приводит к различиям в размерности и распределении извлекаемых признаков.
На основе гипотезы общего представления из когнитивной науки и нейронауки: общая информация из нескольких точек зрения наиболее ценна для совместного восприятия, тогда как информация, специфичная для кодировщика, препятствует эффективному слиянию.
Предложен метод CoDS: Первый адаптер совместного восприятия на основе разделения доменов, решающий проблему различий признаков в гетерогенных сценариях путем разделения информации, связанной с доменом, и независимой от домена
Разработаны модули LSCR и DADS:
LSCR: облегченное выравнивание пространственных и канальных размерностей
DADS: механизм разделения доменов, специфичный и независимый от кодировщика
Введена потеря DAMI: Повышение эффективности разделения доменов путем максимизации взаимной информации между выровненными признаками
Полносверточная архитектура: Значительное повышение эффективности вывода по сравнению с методами на основе Transformer
Обширная экспериментальная проверка: Проверка эффективности и производительности метода на трех крупномасштабных наборах данных
Задача гетерогенного совместного восприятия определяется следующим образом: при наличии N агентов собственное транспортное средство получает и объединяет признаки соседних агентов. В гетерогенном сценарии различные агенты используют различные кодировщики F^ego_enc и F^nei_enc, что приводит к различиям в размерности и распределении признаков fi и fj. Цель состоит в разработке адаптера типа «подключи и работай» для смягчения различий в признаках.
f^0_{j→i} = Conv(f_{j→i}) # Выравнивание каналов с помощью свертки 1×1
f̄_{j→i} = BI(f^0_{j→i}) # Пространственное выравнивание с помощью билинейной интерполяции
Дискриминатор используется для различения положительных пар образцов (выровненные признаки из одного сценария) и отрицательных пар образцов (выровненные признаки из различных сценариев).
Идея разделения доменов: Избежание принудительного преобразования доменов путем разделения информации, связанной с доменом, и независимой от домена
Двойной механизм разделения: Модуль, специфичный для кодировщика, удаляет приватную информацию, модуль, независимый от кодировщика, извлекает общую информацию
Максимизация взаимной информации: Обеспечение сохранения информации, связанной с задачей, в выровненных признаках
Полносверточный дизайн: Более высокая эффективность вывода по сравнению с Transformer
При наличии ошибок позиционирования CoDS постоянно превосходит другие методы и сохраняет производительность выше, чем восприятие одного транспортного средства.
Визуализация признаков показывает, что гетерогенные признаки, обработанные CoDS, семантически более похожи и выделяют целевые области, что доказывает эффективность разделения доменов.
Визуализация результатов обнаружения показывает, что CoDS значительно снижает количество пропущенных обнаружений по сравнению с другими методами, обеспечивая лучшую производительность обнаружения.
Существующие методы в основном сосредоточены на механизмах коммуникации, стратегиях слияния и проблемах шума, но большинство предполагают гомогенные сценарии.
Адаптация признаков на уровне доменов идентифицирует инвариантные признаки доменов посредством минимизации различий, противоборствующего обучения и других техник.
Статья цитирует 65 связанных работ, охватывающих важные исследования в области совместного восприятия, адаптации доменов, оценки взаимной информации и других смежных областей, с достаточно полным обзором литературы.
Общая оценка: Это высококачественная статья по совместному восприятию, предлагающая инновационное решение важной и практической проблемы гетерогенных сценариев. Метод разработан искусно, эксперименты проведены полно, работа имеет значительную теоретическую и практическую ценность.