2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.

Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.

academic

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

基本信息

论文ID: 2510.13432
标题: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
作者: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
分类: cs.CV (Computer Vision)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13432

摘要

该论文提出了CoDS方法，通过域分离技术解决异构场景下协作感知中的特征差异问题。CoDS采用轻量级空间-通道调整器(LSCR)和基于域分离的分布对齐模块(DADS)，结合域对齐互信息(DAMI)损失，实现高效的异构特征对齐。该方法采用全卷积架构，在保证检测精度的同时显著提升了推理效率。

研究背景与动机

1. 核心问题

现有协作感知方法普遍假设所有智能体使用相同的编码器，但在实际部署中，不同车辆和路边单元往往配备不同的硬件和软件配置，导致特征提取存在维度和分布差异。

2. 问题重要性

实际需求：真实世界中的V2V和V2X协作场景必然是异构的
性能影响：特征差异导致融合效果差，甚至可能危及交通安全
部署挑战：现有方法在异构场景下性能严重下降

3. 现有方法局限性

强制域转换：将邻居特征强行对齐到自车域，容易受域间隙噪声影响
计算低效：基于Transformer的域适应模块推理效率低
信息丢失：直接域转换可能导致任务相关信息丢失

4. 研究动机

基于认知科学和神经科学的共享表示假设：多视角中的共享信息对协作感知最有价值，而编码器特定信息会阻碍有效融合。

核心贡献

提出CoDS方法：首个基于域分离的协作感知适配器，通过分离域相关和域无关信息解决异构场景特征差异问题
设计LSCR和DADS模块：
- LSCR：轻量级空间-通道维度对齐
- DADS：编码器特定和编码器无关的域分离机制
引入DAMI损失：通过最大化对齐特征间的互信息增强域分离效果
全卷积架构：相比基于Transformer的方法显著提升推理效率
广泛实验验证：在三个大规模数据集上验证了方法的有效性和高效性

LSCR模块：调整邻居特征的空间和通道维度
DADS模块：通过域分离对齐特征分布
DAMI损失：训练时最大化对齐特征间的互信息

2. 轻量级空间-通道调整器(LSCR)

f^0_{j→i} = Conv(f_{j→i})  # 1×1卷积进行通道对齐
f̄_{j→i} = BI(f^0_{j→i})   # 双线性插值进行空间对齐

3. 基于域分离的分布对齐(DADS)

DADS采用两类域分离模块：

编码器特定模块M^es：移除域相关信息
编码器无关模块M^ea：捕获任务相关信息（权重共享）

投影函数定义为：

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. 域对齐互信息损失(DAMI)

DAMI损失通过对比学习最大化对齐特征间的互信息：

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

使用判别器区分正样本对（同场景的对齐特征）和负样本对（不同场景的对齐特征）。

技术创新点

域分离思想：避免强制域转换，而是分离域相关和域无关信息
双重分离机制：编码器特定模块移除私有信息，编码器无关模块提取共享信息
互信息最大化：确保对齐后的特征保留任务相关信息
全卷积设计：相比Transformer具有更高的推理效率

实验设置

数据集

V2V4Real：首个大规模真实V2V数据集，包含20K帧点云数据
OPV2V：仿真V2V感知数据集，包含11,464帧3D点云
V2XSet：仿真V2X数据集，包含车辆和路边单元数据

评价指标

精度指标：AP@0.50和AP@0.70
效率指标：FPS（每秒帧数）

对比方法

HETE：简单基线方法
MPDA：跨域Transformer方法
PnPDA：语义转换器方法
STAMP：协议网络方法
PolyInter：多态解释器方法

实现细节

优化器：Adam，学习率0.002
损失权重：β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
编码器：PointPillars、SECOND、VoxelNet的不同配置

使用DiscoNet时，AP@0.50平均提升20.32，AP@0.70平均提升11.39
在多数设置下优于其他适配器方法，表现最稳定

在OPV2V和V2XSet上，CoDS在大多数异构场景下都取得了最佳或接近最佳的结果。

2. 推理效率对比

CoDS在推理速度上显著优于其他方法：

相比MPDA提升超过100% FPS
相比PnPDA、STAMP、PolyInter提升超过20% FPS
参数量仅3.67M，显著少于PolyInter的46.22M

LSCR单独使用可提升AP@0.70约18%
LSCR+DAMI组合效果优于LSCR+DADS
完整CoDS（LSCR+DADS+DAMI）取得最佳性能

2. 域分离模块分析

单独使用编码器无关或编码器特定模块效果不佳
两类模块组合使用才能取得最佳效果
额外的域分离模块会导致过拟合

CoDS通过域分离有效解决了异构协作感知中的特征差异问题
全卷积架构在保证精度的同时显著提升了推理效率
DAMI损失通过互信息最大化增强了域分离效果
在多个数据集和设置下验证了方法的有效性和鲁棒性

局限性

当前只考虑两种不同编码器的简化设置
假设传输完整特征图，实际应用中需要特征压缩
对于极大的域间隙可能仍存在挑战

未来方向

扩展到更多类型编码器的开放异构场景
结合特征压缩技术降低通信成本
研究更复杂的域分离机制

深度评价

优点

创新性强：首次将域分离思想引入协作感知，避免了强制域转换的问题
设计合理：双重域分离机制设计巧妙，理论基础扎实
实验充分：在多个数据集、多种设置下进行了全面评估
实用价值高：全卷积设计兼顾了精度和效率，更适合实际部署
分析深入：提供了丰富的消融实验和可视化分析

不足

场景限制：仅考虑两种编码器的简化异构场景
理论分析：缺乏对域分离机制的理论收敛性分析
对比不够：未与重训练类方法进行充分对比
泛化性：在更复杂的真实异构场景下的表现有待验证

影响力

学术贡献：为异构协作感知提供了新的解决思路
实用价值：方法简洁高效，易于工程实现
可复现性：实验设置详细，代码应该容易复现

适用场景

车联网V2V/V2X协作感知系统
多机器人协作任务
其他需要异构设备协作的感知场景

参考文献

论文引用了65篇相关文献，涵盖了协作感知、域适应、互信息估计等相关领域的重要工作，文献调研较为全面。

总体评价：这是一篇高质量的协作感知论文，在异构场景这一重要且实用的问题上提出了创新的解决方案。方法设计巧妙，实验验证充分，具有较强的理论意义和实用价值。