2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic

CoDS: 도메인 분리를 통한 이질적 시나리오에서의 협력 인지 향상

기본 정보

  • 논문 ID: 2510.13432
  • 제목: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
  • 저자: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
  • 분류: cs.CV (컴퓨터 비전)
  • 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.13432

초록

본 논문은 도메인 분리 기술을 통해 이질적 시나리오에서의 협력 인지 중 특징 차이 문제를 해결하는 CoDS 방법을 제안한다. CoDS는 경량 공간-채널 조정기(LSCR)와 도메인 분리 기반 분포 정렬 모듈(DADS)을 채택하고, 도메인 정렬 상호정보(DAMI) 손실함수를 결합하여 효율적인 이질적 특징 정렬을 구현한다. 본 방법은 완전 합성곱 아키텍처를 채택하여 검출 정확도를 보장하면서 추론 효율을 크게 향상시킨다.

연구 배경 및 동기

1. 핵심 문제

기존 협력 인지 방법은 모든 에이전트가 동일한 인코더를 사용한다고 가정하지만, 실제 배포에서는 서로 다른 차량과 로드사이드 유닛이 종종 다른 하드웨어 및 소프트웨어 구성을 갖추고 있어 특징 추출에 차원 및 분포 차이가 발생한다.

2. 문제의 중요성

  • 실제 필요성: 실제 세계의 V2V 및 V2X 협력 시나리오는 필연적으로 이질적이다
  • 성능 영향: 특징 차이로 인해 융합 효과가 저하되며, 교통 안전을 위협할 수 있다
  • 배포 도전: 기존 방법은 이질적 시나리오에서 성능이 심각하게 저하된다

3. 기존 방법의 한계

  • 강제 도메인 변환: 이웃 특징을 자차 도메인으로 강제 정렬하면 도메인 간격 노이즈에 취약하다
  • 계산 비효율: Transformer 기반 도메인 적응 모듈의 추론 효율이 낮다
  • 정보 손실: 직접 도메인 변환으로 인해 작업 관련 정보가 손실될 수 있다

4. 연구 동기

인지과학 및 신경과학의 공유 표현 가정에 기반: 다중 관점의 공유 정보가 협력 인지에 가장 가치 있으며, 인코더 특정 정보는 효과적인 융합을 방해한다.

핵심 기여

  1. CoDS 방법 제안: 도메인 분리 기반 협력 인지 적응기의 첫 사례로, 도메인 관련 및 도메인 무관 정보를 분리하여 이질적 시나리오의 특징 차이 문제를 해결한다
  2. LSCR 및 DADS 모듈 설계:
    • LSCR: 경량 공간-채널 차원 정렬
    • DADS: 인코더 특정 및 인코더 무관 도메인 분리 메커니즘
  3. DAMI 손실함수 도입: 정렬된 특징 간의 상호정보를 최대화하여 도메인 분리 효과를 강화한다
  4. 완전 합성곱 아키텍처: Transformer 기반 방법 대비 추론 효율을 크게 향상시킨다
  5. 광범위한 실험 검증: 세 개의 대규모 데이터셋에서 방법의 유효성과 효율성을 검증한다

방법 상세 설명

작업 정의

이질적 협력 인지 작업은 다음과 같이 정의된다: N개의 에이전트가 주어질 때, 자차는 이웃 에이전트의 특징을 수신하고 융합한다. 이질적 시나리오에서는 서로 다른 에이전트가 다른 인코더 F^ego_enc 및 F^nei_enc를 사용하므로, 특징 fi와 fj는 차원 및 분포에서 차이가 난다. 목표는 특징 차이를 완화하는 플러그 앤 플레이 적응기를 설계하는 것이다.

모델 아키텍처

1. 전체 프레임워크

CoDS는 두 개의 정렬 모듈과 하나의 손실함수로 구성된다:

  • LSCR 모듈: 이웃 특징의 공간 및 채널 차원 조정
  • DADS 모듈: 도메인 분리를 통한 특징 분포 정렬
  • DAMI 손실: 훈련 시 정렬된 특징 간의 상호정보 최대화

2. 경량 공간-채널 조정기(LSCR)

f^0_{j→i} = Conv(f_{j→i})  # 1×1 합성곱으로 채널 정렬
f̄_{j→i} = BI(f^0_{j→i})   # 쌍선형 보간으로 공간 정렬

3. 도메인 분리 기반 분포 정렬(DADS)

DADS는 두 가지 유형의 도메인 분리 모듈을 채택한다:

  • 인코더 특정 모듈 M^es: 도메인 관련 정보 제거
  • 인코더 무관 모듈 M^ea: 작업 관련 정보 캡처(가중치 공유)

투영 함수는 다음과 같이 정의된다:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. 도메인 정렬 상호정보 손실(DAMI)

DAMI 손실은 대조 학습을 통해 정렬된 특징 간의 상호정보를 최대화한다:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

판별기를 사용하여 양성 샘플 쌍(동일 시나리오의 정렬된 특징)과 음성 샘플 쌍(다른 시나리오의 정렬된 특징)을 구분한다.

기술 혁신점

  1. 도메인 분리 개념: 강제 도메인 변환을 피하고 도메인 관련 및 도메인 무관 정보를 분리한다
  2. 이중 분리 메커니즘: 인코더 특정 모듈은 개인 정보를 제거하고, 인코더 무관 모듈은 공유 정보를 추출한다
  3. 상호정보 최대화: 정렬 후 특징이 작업 관련 정보를 유지하도록 보장한다
  4. 완전 합성곱 설계: Transformer 대비 더 높은 추론 효율을 제공한다

실험 설정

데이터셋

  1. V2V4Real: 첫 번째 대규모 실제 V2V 데이터셋, 20K 프레임 포인트 클라우드 데이터 포함
  2. OPV2V: 시뮬레이션 V2V 인지 데이터셋, 11,464 프레임 3D 포인트 클라우드 포함
  3. V2XSet: 시뮬레이션 V2X 데이터셋, 차량 및 로드사이드 유닛 데이터 포함

평가 지표

  • 정확도 지표: AP@0.50 및 AP@0.70
  • 효율성 지표: FPS(초당 프레임 수)

비교 방법

  • HETE: 단순 기준선 방법
  • MPDA: 크로스 도메인 Transformer 방법
  • PnPDA: 의미론적 변환기 방법
  • STAMP: 프로토콜 네트워크 방법
  • PolyInter: 다형 해석기 방법

구현 세부사항

  • 최적화기: Adam, 학습률 0.002
  • 손실 가중치: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
  • 인코더: PointPillars, SECOND, VoxelNet의 다양한 구성

실험 결과

주요 결과

1. 검출 정확도 비교

V2V4Real 데이터셋에서 CoDS는 HETE 기준선 대비:

  • DiscoNet 사용 시, AP@0.50 평균 20.32 향상, AP@0.70 평균 11.39 향상
  • 대부분의 설정에서 다른 적응기 방법을 능가하며 가장 안정적인 성능 발휘

OPV2V 및 V2XSet에서 CoDS는 대부분의 이질적 시나리오에서 최고 또는 거의 최고의 결과를 달성했다.

2. 추론 효율 비교

CoDS는 추론 속도에서 다른 방법을 크게 능가한다:

  • MPDA 대비 100% 이상 FPS 향상
  • PnPDA, STAMP, PolyInter 대비 20% 이상 FPS 향상
  • 매개변수량은 3.67M으로 PolyInter의 46.22M보다 훨씬 적다

3. 견고성 실험

위치 오류가 존재하는 경우에도 CoDS는 항상 다른 방법을 능가하며, 단일 차량 인지보다 높은 성능을 유지한다.

소거 실험

1. 구성 요소 기여도 분석

  • LSCR 단독 사용 시 AP@0.70 약 18% 향상
  • LSCR+DAMI 조합이 LSCR+DADS보다 효과적
  • 완전한 CoDS(LSCR+DADS+DAMI)가 최고 성능 달성

2. 도메인 분리 모듈 분석

  • 인코더 무관 또는 인코더 특정 모듈 단독 사용 시 효과 미흡
  • 두 가지 모듈을 함께 사용할 때만 최고 효과 달성
  • 추가 도메인 분리 모듈은 과적합을 초래한다

사례 분석

특징 시각화는 CoDS 처리 후 이질적 특징이 의미론적으로 더욱 유사하며, 모두 목표 영역을 강조함을 보여주어 도메인 분리의 유효성을 증명한다.

검출 결과 시각화는 CoDS가 다른 방법 대비 누락된 검출을 크게 줄이며 최고의 검출 성능을 보임을 나타낸다.

관련 연구

1. 협력 인지

기존 방법은 주로 통신 메커니즘, 융합 전략 및 노이즈 문제에 초점을 맞추지만, 대부분 동질적 시나리오를 가정한다.

2. 이질적 협력 인지

기존 해결책은 다음을 포함한다:

  • 인코더 재훈련: 원본 아키텍처 접근 필요
  • 이질적 융합: 전문 융합 모듈 설계
  • 플러그 앤 플레이 적응기: 유연성이 가장 우수하며, 본 논문의 초점

3. 도메인 적응

특징 수준 도메인 적응은 차이 최소화, 대적 학습 등 기술을 통해 도메인 불변 특징을 식별한다.

4. 상호정보 추정

신경망을 통한 상호정보 추정은 표현 학습 및 도메인 정렬에 사용된다.

결론 및 논의

주요 결론

  1. CoDS는 도메인 분리를 통해 이질적 협력 인지의 특징 차이 문제를 효과적으로 해결한다
  2. 완전 합성곱 아키텍처는 정확도를 보장하면서 추론 효율을 크게 향상시킨다
  3. DAMI 손실은 상호정보 최대화를 통해 도메인 분리 효과를 강화한다
  4. 여러 데이터셋 및 설정에서 방법의 유효성과 견고성을 검증했다

한계

  1. 현재는 두 가지 다른 인코더의 단순화된 설정만 고려한다
  2. 완전한 특징 맵 전송을 가정하지만, 실제 응용에서는 특징 압축이 필요하다
  3. 극도로 큰 도메인 간격의 경우 여전히 도전 과제가 있을 수 있다

향후 방향

  1. 더 많은 유형의 인코더를 포함한 개방형 이질적 시나리오로 확장
  2. 특징 압축 기술과 결합하여 통신 비용 감소
  3. 더 복잡한 도메인 분리 메커니즘 연구

심층 평가

장점

  1. 높은 혁신성: 도메인 분리 개념을 협력 인지에 처음 도입하여 강제 도메인 변환 문제를 회피한다
  2. 합리적 설계: 이중 도메인 분리 메커니즘 설계가 정교하고 이론적 기초가 견고하다
  3. 충분한 실험: 여러 데이터셋과 다양한 설정에서 포괄적 평가를 수행했다
  4. 높은 실용 가치: 완전 합성곱 설계는 정확도와 효율성을 모두 고려하여 실제 배포에 더 적합하다
  5. 심층 분석: 풍부한 소거 실험 및 시각화 분석을 제공한다

부족한 점

  1. 시나리오 제한: 두 가지 인코더의 단순화된 이질적 시나리오만 고려한다
  2. 이론 분석: 도메인 분리 메커니즘의 이론적 수렴성 분석이 부족하다
  3. 비교 부족: 재훈련 유형 방법과의 충분한 비교가 없다
  4. 일반화: 더 복잡한 실제 이질적 시나리오에서의 성능은 추가 검증이 필요하다

영향력

  1. 학술 기여: 이질적 협력 인지를 위한 새로운 해결 사고방식 제공
  2. 실용 가치: 방법이 간단하고 효율적하여 공학 구현이 용이하다
  3. 재현성: 실험 설정이 상세하고 코드 재현이 용이할 것으로 예상된다

적용 시나리오

  1. 차량 통신망 V2V/V2X 협력 인지 시스템
  2. 다중 로봇 협력 작업
  3. 이질적 장치 협력이 필요한 기타 인지 시나리오

참고문헌

논문은 협력 인지, 도메인 적응, 상호정보 추정 등 관련 분야의 중요한 작업을 포함한 65편의 관련 문헌을 인용하고 있으며, 문헌 조사가 상당히 포괄적이다.


종합 평가: 이는 이질적 시나리오라는 중요하고 실용적인 문제에 대해 혁신적인 해결책을 제시하는 고품질의 협력 인지 논문이다. 방법 설계가 정교하고 실험 검증이 충분하며, 상당한 이론적 의의와 실용적 가치를 갖는다.