2025-11-22T10:22:16.199438

CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation

Han, Zhang, Zhang et al.
Collaborative perception has been proven to improve individual perception in autonomous driving through multi-agent interaction. Nevertheless, most methods often assume identical encoders for all agents, which does not hold true when these models are deployed in real-world applications. To realize collaborative perception in actual heterogeneous scenarios, existing methods usually align neighbor features to those of the ego vehicle, which is vulnerable to noise from domain gaps and thus fails to address feature discrepancies effectively. Moreover, they adopt transformer-based modules for domain adaptation, which causes the model inference inefficiency on mobile devices. To tackle these issues, we propose CoDS, a Collaborative perception method that leverages Domain Separation to address feature discrepancies in heterogeneous scenarios. The CoDS employs two feature alignment modules, i.e., Lightweight Spatial-Channel Resizer (LSCR) and Distribution Alignment via Domain Separation (DADS). Besides, it utilizes the Domain Alignment Mutual Information (DAMI) loss to ensure effective feature alignment. Specifically, the LSCR aligns the neighbor feature across spatial and channel dimensions using a lightweight convolutional layer. Subsequently, the DADS mitigates feature distribution discrepancy with encoder-specific and encoder-agnostic domain separation modules. The former removes domain-dependent information and the latter captures task-related information. During training, the DAMI loss maximizes the mutual information between aligned heterogeneous features to enhance the domain separation process. The CoDS employs a fully convolutional architecture, which ensures high inference efficiency. Extensive experiments demonstrate that the CoDS effectively mitigates feature discrepancies in heterogeneous scenarios and achieves a trade-off between detection accuracy and inference efficiency.
academic

CoDS: ドメイン分離を介した異種シナリオにおける協調認識の強化

基本情報

  • 論文ID: 2510.13432
  • タイトル: CoDS: Enhancing Collaborative Perception in Heterogeneous Scenarios via Domain Separation
  • 著者: Yushan Han, Hui Zhang, Honglei Zhang, Chuntao Ding, Yuanzhouhan Cao, Yidong Li
  • 分類: cs.CV (コンピュータビジョン)
  • 発表日: 2025年10月15日 (arXiv プレプリント)
  • 論文リンク: https://arxiv.org/abs/2510.13432

要旨

本論文はCoDS手法を提案し、ドメイン分離技術を通じて異種シナリオにおける協調認識の特徴差異問題を解決する。CoDSは軽量空間-チャネル調整器(LSCR)とドメイン分離ベースの分布対齢モジュール(DADS)を採用し、ドメイン対齢相互情報(DAMI)損失と組み合わせることで、効率的な異種特徴対齢を実現する。本手法は全畳み込みアーキテクチャを採用し、検出精度を保証しながら推論効率を大幅に向上させる。

研究背景と動機

1. 核心問題

既存の協調認識手法は、すべてのエージェントが同じエンコーダを使用することを一般的に仮定しているが、実際の展開では、異なる車両と路側ユニットは異なるハードウェアおよびソフトウェア構成を備えていることが多く、特徴抽出に次元および分布の差異が生じる。

2. 問題の重要性

  • 実際的ニーズ: 現実世界のV2VおよびV2X協調シナリオは必然的に異種である
  • 性能への影響: 特徴差異は融合効果の低下をもたらし、交通安全を危険にさらす可能性がある
  • 展開の課題: 既存手法は異種シナリオにおいて性能が大幅に低下する

3. 既存手法の限界

  • 強制的ドメイン変換: 隣接特徴を自車ドメインに強制的に対齢させ、ドメイン間隙ノイズの影響を受けやすい
  • 計算効率の低さ: Transformerベースのドメイン適応モジュールは推論効率が低い
  • 情報損失: 直接的なドメイン変換はタスク関連情報の損失をもたらす可能性がある

4. 研究動機

認知科学および神経科学の共有表現仮説に基づく: 複数視点における共有情報は協調認識に最も価値があり、エンコーダ固有情報は効果的な融合を阻害する。

核心的貢献

  1. CoDS手法の提案: ドメイン分離ベースの協調認識アダプタの初例であり、ドメイン関連および無関連情報を分離することで異種シナリオの特徴差異問題を解決
  2. LCSRおよびDADSモジュールの設計:
    • LSCR: 軽量空間-チャネル次元対齢
    • DADS: エンコーダ固有およびエンコーダ無関のドメイン分離メカニズム
  3. DAMI損失の導入: 対齢特徴間の相互情報を最大化することでドメイン分離効果を強化
  4. 全畳み込みアーキテクチャ: Transformerベース手法と比較して推論効率を大幅に向上
  5. 広範な実験検証: 3つの大規模データセットで手法の有効性と効率性を検証

手法の詳細

タスク定義

異種協調認識タスクは以下のように定義される: N個のエージェントが与えられたとき、自車は隣接エージェントの特徴を受信して融合する。異種シナリオでは、異なるエージェントが異なるエンコーダF^ego_encおよびF^nei_encを使用し、特徴fiおよびfjが次元および分布において差異を生じる。目標は、特徴差異を緩和するプラグアンドプレイアダプタを設計することである。

モデルアーキテクチャ

1. 全体的フレームワーク

CoDSは2つの対齢モジュールと1つの損失関数で構成される:

  • LCSRモジュール: 隣接特徴の空間およびチャネル次元を調整
  • DADSモジュール: ドメイン分離を通じて特徴分布を対齢
  • DAMI損失: 訓練時に対齢特徴間の相互情報を最大化

2. 軽量空間-チャネル調整器(LSCR)

f^0_{j→i} = Conv(f_{j→i})  # 1×1畳み込みによるチャネル対齢
f̄_{j→i} = BI(f^0_{j→i})   # 双線形補間による空間対齢

3. ドメイン分離ベースの分布対齢(DADS)

DADSは2種類のドメイン分離モジュールを採用する:

  • エンコーダ固有モジュールM^es: ドメイン関連情報を除去
  • エンコーダ無関モジュールM^ea: タスク関連情報をキャプチャ(重み共有)

投影関数は以下のように定義される:

M^ego(·) = (M^es_ego ∘ M^ea_ego)(·)
M^nei(·) = (M^es_nei ∘ M^ea_nei)(·)

4. ドメイン対齢相互情報損失(DAMI)

DAMI損失は対比学習を通じて対齢特徴間の相互情報を最大化する:

I_DAMI = (1/N_nei) ∑^{N_nei}_{j=1} I(f̃_i; f̃_{j→i})

判別器を使用して正サンプルペア(同シナリオの対齢特徴)と負サンプルペア(異なるシナリオの対齢特徴)を区別する。

技術的革新点

  1. ドメイン分離の思想: 強制的なドメイン変換を回避し、ドメイン関連および無関連情報を分離
  2. 二重分離メカニズム: エンコーダ固有モジュールが私有情報を除去し、エンコーダ無関モジュールが共有情報を抽出
  3. 相互情報の最大化: 対齢後の特徴がタスク関連情報を保持することを保証
  4. 全畳み込み設計: Transformerと比較してより高い推論効率

実験設定

データセット

  1. V2V4Real: 初の大規模実V2Vデータセット、20Kフレームの点群データを含む
  2. OPV2V: シミュレーションV2V認識データセット、11,464フレームの3D点群を含む
  3. V2XSet: シミュレーションV2Xデータセット、車両および路側ユニットデータを含む

評価指標

  • 精度指標: AP@0.50およびAP@0.70
  • 効率指標: FPS(毎秒フレーム数)

比較手法

  • HETE: シンプルベースライン手法
  • MPDA: クロスドメインTransformer手法
  • PnPDA: セマンティック変換器手法
  • STAMP: プロトコルネットワーク手法
  • PolyInter: ポリモーフィック解釈器手法

実装の詳細

  • オプティマイザ: Adam、学習率0.002
  • 損失重み: β_DAMI=1, α_cls=1, α_reg=2, α_dir=0.2
  • エンコーダ: PointPillars、SECOND、VoxelNetの異なる構成

実験結果

主要結果

1. 検出精度の比較

V2V4Realデータセットにおいて、CoDSはHETEベースラインと比較して:

  • DiscoNetを使用する場合、AP@0.50は平均20.32向上、AP@0.70は平均11.39向上
  • 多くの設定で他のアダプタ手法を上回り、最も安定した性能を示す

OPV2VおよびV2XSetでは、CoDSは大多数の異種シナリオで最良またはほぼ最良の結果を達成した。

2. 推論効率の比較

CoDSは推論速度において他の手法を大幅に上回る:

  • MPDAと比較してFPSが100%以上向上
  • PnPDA、STAMP、PolyInterと比較してFPSが20%以上向上
  • パラメータ数は3.67Mのみで、PolyInterの46.22Mより大幅に少ない

3. ロバスト性実験

位置決め誤差が存在する場合でも、CoDSは常に他の手法を上回り、単一車両認識より高い性能を維持する。

アブレーション実験

1. コンポーネント貢献分析

  • LSCR単独使用でAP@0.70を約18%向上
  • LSCR+DAMI組み合わせはLSCR+DADSより効果的
  • 完全なCoDS(LSCR+DADS+DAMI)が最良性能を達成

2. ドメイン分離モジュール分析

  • エンコーダ無関またはエンコーダ固有モジュール単独の使用は効果が低い
  • 2種類のモジュールの組み合わせ使用で最良効果を達成
  • 追加のドメイン分離モジュールは過学習をもたらす

ケース分析

特徴可視化は、CoDS処理後の異種特徴がセマンティック上でより類似し、ターゲット領域を強調することを示し、ドメイン分離の有効性を証明する。

検出結果の可視化は、CoDSが他の手法と比較して漏検を大幅に削減し、検出性能が最良であることを示す。

関連研究

1. 協調認識

既存手法は主に通信メカニズム、融合戦略、ノイズ問題に焦点を当てているが、大多数は同種シナリオを仮定している。

2. 異種協調認識

既存のソリューションには以下が含まれる:

  • エンコーダ再訓練: 元のアーキテクチャへのアクセスが必要
  • 異種融合: 専用融合モジュールの設計
  • プラグアンドプレイアダプタ: 柔軟性が最良、本論文の重点

3. ドメイン適応

特徴レベルのドメイン適応は差異最小化、敵対学習などの技術を通じてドメイン不変特徴を識別する。

4. 相互情報推定

ニューラルネットワークを通じて相互情報を推定し、表現学習およびドメイン対齢に使用される。

結論と考察

主要な結論

  1. CoDSはドメイン分離を通じて異種協調認識における特徴差異問題を効果的に解決
  2. 全畳み込みアーキテクチャは精度を保証しながら推論効率を大幅に向上
  3. DAMI損失は相互情報の最大化を通じてドメイン分離効果を強化
  4. 複数のデータセットおよび設定で手法の有効性とロバスト性を検証

限界

  1. 現在は2種類の異なるエンコーダの簡略化設定のみを考慮
  2. 完全な特徴マップの伝送を仮定し、実際のアプリケーションでは特徴圧縮が必要
  3. 極めて大きなドメイン間隙に対しては依然として課題が存在する可能性

将来の方向性

  1. より多くの種類のエンコーダのオープン異種シナリオへの拡張
  2. 特徴圧縮技術との組み合わせによる通信コストの削減
  3. より複雑なドメイン分離メカニズムの研究

深層評価

利点

  1. 革新性が高い: ドメイン分離の思想を協調認識に初めて導入し、強制的なドメイン変換の問題を回避
  2. 設計が合理的: 二重ドメイン分離メカニズムの設計は巧妙で、理論的基礎が堅実
  3. 実験が充分: 複数のデータセット、複数の設定で包括的な評価を実施
  4. 実用価値が高い: 全畳み込み設計は精度と効率の両立を実現し、実際の展開に適している
  5. 分析が深い: 豊富なアブレーション実験と可視化分析を提供

不足

  1. シナリオの制限: 2種類のエンコーダの簡略化異種シナリオのみを考慮
  2. 理論分析の不足: ドメイン分離メカニズムの理論的収束性分析が欠ける
  3. 比較が不十分: 再訓練型手法との充分な比較がない
  4. 汎化性: より複雑な実異種シナリオにおける性能は検証が必要

影響力

  1. 学術的貢献: 異種協調認識に新しい解決思想を提供
  2. 実用価値: 手法が簡潔で効率的、工学実装が容易
  3. 再現性: 実験設定が詳細で、コードの再現が容易

適用シナリオ

  1. 車両ネットワークV2V/V2X協調認識システム
  2. 複数ロボット協調タスク
  3. 異種デバイス協調が必要な他の認識シナリオ

参考文献

論文は協調認識、ドメイン適応、相互情報推定など関連分野の重要な研究を含む65篇の参考文献を引用しており、文献調査は比較的包括的である。


総合評価: これは異種シナリオという重要で実用的な問題に対して革新的なソリューションを提案した高品質の協調認識論文である。手法設計が巧妙で、実験検証が充分であり、理論的意義と実用価値が強い。