Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- 論文ID: 2507.01738
- タイトル: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- 著者: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- 機関: Southeast University, Baidu VIS, Stanford University
- 分類: cs.CV
- 発表日時: 2025年10月13日 (arXiv v2)
- 論文リンク: https://arxiv.org/abs/2507.01738v2
参照画像セグメンテーション(RIS)は、自然言語表現に基づいて画像内の対象物をセグメンテーションする課題である。先行研究は主に視覚-言語相互作用の改善と細粒度位置特定に焦点を当ててきたが、既存のRISフレームワークにおける基本的なボトルネックの体系的分析は不十分である。このギャップを埋めるため、本論文ではRISを2つの重要な構成要素に分解する新しいフレームワークDeRISを提案する:知覚(perception)と認知(cognition)。このモジュール化分解により、RIS性能を阻害する主要なボトルネックの体系的分析が促進される。研究の結果、主な制限は知覚の欠陥ではなく、現在のモデルの多模態認知能力の不足にあることが判明した。この問題を緩和するため、ループバック相乗効果(Loopback Synergy)メカニズムを提案し、知覚モジュールと認知モジュール間の相乗効果を強化し、正確なセグメンテーションと堅牢な画像-テキスト理解を同時に実現する。
参照画像セグメンテーション(RIS)は、自然言語記述に基づいて画像内の対応する対象物を正確にセグメンテーションすることをモデルに要求する。従来のセグメンテーション課題と異なり、RISは言語表現と視覚内容間の対応関係の深い理解が必要であり、より大きな柔軟性を持つ一方、より大きな課題性も持つ。
著者は既存のRIS手法を2つのカテゴリに分類する:
- 知覚中心手法(Perception-centric):階層的バックボーンネットワークに依存して細粒度空間情報を保持するが、下流データセットの多様性が限定的であるため、多模態融合モジュールの内容認知能力が弱い
- 認知中心手法(Cognition-centric):大規模視覚-言語事前学習モデルを活用して多模態理解を強化するが、Transformerアーキテクチャの二次計算複雑度のため、高解像度入力では細粒度空間情報が失われる
既存手法は知覚能力と認知能力間のトレードオフ問題を抱えている。本論文は、RIS課題が本質的に2つの重要な次元を含むと考える:知覚(前景対象の正確な位置特定)と認知(テキストと視覚内容の包括的理解)。したがって、これら2つの構成要素を分離し、それらの利点を効果的に統合することを提案する。
- DeRISフレームワークの提案:RIS課題を知覚と認知構成要素に明示的に分解する初めてのフレームワークであり、高精度な知覚位置特定と堅牢な多模態文脈理解を実現するため、両者の利点をシームレスに統合する
- RISボトルネックの深い分析:体系的分析を通じて、認知能力ではなく知覚能力がRISの主要なボトルネックであることを発見し、知覚モジュールと認知モジュール間の段階的相互作用を促進するループバック相乗効果メカニズムを提案する
- 非参照サンプル変換戦略:訓練不安定性を緩和し、モデルの汎化能力を強化し、長尾分布の課題に対処する、シンプルで効果的なデータ拡張戦略を開発する
- 最先端性能:RefCOCO/+/gおよびgRefCOCOデータセット上で新しい最先端性能を達成する
画像Iと自然言語表現Tが与えられた場合、RIS課題は以下の出力を要求する:
- セグメンテーションマスク Pm:対象物のピクセルレベルの位置を示す
- 参照分類 Pref:各候補領域が対象であるかどうかを判定する
- 非参照判定 Pnr:記述された対象が画像内に存在するかどうかを判定する
DeRISは3つの主要な構成要素を含む:
- 知覚ブランチ:階層的エンコーダを使用して高解像度画像(384×384)を処理し、細粒度視覚表現を保持する
- 認知ブランチ:BEiT3事前学習モデルを使用して低解像度画像(224×224)とテキストを処理し、意味理解に焦点を当てる
- ループバック相乗効果メカニズム:知覚ブランチと認知ブランチ間の強い相互作用を確立する
各相互作用ラウンドは認知層と知覚層を含む:
知覚層:
- 初期クエリ Qi は変形可能なクロスアテンション経由でマルチスケール特徴と相互作用する
- 自己注意はインスタンス間関係を確立し、出力 Qp を生成する
- マスク予測:Mp=Qp⋅fm、ここで fm=Conv(Concat(fh4,fv))
認知層:
- インスタンス-インスタンス関係:fs=AvgPool(fm×σ(Mp))
- インスタンス-テキスト関係:Qc=Attn(Qp′,ft,ft)
- 信頼度スコア:Sr=MLP(Qc)
クエリ融合:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
gRefCOCOデータセットにおける非参照サンプルがわずか9%という長尾分布の問題に対処するため、3段階フィルタリング戦略を提案する:
- 選択された文に対応する画像が現在の画像と異なる
- 選択された文の長さが閾値 Nw より大きい
- 文の類似度が閾値 Ts より低い
類似度計算:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
総損失関数:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
ここで、セグメンテーション損失(BCE+Dice)、参照分類損失(BCE)、非参照判定損失(BCE)を含む。
- RefCOCO/+/g:標準RISベンチマークデータセット
- gRefCOCO:広義参照表現セグメンテーションデータセット、複数参照および非参照シナリオをサポート
- mIoU/cIoU/oIoU:交差比指標
- gIoU:広義交差比
- N-acc:非参照精度
- Pr@0.9:高精度閾値での精密度
- 知覚ブランチ:Mask2Former事前学習重み、入力解像度384×384
- 認知ブランチ:BEiT3事前学習重み、入力解像度224×224
- ループバックラウンド数:3ラウンド
- 変換確率:Rc=15%
- 訓練戦略:AdamWオプティマイザ、学習率1e-4
RefCOCO検証セットにおいて、DeRIS-LはOneRef-Lと比較して4.46% mIoU向上:
- RefCOCO val: 85.72% vs 81.26%
- RefCOCO+ val: 81.28% vs 76.60%
- RefCOCOg val: 80.01% vs 75.68%
DeRIS-Lはすべての指標で既存手法を大幅に上回る:
- Val集cIoU: 72.00% vs 64.20% (HieA2G)
- N-acc指標の向上が特に顕著: 82.22% vs 62.80%
重要な発見:認知能力はRISの主要なボトルネックである
- 認知モデルをBERT-BからBEiT3-Lにアップグレード:cIoU 12.88%向上
- 知覚モデルをSwin-SからSwin-Bにアップグレード:cIoU 1.20%のみ向上
異なる接続構造の比較:
- P-to-C (ベースライン): gIoU 69.98%
- ループバック相乗効果: gIoU 71.37% (+1.39%)
- 訓練時間はほぼ増加なし
- NSCなし: N-acc 60.19%
- NSCあり: N-acc 79.25% (+19.06%)
- 訓練安定性を大幅に改善
純粋な認知中心手法と比較して、DeRISは高解像度で高い効率を維持:
- 384解像度での推論時間は19%のみ増加
- Pr@0.9指標は14.41%向上
- 知覚中心手法:
- 後融合手法:特徴抽出後に視覚-言語融合を実施
- 早期融合手法:特徴抽出プロセス中に多模態情報を統合
- 認知中心手法:
- 事前学習視覚-言語モデルを活用して認知能力を強化
- 単一ストリーム、デュアルストリーム、融合エンコーダ、MLLM手法を含む
既存研究と比較して、DeRISは初めて知覚と認知の役割を体系的に分離・分析し、新しいアーキテクチャ設計パラダイムを提供する。
- 認知ボトルネックの発見:体系的分析により、認知能力ではなく知覚能力が現在のRISの主要な制限要因であることが証明された
- 効果的なアーキテクチャ設計:ループバック相乗効果メカニズムは知覚と認知の利点を成功裏に統合する
- データ拡張の価値:NSC戦略は非参照サンプルの稀少性の問題を効果的に解決する
- 計算オーバーヘッド:デュアルブランチアーキテクチャは一定の計算コストを増加させる
- ハイパーパラメータ感度:ループバックラウンド数、変換確率などのハイパーパラメータは慎重な調整が必要
- データ依存性:NSC戦略の効果はデータセットの多様性に依存する
- より効率的な知覚-認知相互作用メカニズムの探索
- 適応的な非参照サンプル生成戦略の研究
- より複雑な多模態理解課題への拡張
- 革新的なアーキテクチャ:分離設計は新しい研究視点を提供し、RISの核心的なボトルネックを体系的に分析する
- 十分な実験検証:多くのアブレーション実験により各構成要素の有効性が証明される
- 高い実用価値:複数のベンチマークデータセット上で最先端性能を達成
- 深い分析:定量的および定性的分析の組み合わせにより、価値のある洞察を提供する
- 理論分析の不足:ループバック相乗効果メカニズムの理論的収束性分析が欠けている
- 汎化性検証:主に標準データセット上で検証され、ドメイン間汎化実験が不足している
- 効率最適化の余地:デュアルブランチ設計の計算効率にはまだ最適化の余地がある
- 学術的貢献:RIS分野に新しいアーキテクチャ設計パラダイムを提供する
- 実用価値:手法はシンプルで効果的であり、再現と応用が容易
- 啓発的意義:分離の考え方は他の多模態課題に推広可能
DeRISは特に以下に適している:
- 高精度セグメンテーションが必要なアプリケーションシナリオ
- 複雑な言語記述の理解課題
- 非参照および複数参照の広義シナリオ
- 推論効率に一定の要件がある実際のアプリケーション
論文は75篇の関連文献を引用しており、RIS、視覚-言語理解、インスタンスセグメンテーションなど関連分野の重要な研究をカバーし、本研究に堅実な理論的基礎を提供している。