2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: ループバック相乗効果を通じた知覚と認知の分離による参照画像セグメンテーションの向上

基本情報

論文ID: 2507.01738
タイトル: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
著者: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
機関: Southeast University, Baidu VIS, Stanford University
分類: cs.CV
発表日時: 2025年10月13日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2507.01738v2

要約

参照画像セグメンテーション(RIS)は、自然言語表現に基づいて画像内の対象物をセグメンテーションする課題である。先行研究は主に視覚-言語相互作用の改善と細粒度位置特定に焦点を当ててきたが、既存のRISフレームワークにおける基本的なボトルネックの体系的分析は不十分である。このギャップを埋めるため、本論文ではRISを2つの重要な構成要素に分解する新しいフレームワークDeRISを提案する：知覚(perception)と認知(cognition)。このモジュール化分解により、RIS性能を阻害する主要なボトルネックの体系的分析が促進される。研究の結果、主な制限は知覚の欠陥ではなく、現在のモデルの多模態認知能力の不足にあることが判明した。この問題を緩和するため、ループバック相乗効果(Loopback Synergy)メカニズムを提案し、知覚モジュールと認知モジュール間の相乗効果を強化し、正確なセグメンテーションと堅牢な画像-テキスト理解を同時に実現する。

研究背景と動機

問題定義

参照画像セグメンテーション(RIS)は、自然言語記述に基づいて画像内の対応する対象物を正確にセグメンテーションすることをモデルに要求する。従来のセグメンテーション課題と異なり、RISは言語表現と視覚内容間の対応関係の深い理解が必要であり、より大きな柔軟性を持つ一方、より大きな課題性も持つ。

既存手法の限界

著者は既存のRIS手法を2つのカテゴリに分類する：

知覚中心手法(Perception-centric)：階層的バックボーンネットワークに依存して細粒度空間情報を保持するが、下流データセットの多様性が限定的であるため、多模態融合モジュールの内容認知能力が弱い
認知中心手法(Cognition-centric)：大規模視覚-言語事前学習モデルを活用して多模態理解を強化するが、Transformerアーキテクチャの二次計算複雑度のため、高解像度入力では細粒度空間情報が失われる

研究動機

既存手法は知覚能力と認知能力間のトレードオフ問題を抱えている。本論文は、RIS課題が本質的に2つの重要な次元を含むと考える：知覚(前景対象の正確な位置特定)と認知(テキストと視覚内容の包括的理解)。したがって、これら2つの構成要素を分離し、それらの利点を効果的に統合することを提案する。

核心的貢献

DeRISフレームワークの提案：RIS課題を知覚と認知構成要素に明示的に分解する初めてのフレームワークであり、高精度な知覚位置特定と堅牢な多模態文脈理解を実現するため、両者の利点をシームレスに統合する
RISボトルネックの深い分析：体系的分析を通じて、認知能力ではなく知覚能力がRISの主要なボトルネックであることを発見し、知覚モジュールと認知モジュール間の段階的相互作用を促進するループバック相乗効果メカニズムを提案する
非参照サンプル変換戦略：訓練不安定性を緩和し、モデルの汎化能力を強化し、長尾分布の課題に対処する、シンプルで効果的なデータ拡張戦略を開発する
最先端性能：RefCOCO/+/gおよびgRefCOCOデータセット上で新しい最先端性能を達成する

方法の詳細説明

課題定義

画像Iと自然言語表現Tが与えられた場合、RIS課題は以下の出力を要求する：

セグメンテーションマスク $P_m$ ：対象物のピクセルレベルの位置を示す
参照分類 $P_{ref}$ ：各候補領域が対象であるかどうかを判定する
非参照判定 $P_{nr}$ ：記述された対象が画像内に存在するかどうかを判定する

モデルアーキテクチャ

全体アーキテクチャ

DeRISは3つの主要な構成要素を含む：

知覚ブランチ：階層的エンコーダを使用して高解像度画像(384×384)を処理し、細粒度視覚表現を保持する
認知ブランチ：BEiT3事前学習モデルを使用して低解像度画像(224×224)とテキストを処理し、意味理解に焦点を当てる
ループバック相乗効果メカニズム：知覚ブランチと認知ブランチ間の強い相互作用を確立する

ループバック相乗効果メカニズム

各相互作用ラウンドは認知層と知覚層を含む：

知覚層：

初期クエリ $Q_i$ は変形可能なクロスアテンション経由でマルチスケール特徴と相互作用する
自己注意はインスタンス間関係を確立し、出力 $Q_p$ を生成する
マスク予測： $M_p = Q_p \cdot f_m$ 、ここで $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$