2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.

Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.

academic

DeRIS: 루프백 시너지를 통한 지각과 인지 분리를 통한 향상된 참조 이미지 분할

기본 정보

논문 ID: 2507.01738
제목: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
저자: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
기관: Southeast University, Baidu VIS, Stanford University
분류: cs.CV
발표 시간: 2025년 10월 13일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2507.01738v2

초록

참조 이미지 분할(RIS)은 자연언어 표현을 기반으로 이미지의 목표 객체를 분할하는 것을 목표로 하는 도전적인 작업입니다. 선행 연구들이 주로 시각-언어 상호작용 개선과 세밀한 위치 결정에 집중했지만, 기존 RIS 프레임워크의 근본적인 병목 현상에 대한 체계적 분석은 여전히 부족합니다. 이러한 공백을 메우기 위해 본 논문은 RIS를 두 가지 핵심 구성 요소인 지각(perception)과 인지(cognition)로 분리하는 새로운 프레임워크 DeRIS를 제안합니다. 이러한 모듈식 분리는 RIS 성능을 저해하는 주요 병목 현상에 대한 체계적 분석을 촉진합니다. 연구 결과, 주요 제약은 지각 결함이 아니라 현재 모델의 불충분한 다중모달 인지 능력에 있음을 발견했습니다. 이 문제를 완화하기 위해 루프백 시너지(Loopback Synergy) 메커니즘을 제안하여 지각 및 인지 모듈 간의 협력을 강화함으로써 정확한 분할을 달성하고 동시에 견고한 이미지-텍스트 이해를 개선합니다.

연구 배경 및 동기

문제 정의

참조 이미지 분할(RIS)은 모델이 자연언어 설명을 기반으로 이미지에서 해당하는 목표 객체를 정확하게 분할할 것을 요구합니다. 기존 분할 작업과 달리, RIS는 언어 표현과 시각 콘텐츠 간의 대응 관계에 대한 깊은 이해가 필요하며, 더 큰 유연성을 제공하지만 더욱 도전적입니다.

기존 방법의 한계

저자들은 기존 RIS 방법을 두 가지 범주로 분류합니다:

지각 중심 방법(Perception-centric): 세밀한 공간 정보 보존을 위해 계층적 백본 네트워크에 의존하지만, 하위 데이터셋의 제한된 다양성으로 인해 다중모달 융합 모듈의 콘텐츠 인지 능력이 약함
인지 중심 방법(Cognition-centric): 대규모 시각-언어 사전학습 모델을 활용하여 다중모달 이해를 강화하지만, Transformer 아키텍처의 이차 계산 복잡도로 인해 고해상도 입력에서 세밀한 공간 정보 손실

연구 동기

기존 방법들은 지각 능력과 인지 능력 간의 트레이드오프 문제가 존재합니다. 본 논문은 RIS 작업이 본질적으로 두 가지 핵심 차원을 포함한다고 주장합니다: 지각(전경 객체의 정확한 위치 결정)과 인지(텍스트 및 시각 콘텐츠의 포괄적 이해). 따라서 이 두 구성 요소를 분리하고 효과적으로 통합하는 것을 제안합니다.

핵심 기여

DeRIS 프레임워크 제안: RIS 작업을 명시적으로 지각 및 인지 구성 요소로 분리하는 첫 번째 프레임워크로, 두 가지의 장점을 무결하게 통합하여 높은 정밀도의 지각 위치 결정과 견고한 다중모달 문맥 이해를 달성
RIS 병목 현상의 심층 분석: 체계적 분석을 통해 인지 능력이 아닌 지각 능력이 RIS의 주요 병목임을 발견하고, 지각 및 인지 모듈 간의 점진적 상호작용을 촉진하는 루프백 시너지 메커니즘 제안
비참조 샘플 변환 전략: 훈련 불안정성을 완화하고 모델 일반화 능력을 강화하는 간단하고 효과적인 데이터 증강 전략 개발로 롱테일 분포 문제 해결
최첨단 성능: RefCOCO/+/g 및 gRefCOCO 데이터셋에서 새로운 최첨단 성능 달성

방법 상세 설명

작업 정의

이미지 I와 자연언어 표현 T가 주어졌을 때, RIS 작업은 다음을 출력할 것을 요구합니다:

분할 마스크 $P_m$ : 목표 객체의 픽셀 수준 위치 표시
참조 분류 $P_{ref}$ : 각 후보 영역이 목표인지 여부 판단
비참조 판단 $P_{nr}$ : 설명된 객체가 이미지에 존재하는지 여부 판단

모델 아키텍처

전체 아키텍처

DeRIS는 세 가지 주요 구성 요소를 포함합니다:

지각 분기: 계층적 인코더를 사용하여 고해상도 이미지(384×384)를 처리하여 세밀한 시각 표현 보존
인지 분기: BEiT3 사전학습 모델을 사용하여 저해상도 이미지(224×224)와 텍스트를 처리하여 의미론적 이해에 집중
루프백 시너지 메커니즘: 지각 및 인지 분기 간의 강한 상호작용 구축

루프백 시너지 메커니즘

각 상호작용 라운드는 인지 계층과 지각 계층을 포함합니다:

지각 계층:

초기 쿼리 $Q_i$ 는 변형 가능한 교차 주의를 통해 다중 스케일 특성과 상호작용
자기 주의는 인스턴스 간 관계를 구축하여 출력 $Q_p$ 생성
마스크 예측: $M_p = Q_p \cdot f_m$ , 여기서 $f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))$