Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
- 논문 ID: 2507.01738
- 제목: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- 저자: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- 기관: Southeast University, Baidu VIS, Stanford University
- 분류: cs.CV
- 발표 시간: 2025년 10월 13일 (arXiv v2)
- 논문 링크: https://arxiv.org/abs/2507.01738v2
참조 이미지 분할(RIS)은 자연언어 표현을 기반으로 이미지의 목표 객체를 분할하는 것을 목표로 하는 도전적인 작업입니다. 선행 연구들이 주로 시각-언어 상호작용 개선과 세밀한 위치 결정에 집중했지만, 기존 RIS 프레임워크의 근본적인 병목 현상에 대한 체계적 분석은 여전히 부족합니다. 이러한 공백을 메우기 위해 본 논문은 RIS를 두 가지 핵심 구성 요소인 지각(perception)과 인지(cognition)로 분리하는 새로운 프레임워크 DeRIS를 제안합니다. 이러한 모듈식 분리는 RIS 성능을 저해하는 주요 병목 현상에 대한 체계적 분석을 촉진합니다. 연구 결과, 주요 제약은 지각 결함이 아니라 현재 모델의 불충분한 다중모달 인지 능력에 있음을 발견했습니다. 이 문제를 완화하기 위해 루프백 시너지(Loopback Synergy) 메커니즘을 제안하여 지각 및 인지 모듈 간의 협력을 강화함으로써 정확한 분할을 달성하고 동시에 견고한 이미지-텍스트 이해를 개선합니다.
참조 이미지 분할(RIS)은 모델이 자연언어 설명을 기반으로 이미지에서 해당하는 목표 객체를 정확하게 분할할 것을 요구합니다. 기존 분할 작업과 달리, RIS는 언어 표현과 시각 콘텐츠 간의 대응 관계에 대한 깊은 이해가 필요하며, 더 큰 유연성을 제공하지만 더욱 도전적입니다.
저자들은 기존 RIS 방법을 두 가지 범주로 분류합니다:
- 지각 중심 방법(Perception-centric): 세밀한 공간 정보 보존을 위해 계층적 백본 네트워크에 의존하지만, 하위 데이터셋의 제한된 다양성으로 인해 다중모달 융합 모듈의 콘텐츠 인지 능력이 약함
- 인지 중심 방법(Cognition-centric): 대규모 시각-언어 사전학습 모델을 활용하여 다중모달 이해를 강화하지만, Transformer 아키텍처의 이차 계산 복잡도로 인해 고해상도 입력에서 세밀한 공간 정보 손실
기존 방법들은 지각 능력과 인지 능력 간의 트레이드오프 문제가 존재합니다. 본 논문은 RIS 작업이 본질적으로 두 가지 핵심 차원을 포함한다고 주장합니다: 지각(전경 객체의 정확한 위치 결정)과 인지(텍스트 및 시각 콘텐츠의 포괄적 이해). 따라서 이 두 구성 요소를 분리하고 효과적으로 통합하는 것을 제안합니다.
- DeRIS 프레임워크 제안: RIS 작업을 명시적으로 지각 및 인지 구성 요소로 분리하는 첫 번째 프레임워크로, 두 가지의 장점을 무결하게 통합하여 높은 정밀도의 지각 위치 결정과 견고한 다중모달 문맥 이해를 달성
- RIS 병목 현상의 심층 분석: 체계적 분석을 통해 인지 능력이 아닌 지각 능력이 RIS의 주요 병목임을 발견하고, 지각 및 인지 모듈 간의 점진적 상호작용을 촉진하는 루프백 시너지 메커니즘 제안
- 비참조 샘플 변환 전략: 훈련 불안정성을 완화하고 모델 일반화 능력을 강화하는 간단하고 효과적인 데이터 증강 전략 개발로 롱테일 분포 문제 해결
- 최첨단 성능: RefCOCO/+/g 및 gRefCOCO 데이터셋에서 새로운 최첨단 성능 달성
이미지 I와 자연언어 표현 T가 주어졌을 때, RIS 작업은 다음을 출력할 것을 요구합니다:
- 분할 마스크 Pm: 목표 객체의 픽셀 수준 위치 표시
- 참조 분류 Pref: 각 후보 영역이 목표인지 여부 판단
- 비참조 판단 Pnr: 설명된 객체가 이미지에 존재하는지 여부 판단
DeRIS는 세 가지 주요 구성 요소를 포함합니다:
- 지각 분기: 계층적 인코더를 사용하여 고해상도 이미지(384×384)를 처리하여 세밀한 시각 표현 보존
- 인지 분기: BEiT3 사전학습 모델을 사용하여 저해상도 이미지(224×224)와 텍스트를 처리하여 의미론적 이해에 집중
- 루프백 시너지 메커니즘: 지각 및 인지 분기 간의 강한 상호작용 구축
각 상호작용 라운드는 인지 계층과 지각 계층을 포함합니다:
지각 계층:
- 초기 쿼리 Qi는 변형 가능한 교차 주의를 통해 다중 스케일 특성과 상호작용
- 자기 주의는 인스턴스 간 관계를 구축하여 출력 Qp 생성
- 마스크 예측: Mp=Qp⋅fm, 여기서 fm=Conv(Concat(fh4,fv))
인지 계층:
- 인스턴스-인스턴스 관계: fs=AvgPool(fm×σ(Mp))
- 인스턴스-텍스트 관계: Qc=Attn(Qp′,ft,ft)
- 신뢰도 점수: Sr=MLP(Qc)
쿼리 융합:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
gRefCOCO 데이터셋에서 비참조 샘플이 전체의 9%만 차지하는 롱테일 분포 문제를 해결하기 위해 3단계 필터링 전략을 제안합니다:
- 선택된 문장에 해당하는 이미지가 현재 이미지와 불일치
- 선택된 문장의 길이가 임계값 Nw보다 큼
- 문장 유사도가 임계값 Ts보다 낮음
유사도 계산:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
총 손실 함수:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
여기에는 분할 손실(BCE+Dice), 참조 분류 손실(BCE) 및 비참조 판단 손실(BCE)이 포함됩니다.
- RefCOCO/+/g: 표준 RIS 벤치마크 데이터셋
- gRefCOCO: 다중 참조 및 비참조 시나리오를 지원하는 일반화된 참조 표현 분할 데이터셋
- mIoU/cIoU/oIoU: 교집합 대 합집합 지표
- gIoU: 일반화된 교집합 대 합집합
- N-acc: 비참조 정확도
- Pr@0.9: 높은 정밀도 임계값에서의 정밀도
- 지각 분기: Mask2Former 사전학습 가중치, 입력 해상도 384×384
- 인지 분기: BEiT3 사전학습 가중치, 입력 해상도 224×224
- 루프백 라운드: 3라운드
- 변환 확률: Rc=15%
- 훈련 전략: AdamW 최적화기, 학습률 1e-4
RefCOCO 검증 세트에서 DeRIS-L은 OneRef-L 대비 4.46% mIoU 향상:
- RefCOCO val: 85.72% vs 81.26%
- RefCOCO+ val: 81.28% vs 76.60%
- RefCOCOg val: 80.01% vs 75.68%
DeRIS-L은 모든 지표에서 기존 방법을 크게 능가:
- Val 세트 cIoU: 72.00% vs 64.20% (HieA2G)
- N-acc 지표 향상이 특히 두드러짐: 82.22% vs 62.80%
핵심 발견: 인지 능력이 RIS의 주요 병목
- 인지 모델을 BERT-B에서 BEiT3-L로 업그레이드: cIoU 12.88% 향상
- 지각 모델을 Swin-S에서 Swin-B로 업그레이드: cIoU 1.20%만 향상
다양한 연결 구조 비교:
- P-to-C (기준선): gIoU 69.98%
- 루프백 시너지: gIoU 71.37% (+1.39%)
- 훈련 시간 기본적으로 증가 없음
- NSC 없음: N-acc 60.19%
- NSC 있음: N-acc 79.25% (+19.06%)
- 훈련 안정성 현저히 개선
순수 인지 중심 방법과 비교하여 DeRIS는 고해상도에서 높은 효율성 유지:
- 384 해상도에서 추론 시간 19%만 증가
- Pr@0.9 지표 14.41% 향상
- 지각 중심 방법:
- 후기 융합 방법: 특성 추출 후 시각-언어 융합
- 조기 융합 방법: 특성 추출 과정 중 다중모달 정보 통합
- 인지 중심 방법:
- 사전학습된 시각-언어 모델을 활용하여 인지 능력 강화
- 단일 스트림, 이중 스트림, 융합 인코더 및 MLLM 방법 포함
기존 연구와 비교하여 DeRIS는 처음으로 지각과 인지의 역할을 체계적으로 분리하고 분석하여 새로운 아키텍처 설계 패러다임을 제공합니다.
- 인지 병목 발견: 체계적 분석을 통해 인지 능력이 아닌 지각 능력이 현재 RIS의 주요 제약 요소임을 증명
- 효과적인 아키텍처 설계: 루프백 시너지 메커니즘이 지각 및 인지 장점을 성공적으로 통합
- 데이터 증강의 가치: NSC 전략이 비참조 샘플 부족 문제를 효과적으로 해결
- 계산 오버헤드: 이중 분기 아키텍처는 일정한 계산 비용 증가
- 초매개변수 민감성: 루프백 라운드 수, 변환 확률 등 초매개변수는 신중한 조정 필요
- 데이터 의존성: NSC 전략의 효과는 데이터셋의 다양성에 의존
- 더 효율적인 지각-인지 상호작용 메커니즘 탐색
- 자적응형 비참조 샘플 생성 전략 연구
- 더 복잡한 다중모달 이해 작업으로 확장
- 혁신적 아키텍처: 분리 설계는 새로운 연구 관점을 제공하며 RIS의 핵심 병목을 체계적으로 분석
- 충분한 실험 검증: 다양한 소거 실험이 각 구성 요소의 효과성을 증명
- 높은 실용 가치: 여러 벤치마크 데이터셋에서 최첨단 성능 달성
- 심층 분석: 정량적 및 정성적 분석을 결합하여 가치 있는 통찰력 제공
- 이론적 분석 부족: 루프백 시너지 메커니즘의 이론적 수렴성 분석 부재
- 일반화 검증 부족: 주로 표준 데이터셋에서 검증되었으며 도메인 간 일반화 실험 부족
- 효율성 최적화 공간: 이중 분기 설계의 계산 효율성 최적화 여지 존재
- 학술적 기여: RIS 분야에 새로운 아키텍처 설계 패러다임 제공
- 실용적 가치: 방법이 간단하고 효과적하며 재현 및 적용이 용이
- 영감 제공: 분리 개념을 다른 다중모달 작업으로 확대 가능
DeRIS는 특히 다음에 적합합니다:
- 높은 정밀도 분할이 필요한 응용 분야
- 복잡한 언어 설명의 이해 작업
- 비참조 및 다중 참조의 일반화된 시나리오
- 추론 효율성에 일정한 요구가 있는 실제 응용
본 논문은 RIS, 시각-언어 이해, 인스턴스 분할 등 관련 분야의 중요한 연구를 포함하는 75개의 관련 문헌을 인용하여 본 연구에 견고한 이론적 기초를 제공합니다.