2025-11-25T09:16:18.025021

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

Dai, Cheng, Liu et al.
Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
academic

DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy

基本信息

  • 论文ID: 2507.01738
  • 标题: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
  • 作者: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
  • 机构: Southeast University, Baidu VIS, Stanford University
  • 分类: cs.CV
  • 发表时间: 2025年10月13日 (arXiv v2)
  • 论文链接: https://arxiv.org/abs/2507.01738v2

摘要

指代图像分割(RIS)是一项具有挑战性的任务,旨在基于自然语言表达对图像中的目标进行分割。虽然先前的研究主要集中在改善视觉-语言交互和实现细粒度定位,但对现有RIS框架中基本瓶颈的系统性分析仍然不足。为了填补这一空白,本文提出了DeRIS,一个将RIS分解为两个关键组件的新框架:感知(perception)和认知(cognition)。这种模块化分解促进了对阻碍RIS性能的主要瓶颈的系统性分析。研究发现,主要限制不在于感知缺陷,而在于当前模型的多模态认知能力不足。为了缓解这一问题,提出了环回协同(Loopback Synergy)机制,增强感知和认知模块之间的协同作用,从而实现精确分割并同时改善鲁棒的图像-文本理解。

研究背景与动机

问题定义

指代图像分割(RIS)要求模型根据自然语言描述在图像中精确分割出对应的目标对象。与传统分割任务不同,RIS需要深度理解语言表达与视觉内容之间的对应关系,具有更大的灵活性但也更具挑战性。

现有方法的局限性

作者将现有RIS方法分为两类:

  1. 感知中心方法(Perception-centric):依赖分层骨干网络保留细粒度空间信息,但由于下游数据集多样性有限,多模态融合模块的内容认知能力较弱
  2. 认知中心方法(Cognition-centric):利用大规模视觉-语言预训练模型增强多模态理解,但由于Transformer架构的二次计算复杂度,在高分辨率输入下会丢失细粒度空间信息

研究动机

现有方法存在感知能力与认知能力之间的权衡问题。本文认为RIS任务本质上涉及两个关键维度:感知(准确定位前景对象)和认知(全面理解文本和视觉内容),因此提出解耦这两个组件并有效整合它们的优势。

核心贡献

  1. 提出DeRIS框架:首个将RIS任务显式解耦为感知和认知组件的框架,无缝集成两者优势以实现高精度感知定位和鲁棒多模态上下文理解
  2. 深入分析RIS瓶颈:通过系统性分析发现认知能力而非感知能力是RIS的主要瓶颈,并提出环回协同机制促进感知和认知模块间的渐进式交互
  3. 非指代样本转换策略:开发简单有效的数据增强策略,缓解训练不稳定性并增强模型泛化能力,解决长尾分布挑战
  4. SOTA性能:在RefCOCO/+/g和gRefCOCO数据集上达到新的最先进性能

方法详解

任务定义

给定图像I和自然语言表达T,RIS任务要求输出:

  • 分割掩码 PmP_m:指示目标对象的像素级位置
  • 指代分类 PrefP_{ref}:判断每个候选区域是否为目标
  • 非指代判断 PnrP_{nr}:判断描述的对象是否在图像中存在

模型架构

整体架构

DeRIS包含三个主要组件:

  1. 感知分支:使用分层编码器处理高分辨率图像(384×384),保留细粒度视觉表示
  2. 认知分支:使用BEiT3预训练模型处理低分辨率图像(224×224)和文本,专注于语义理解
  3. 环回协同机制:建立感知和认知分支间的强交互

环回协同机制

每轮交互包含认知层和感知层:

感知层

  • 初始查询 QiQ_i 通过可变形交叉注意力与多尺度特征交互
  • 自注意力建立实例间关系,产生输出 QpQ_p
  • 预测掩码:Mp=QpfmM_p = Q_p \cdot f_m,其中 fm=Conv(Concat(fh4,fv))f_m = \text{Conv}(\text{Concat}(f_{h4}, f_v))

认知层

  • 实例-实例关系:fs=AvgPool(fm×σ(Mp))f_s = \text{AvgPool}(f_m \times \sigma(M_p))
  • 实例-文本关系:Qc=Attn(Qp,ft,ft)Q_c = \text{Attn}(Q'_p, f_t, f_t)
  • 置信度分数:Sr=MLP(Qc)S_r = \text{MLP}(Q_c)

查询融合Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))Q_f = \text{C1}(Q_p, Q_r) = \text{MLP}(\text{Concat}(Q_p, Q_r))

非指代样本转换(NSC)

为解决gRefCOCO数据集中非指代样本仅占9%的长尾分布问题,提出三级过滤策略:

  1. 选择的句子对应的图像与当前图像不一致
  2. 选择句子长度大于阈值 NwN_w
  3. 句子相似度低于阈值 TsT_s

相似度计算: Sim(s1,s2)=Jac(s1,s2)+Cos(s1,s2)2\text{Sim}(s_1, s_2) = \frac{\text{Jac}(s_1, s_2) + \text{Cos}(s_1, s_2)}{2}

训练目标

总损失函数: Li=λmLmaski+λrLri+λntLntiL^i = \lambda_m L^i_{mask} + \lambda_r L^i_r + \lambda_{nt} L^i_{nt}L=λauxi=1Nr1Li+LNrL = \lambda_{aux} \sum_{i=1}^{N_r-1} L^i + L^{N_r}

其中包含分割损失(BCE+Dice)、指代分类损失(BCE)和非指代判断损失(BCE)。

实验设置

数据集

  • RefCOCO/+/g:标准RIS基准数据集
  • gRefCOCO:广义指代表达分割数据集,支持多指代和非指代场景

评价指标

  • mIoU/cIoU/oIoU:交并比指标
  • gIoU:广义交并比
  • N-acc:非指代准确率
  • Pr@0.9:高精度阈值下的精确率

实现细节

  • 感知分支:Mask2Former预训练权重,输入分辨率384×384
  • 认知分支:BEiT3预训练权重,输入分辨率224×224
  • 环回轮数:3轮
  • 转换概率:Rc=15%R_c = 15\%
  • 训练策略:AdamW优化器,学习率1e-4

实验结果

主要结果

RIS任务性能(RefCOCO/+/g)

在RefCOCO验证集上,DeRIS-L相比OneRef-L提升4.46% mIoU:

  • RefCOCO val: 85.72% vs 81.26%
  • RefCOCO+ val: 81.28% vs 76.60%
  • RefCOCOg val: 80.01% vs 75.68%

GRES任务性能(gRefCOCO)

DeRIS-L在所有指标上显著优于现有方法:

  • Val集cIoU: 72.00% vs 64.20% (HieA2G)
  • N-acc指标提升尤为显著: 82.22% vs 62.80%

消融实验

感知vs认知能力分析

关键发现:认知能力是RIS的主要瓶颈

  • 认知模型从BERT-B升级到BEiT3-L:cIoU提升12.88%
  • 感知模型从Swin-S升级到Swin-B:cIoU仅提升1.20%

环回协同机制有效性

不同连接结构对比:

  • P-to-C (基线): gIoU 69.98%
  • 环回协同: gIoU 71.37% (+1.39%)
  • 训练时间基本无增加

NSC策略效果

  • 无NSC: N-acc 60.19%
  • 有NSC: N-acc 79.25% (+19.06%)
  • 显著改善训练稳定性

效率分析

相比纯认知中心方法,DeRIS在高分辨率下保持高效:

  • 384分辨率下推理时间仅增加19%
  • Pr@0.9指标提升14.41%

相关工作

RIS方法分类

  1. 感知中心方法
    • 后融合方法:特征提取后进行视觉-语言融合
    • 早融合方法:特征提取过程中集成多模态信息
  2. 认知中心方法
    • 利用预训练视觉-语言模型增强认知能力
    • 包括一流、双流、融合编码器和MLLM方法

本文优势

相比现有工作,DeRIS首次系统性地解耦并分析了感知与认知的作用,提供了新的架构设计范式。

结论与讨论

主要结论

  1. 认知瓶颈发现:系统性分析证明认知能力而非感知能力是当前RIS的主要限制因素
  2. 有效架构设计:环回协同机制成功整合感知和认知优势
  3. 数据增强价值:NSC策略有效解决非指代样本稀缺问题

局限性

  1. 计算开销:双分支架构增加了一定的计算成本
  2. 超参数敏感性:环回轮数、转换概率等超参数需要仔细调节
  3. 数据依赖:NSC策略的效果依赖于数据集的多样性

未来方向

  1. 探索更高效的感知-认知交互机制
  2. 研究自适应的非指代样本生成策略
  3. 扩展到更复杂的多模态理解任务

深度评价

优点

  1. 创新性架构:解耦设计提供了新的研究视角,系统性分析了RIS的核心瓶颈
  2. 充分实验验证:大量消融实验证明了各组件的有效性
  3. 实用价值高:在多个基准数据集上达到SOTA性能
  4. 分析深入:定量和定性分析相结合,提供了有价值的洞察

不足

  1. 理论分析不足:缺乏对环回协同机制的理论收敛性分析
  2. 泛化性验证:主要在标准数据集上验证,缺乏跨域泛化实验
  3. 效率优化空间:双分支设计的计算效率仍有优化空间

影响力

  1. 学术贡献:为RIS领域提供了新的架构设计范式
  2. 实用价值:方法简单有效,易于复现和应用
  3. 启发意义:解耦思想可推广到其他多模态任务

适用场景

DeRIS特别适用于:

  • 需要高精度分割的应用场景
  • 复杂语言描述的理解任务
  • 非指代和多指代的广义场景
  • 对推理效率有一定要求的实际应用

参考文献

论文引用了75篇相关文献,涵盖了RIS、视觉-语言理解、实例分割等相关领域的重要工作,为本研究提供了坚实的理论基础。