Referring Image Segmentation (RIS) is a challenging task that aims to segment objects in an image based on natural language expressions. While prior studies have predominantly concentrated on improving vision-language interactions and achieving fine-grained localization, a systematic analysis of the fundamental bottlenecks in existing RIS frameworks remains underexplored. To bridge this gap, we propose DeRIS, a novel framework that decomposes RIS into two key components: perception and cognition. This modular decomposition facilitates a systematic analysis of the primary bottlenecks impeding RIS performance. Our findings reveal that the predominant limitation lies not in perceptual deficiencies, but in the insufficient multi-modal cognitive capacity of current models. To mitigate this, we propose a Loopback Synergy mechanism, which enhances the synergy between the perception and cognition modules, thereby enabling precise segmentation while simultaneously improving robust image-text comprehension. Additionally, we analyze and introduce a simple non-referent sample conversion data augmentation to address the long-tail distribution issue related to target existence judgement in general scenarios. Notably, DeRIS demonstrates inherent adaptability to both non- and multi-referents scenarios without requiring specialized architectural modifications, enhancing its general applicability. The codes and models are available at https://github.com/Dmmm1997/DeRIS.
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- 论文ID: 2507.01738
- 标题: DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy
- 作者: Ming Dai, Wenxuan Cheng, Jiang-jiang Liu, Sen Yang, Wenxiao Cai, Yanpeng Sun, Wankou Yang
- 机构: Southeast University, Baidu VIS, Stanford University
- 分类: cs.CV
- 发表时间: 2025年10月13日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2507.01738v2
指代图像分割(RIS)是一项具有挑战性的任务,旨在基于自然语言表达对图像中的目标进行分割。虽然先前的研究主要集中在改善视觉-语言交互和实现细粒度定位,但对现有RIS框架中基本瓶颈的系统性分析仍然不足。为了填补这一空白,本文提出了DeRIS,一个将RIS分解为两个关键组件的新框架:感知(perception)和认知(cognition)。这种模块化分解促进了对阻碍RIS性能的主要瓶颈的系统性分析。研究发现,主要限制不在于感知缺陷,而在于当前模型的多模态认知能力不足。为了缓解这一问题,提出了环回协同(Loopback Synergy)机制,增强感知和认知模块之间的协同作用,从而实现精确分割并同时改善鲁棒的图像-文本理解。
指代图像分割(RIS)要求模型根据自然语言描述在图像中精确分割出对应的目标对象。与传统分割任务不同,RIS需要深度理解语言表达与视觉内容之间的对应关系,具有更大的灵活性但也更具挑战性。
作者将现有RIS方法分为两类:
- 感知中心方法(Perception-centric):依赖分层骨干网络保留细粒度空间信息,但由于下游数据集多样性有限,多模态融合模块的内容认知能力较弱
- 认知中心方法(Cognition-centric):利用大规模视觉-语言预训练模型增强多模态理解,但由于Transformer架构的二次计算复杂度,在高分辨率输入下会丢失细粒度空间信息
现有方法存在感知能力与认知能力之间的权衡问题。本文认为RIS任务本质上涉及两个关键维度:感知(准确定位前景对象)和认知(全面理解文本和视觉内容),因此提出解耦这两个组件并有效整合它们的优势。
- 提出DeRIS框架:首个将RIS任务显式解耦为感知和认知组件的框架,无缝集成两者优势以实现高精度感知定位和鲁棒多模态上下文理解
- 深入分析RIS瓶颈:通过系统性分析发现认知能力而非感知能力是RIS的主要瓶颈,并提出环回协同机制促进感知和认知模块间的渐进式交互
- 非指代样本转换策略:开发简单有效的数据增强策略,缓解训练不稳定性并增强模型泛化能力,解决长尾分布挑战
- SOTA性能:在RefCOCO/+/g和gRefCOCO数据集上达到新的最先进性能
给定图像I和自然语言表达T,RIS任务要求输出:
- 分割掩码 Pm:指示目标对象的像素级位置
- 指代分类 Pref:判断每个候选区域是否为目标
- 非指代判断 Pnr:判断描述的对象是否在图像中存在
DeRIS包含三个主要组件:
- 感知分支:使用分层编码器处理高分辨率图像(384×384),保留细粒度视觉表示
- 认知分支:使用BEiT3预训练模型处理低分辨率图像(224×224)和文本,专注于语义理解
- 环回协同机制:建立感知和认知分支间的强交互
每轮交互包含认知层和感知层:
感知层:
- 初始查询 Qi 通过可变形交叉注意力与多尺度特征交互
- 自注意力建立实例间关系,产生输出 Qp
- 预测掩码:Mp=Qp⋅fm,其中 fm=Conv(Concat(fh4,fv))
认知层:
- 实例-实例关系:fs=AvgPool(fm×σ(Mp))
- 实例-文本关系:Qc=Attn(Qp′,ft,ft)
- 置信度分数:Sr=MLP(Qc)
查询融合:
Qf=C1(Qp,Qr)=MLP(Concat(Qp,Qr))
为解决gRefCOCO数据集中非指代样本仅占9%的长尾分布问题,提出三级过滤策略:
- 选择的句子对应的图像与当前图像不一致
- 选择句子长度大于阈值 Nw
- 句子相似度低于阈值 Ts
相似度计算:
Sim(s1,s2)=2Jac(s1,s2)+Cos(s1,s2)
总损失函数:
Li=λmLmaski+λrLri+λntLntiL=λaux∑i=1Nr−1Li+LNr
其中包含分割损失(BCE+Dice)、指代分类损失(BCE)和非指代判断损失(BCE)。
- RefCOCO/+/g:标准RIS基准数据集
- gRefCOCO:广义指代表达分割数据集,支持多指代和非指代场景
- mIoU/cIoU/oIoU:交并比指标
- gIoU:广义交并比
- N-acc:非指代准确率
- Pr@0.9:高精度阈值下的精确率
- 感知分支:Mask2Former预训练权重,输入分辨率384×384
- 认知分支:BEiT3预训练权重,输入分辨率224×224
- 环回轮数:3轮
- 转换概率:Rc=15%
- 训练策略:AdamW优化器,学习率1e-4
在RefCOCO验证集上,DeRIS-L相比OneRef-L提升4.46% mIoU:
- RefCOCO val: 85.72% vs 81.26%
- RefCOCO+ val: 81.28% vs 76.60%
- RefCOCOg val: 80.01% vs 75.68%
DeRIS-L在所有指标上显著优于现有方法:
- Val集cIoU: 72.00% vs 64.20% (HieA2G)
- N-acc指标提升尤为显著: 82.22% vs 62.80%
关键发现:认知能力是RIS的主要瓶颈
- 认知模型从BERT-B升级到BEiT3-L:cIoU提升12.88%
- 感知模型从Swin-S升级到Swin-B:cIoU仅提升1.20%
不同连接结构对比:
- P-to-C (基线): gIoU 69.98%
- 环回协同: gIoU 71.37% (+1.39%)
- 训练时间基本无增加
- 无NSC: N-acc 60.19%
- 有NSC: N-acc 79.25% (+19.06%)
- 显著改善训练稳定性
相比纯认知中心方法,DeRIS在高分辨率下保持高效:
- 384分辨率下推理时间仅增加19%
- Pr@0.9指标提升14.41%
- 感知中心方法:
- 后融合方法:特征提取后进行视觉-语言融合
- 早融合方法:特征提取过程中集成多模态信息
- 认知中心方法:
- 利用预训练视觉-语言模型增强认知能力
- 包括一流、双流、融合编码器和MLLM方法
相比现有工作,DeRIS首次系统性地解耦并分析了感知与认知的作用,提供了新的架构设计范式。
- 认知瓶颈发现:系统性分析证明认知能力而非感知能力是当前RIS的主要限制因素
- 有效架构设计:环回协同机制成功整合感知和认知优势
- 数据增强价值:NSC策略有效解决非指代样本稀缺问题
- 计算开销:双分支架构增加了一定的计算成本
- 超参数敏感性:环回轮数、转换概率等超参数需要仔细调节
- 数据依赖:NSC策略的效果依赖于数据集的多样性
- 探索更高效的感知-认知交互机制
- 研究自适应的非指代样本生成策略
- 扩展到更复杂的多模态理解任务
- 创新性架构:解耦设计提供了新的研究视角,系统性分析了RIS的核心瓶颈
- 充分实验验证:大量消融实验证明了各组件的有效性
- 实用价值高:在多个基准数据集上达到SOTA性能
- 分析深入:定量和定性分析相结合,提供了有价值的洞察
- 理论分析不足:缺乏对环回协同机制的理论收敛性分析
- 泛化性验证:主要在标准数据集上验证,缺乏跨域泛化实验
- 效率优化空间:双分支设计的计算效率仍有优化空间
- 学术贡献:为RIS领域提供了新的架构设计范式
- 实用价值:方法简单有效,易于复现和应用
- 启发意义:解耦思想可推广到其他多模态任务
DeRIS特别适用于:
- 需要高精度分割的应用场景
- 复杂语言描述的理解任务
- 非指代和多指代的广义场景
- 对推理效率有一定要求的实际应用
论文引用了75篇相关文献,涵盖了RIS、视觉-语言理解、实例分割等相关领域的重要工作,为本研究提供了坚实的理论基础。