2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

基本信息

  • 论文ID: 2501.00752
  • 标题: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
  • 作者: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo†(成均馆大学)
  • 分类: cs.CV (计算机视觉)
  • 发表时间: 2025年1月1日提交至arXiv
  • 论文链接: https://arxiv.org/abs/2501.00752
  • 代码链接: https://github.com/SuhoPark0706/FCP

摘要

本文提出了前景覆盖原型生成与匹配方法(FCP)来解决小样本分割(FSS)问题。与以往研究通常使用支持原型和查询像素来估计目标区域不同,本文利用支持原型和查询原型之间的关系。该方法结合了两种互补特征:SAM图像编码器特征用于像素聚合,ResNet特征用于类别一致性。通过构建支持和查询原型,并基于ResNet特征区分目标区域的查询原型,最终通过SAM掩码解码器生成对象掩码,在多个数据集上达到了最先进的性能。

研究背景与动机

问题定义

小样本分割(Few-Shot Segmentation, FSS)旨在基于少量标记的支持图像对未标记的查询图像中的目标区域进行分割。这是计算机视觉中的一个重要任务,因为传统的语义分割方法需要大量标记数据,而FSS可以显著减少人工标注的负担。

现有方法的局限性

  1. SAM的局限性:尽管Segment Anything Model (SAM)在分割任务中表现出色,但缺乏跨图像的类别一致性,无法基于支持图像对查询图像的前景区域进行分类。
  2. VRP-SAM的不足
    • 原型-像素匹配关系次优,可能导致视觉参考提示缺乏足够的前景信息或包含背景元素
    • 基于简单像素-像素相似性的传统伪掩码质量较低
    • 难以选择性地增强查询前景像素,可能模糊前景和背景像素的区别

研究动机

本文发现SAM图像编码器特征在像素级聚合方面表现优异,而ResNet特征在类别一致性方面更强。基于这一观察,提出了原型-原型匹配策略,以生成更可靠的视觉参考提示。

核心贡献

  1. 提出了前景覆盖原型生成与匹配方法:构建支持和查询图像的原型,通过原型间比较生成视觉参考提示,并通过SAM掩码解码器产生查询图像的对象掩码。
  2. 双特征融合策略:有效利用SAM图像编码器特征的优越聚合能力和ResNet特征的类别一致性来生成前景中心的原型。
  3. 注意力引导的伪掩码:提出基于注意力的伪掩码,通过利用SAM图像编码器特征有效替代传统伪掩码。
  4. 达到最先进性能:在多个数据集上验证了原型-原型匹配的有效性,实现了新的最先进性能。

方法详解

任务定义

FSS采用元学习方法,使用两个独立的数据集:训练集Dtrain和测试集Dtest,包含不重叠的类别Cbase和Cnovel。每个episode包含:

  • 支持集:K个标记图像S = {(ISi, MSi)}Ki=1
  • 查询集:一个未标记图像Q = (IQ, MQ)

目标是基于支持集和查询图像预测查询掩码Mpred。

模型架构

1. 支持原型生成

支持原型生成过程包括两个主要步骤:

前景特征聚合

ḠS = ConvG(Concat(GS, MS, MP(GS, MS)))  (1)

使用ground truth掩码MS指导SAM特征GS,然后通过T-1步迭代交叉注意力聚合前景信息:

PSt = MaskedCrossAttn(PSt-1, ḠS, ḠS; MS)  (2)

类别一致性注入

F̄S = ConvG(Concat(FS, MS, MP(FS, MS)))  (3)
PST = MaskedCrossAttn(PST-1, ḠS, F̄S; MS)  (4)

2. 查询原型生成

查询原型生成面临没有ground truth掩码的挑战,采用以下策略:

传统伪掩码计算

Mpseudoh,w = max1≤h'≤H,1≤w'≤W MSh',w'(FQh,w · FSh',w')  (5)

SAM特征聚合

ḠQ = ConvG(Concat(GQ, Mpseudo, MP(GS, MS)))  (6)
PQt = CrossAttn(PQt-1, ḠQ, ḠQ)  (7)

注意力引导的伪掩码

Mattnt,h,w = max1≤n≤N AQt,n,h,w  (8)

引导损失

Lguide = 1/(T-1) ∑t=1T-1 LBCE(Mattnt, MQ) + LDL(Mattnt, MQ)  (9)

ResNet特征融合

F̄Q = ConvF(Concat(FQ, MattnT-1, MP(FS, MS)))  (10)
PQT = CrossAttn(PQT-1, ḠQ, F̄Q)  (11)

3. 原型-原型匹配

通过交叉注意力生成视觉参考提示:

V = CrossAttn(PST, PQT, PQT)  (12)

损失函数

总损失包括三个组件:

Ltotal = Lprompt + λorthoLortho + λguideLguide  (15)
  • 提示损失:Lprompt = LBCE(Mpred, MQ) + LDL(Mpred, MQ)
  • 正交损失:确保不同原型编码不同信息
  • 引导损失:指导注意力聚焦于前景区域

实验设置

数据集

  • PASCAL-5i:来自PASCAL VOC 2012和SDS的20个类别,分为4个fold,每个fold包含15个基础类和5个新类
  • COCO-20i:来自COCO数据集的80个类别,分为4个fold,每个fold包含60个基础类和20个新类

评价指标

使用平均交并比(mean Intersection over Union, mIoU)评估性能,在新类别中随机采样1000个支持-查询对进行测试。

实现细节

  • 优化器:AdamW,余弦退火调度
  • PASCAL-5i:100 epochs,学习率2e-4
  • COCO-20i:50 epochs,学习率1e-4
  • 批大小:8
  • 可学习token数量:50
  • 聚合层数:T=3
  • 损失系数:λortho=0.05, λguide=0.5

实验结果

主要结果

在PASCAL-5i和COCO-20i数据集上的实验结果表明,本方法在所有设置下都达到了最先进的性能:

PASCAL-5i数据集(ResNet-50)

  • 1-shot:73.2% mIoU(相比VRP-SAM的71.8%提升1.4%)
  • 5-shot:74.0% mIoU(相比VRP-SAM的71.4%提升2.6%)

COCO-20i数据集(ResNet-50)

  • 1-shot:52.5% mIoU(相比VRP-SAM的50.2%提升2.3%)
  • 5-shot:58.0% mIoU(相比VRP-SAM的55.5%提升2.5%)

消融实验

主要组件分析

  • 仅ResNet特征(基线):71.8% mIoU
  • 添加原型-原型匹配:72.6% mIoU(+0.8%)
  • 添加注意力引导的伪掩码:73.2% mIoU(+1.4%)

聚合步数T的影响

  • T=3时达到最佳性能
  • 过多步数会导致性能下降,因为token过度聚焦于较小区域

损失函数有效性

  • 仅提示损失:72.3% mIoU
  • 添加引导损失:72.7% mIoU(+0.4%)
  • 添加正交损失:72.4% mIoU(+0.1%)
  • 全部损失:73.2% mIoU(+0.9%)

伪掩码质量分析

注意力引导的伪掩码相比传统伪掩码显著提升:

  • mIoU:60.9% vs 32.4%
  • 精确率:69.1% vs 46.5%
  • 召回率:79.4% vs 53.6%

相关工作

视觉基础模型

SAM作为分割领域的基础模型,具有可提示设计和强大的零样本能力,但缺乏跨图像的类别一致性。

小样本分割方法

主要分为两类:

  1. 基于原型的方法:将支持前景表示为原型并用于预测
  2. 亲和学习方法:利用支持和查询图像间的像素级密集相关性

VRP-SAM引入了为SAM掩码解码器生成适当提示的方法,但像素级比较存在局限性。

结论与讨论

主要结论

  1. 原型-原型匹配比原型-像素匹配更有效
  2. SAM特征的聚合能力和ResNet特征的类别一致性具有互补性
  3. 注意力引导的伪掩码显著优于传统伪掩码
  4. 在多个数据集上达到最先进性能

局限性

  1. 依赖于SAM和ResNet两个预训练模型,增加了计算复杂度
  2. 方法的有效性主要在自然图像上验证,在其他域的泛化能力有待验证
  3. 超参数(如T、λ值)需要针对不同数据集进行调整

未来方向

  1. 探索更轻量级的特征融合策略
  2. 研究在医学图像等特定领域的应用
  3. 进一步提升注意力机制的效率和准确性

深度评价

优点

  1. 技术创新性强:提出了原型-原型匹配的新范式,有效利用了两种特征的互补性
  2. 实验充分:在多个数据集和设置下进行了全面的实验验证
  3. 分析深入:通过可视化和定量分析清晰展示了方法的有效性
  4. 写作清晰:论文结构合理,技术细节描述准确

不足

  1. 计算复杂度:需要同时使用SAM和ResNet特征,可能增加推理时间
  2. 参数敏感性:多个超参数的设置可能影响方法的稳定性
  3. 泛化能力:主要在自然图像数据集上验证,其他领域的效果未知

影响力

  1. 学术贡献:为小样本分割提供了新的技术路径,可能启发后续研究
  2. 实用价值:在实际应用中可以减少标注成本,具有较高的应用潜力
  3. 可复现性:提供了详细的实现细节和开源代码,便于复现和改进

适用场景

  1. 需要快速适应新类别的分割任务
  2. 标注数据稀缺的应用场景
  3. 对分割精度要求较高的计算机视觉应用

参考文献

论文引用了小样本分割、视觉基础模型等相关领域的重要工作,包括SAM、VRP-SAM、PFENet、CyCTR等经典方法,为本研究提供了坚实的理论基础。