2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.

We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP

academic

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

基本信息

论文ID: 2501.00752
标题: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
作者: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo†（成均馆大学）
分类: cs.CV (计算机视觉)
发表时间: 2025年1月1日提交至arXiv
论文链接: https://arxiv.org/abs/2501.00752
代码链接: https://github.com/SuhoPark0706/FCP

SAM的局限性：尽管Segment Anything Model (SAM)在分割任务中表现出色，但缺乏跨图像的类别一致性，无法基于支持图像对查询图像的前景区域进行分类。
VRP-SAM的不足：
- 原型-像素匹配关系次优，可能导致视觉参考提示缺乏足够的前景信息或包含背景元素
- 基于简单像素-像素相似性的传统伪掩码质量较低
- 难以选择性地增强查询前景像素，可能模糊前景和背景像素的区别

研究动机

本文发现SAM图像编码器特征在像素级聚合方面表现优异，而ResNet特征在类别一致性方面更强。基于这一观察，提出了原型-原型匹配策略，以生成更可靠的视觉参考提示。

核心贡献

提出了前景覆盖原型生成与匹配方法：构建支持和查询图像的原型，通过原型间比较生成视觉参考提示，并通过SAM掩码解码器产生查询图像的对象掩码。
双特征融合策略：有效利用SAM图像编码器特征的优越聚合能力和ResNet特征的类别一致性来生成前景中心的原型。
注意力引导的伪掩码：提出基于注意力的伪掩码，通过利用SAM图像编码器特征有效替代传统伪掩码。
达到最先进性能：在多个数据集上验证了原型-原型匹配的有效性，实现了新的最先进性能。

方法详解

任务定义

FSS采用元学习方法，使用两个独立的数据集：训练集Dtrain和测试集Dtest，包含不重叠的类别Cbase和Cnovel。每个episode包含：

支持集：K个标记图像S = {(ISi, MSi)}Ki=1
查询集：一个未标记图像Q = (IQ, MQ)

目标是基于支持集和查询图像预测查询掩码Mpred。

模型架构

1. 支持原型生成

支持原型生成过程包括两个主要步骤：

前景特征聚合：

ḠS = ConvG(Concat(GS, MS, MP(GS, MS)))  (1)

使用ground truth掩码MS指导SAM特征GS，然后通过T-1步迭代交叉注意力聚合前景信息：

PSt = MaskedCrossAttn(PSt-1, ḠS, ḠS; MS)  (2)

类别一致性注入：

F̄S = ConvG(Concat(FS, MS, MP(FS, MS)))  (3)
PST = MaskedCrossAttn(PST-1, ḠS, F̄S; MS)  (4)

2. 查询原型生成

查询原型生成面临没有ground truth掩码的挑战，采用以下策略：

传统伪掩码计算：

Mpseudoh,w = max1≤h'≤H,1≤w'≤W MSh',w'(FQh,w · FSh',w')  (5)

SAM特征聚合：

ḠQ = ConvG(Concat(GQ, Mpseudo, MP(GS, MS)))  (6)
PQt = CrossAttn(PQt-1, ḠQ, ḠQ)  (7)

注意力引导的伪掩码：

Mattnt,h,w = max1≤n≤N AQt,n,h,w  (8)

引导损失：

Lguide = 1/(T-1) ∑t=1T-1 LBCE(Mattnt, MQ) + LDL(Mattnt, MQ)  (9)

ResNet特征融合：

F̄Q = ConvF(Concat(FQ, MattnT-1, MP(FS, MS)))  (10)
PQT = CrossAttn(PQT-1, ḠQ, F̄Q)  (11)

3. 原型-原型匹配

通过交叉注意力生成视觉参考提示：

V = CrossAttn(PST, PQT, PQT)  (12)

损失函数

总损失包括三个组件：

Ltotal = Lprompt + λorthoLortho + λguideLguide  (15)

提示损失：Lprompt = LBCE(Mpred, MQ) + LDL(Mpred, MQ)
正交损失：确保不同原型编码不同信息
引导损失：指导注意力聚焦于前景区域

实验设置

数据集

PASCAL-5i：来自PASCAL VOC 2012和SDS的20个类别，分为4个fold，每个fold包含15个基础类和5个新类
COCO-20i：来自COCO数据集的80个类别，分为4个fold，每个fold包含60个基础类和20个新类

评价指标

使用平均交并比（mean Intersection over Union, mIoU）评估性能，在新类别中随机采样1000个支持-查询对进行测试。

实现细节

优化器：AdamW，余弦退火调度
PASCAL-5i：100 epochs，学习率2e-4
COCO-20i：50 epochs，学习率1e-4
批大小：8
可学习token数量：50
聚合层数：T=3
损失系数：λortho=0.05, λguide=0.5

实验结果

主要结果

在PASCAL-5i和COCO-20i数据集上的实验结果表明，本方法在所有设置下都达到了最先进的性能：

PASCAL-5i数据集（ResNet-50）：

1-shot：73.2% mIoU（相比VRP-SAM的71.8%提升1.4%）
5-shot：74.0% mIoU（相比VRP-SAM的71.4%提升2.6%）

COCO-20i数据集（ResNet-50）：

1-shot：52.5% mIoU（相比VRP-SAM的50.2%提升2.3%）
5-shot：58.0% mIoU（相比VRP-SAM的55.5%提升2.5%）

消融实验

主要组件分析：

仅ResNet特征（基线）：71.8% mIoU
添加原型-原型匹配：72.6% mIoU（+0.8%）
添加注意力引导的伪掩码：73.2% mIoU（+1.4%）

聚合步数T的影响：

T=3时达到最佳性能
过多步数会导致性能下降，因为token过度聚焦于较小区域

损失函数有效性：

仅提示损失：72.3% mIoU
添加引导损失：72.7% mIoU（+0.4%）
添加正交损失：72.4% mIoU（+0.1%）
全部损失：73.2% mIoU（+0.9%）

伪掩码质量分析

注意力引导的伪掩码相比传统伪掩码显著提升：

mIoU：60.9% vs 32.4%
精确率：69.1% vs 46.5%
召回率：79.4% vs 53.6%

结论与讨论

主要结论

原型-原型匹配比原型-像素匹配更有效
SAM特征的聚合能力和ResNet特征的类别一致性具有互补性
注意力引导的伪掩码显著优于传统伪掩码
在多个数据集上达到最先进性能

局限性

依赖于SAM和ResNet两个预训练模型，增加了计算复杂度
方法的有效性主要在自然图像上验证，在其他域的泛化能力有待验证
超参数（如T、λ值）需要针对不同数据集进行调整

未来方向

探索更轻量级的特征融合策略
研究在医学图像等特定领域的应用
进一步提升注意力机制的效率和准确性

深度评价

优点

技术创新性强：提出了原型-原型匹配的新范式，有效利用了两种特征的互补性
实验充分：在多个数据集和设置下进行了全面的实验验证
分析深入：通过可视化和定量分析清晰展示了方法的有效性
写作清晰：论文结构合理，技术细节描述准确

不足

计算复杂度：需要同时使用SAM和ResNet特征，可能增加推理时间
参数敏感性：多个超参数的设置可能影响方法的稳定性
泛化能力：主要在自然图像数据集上验证，其他领域的效果未知

影响力

学术贡献：为小样本分割提供了新的技术路径，可能启发后续研究
实用价值：在实际应用中可以减少标注成本，具有较高的应用潜力
可复现性：提供了详细的实现细节和开源代码，便于复现和改进

适用场景

需要快速适应新类别的分割任务
标注数据稀缺的应用场景
对分割精度要求较高的计算机视觉应用

参考文献

论文引用了小样本分割、视觉基础模型等相关领域的重要工作，包括SAM、VRP-SAM、PFENet、CyCTR等经典方法，为本研究提供了坚实的理论基础。

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

基本信息

摘要

研究背景与动机

问题定义

现有方法的局限性

研究动机

核心贡献

方法详解

任务定义

模型架构

1. 支持原型生成

2. 查询原型生成

3. 原型-原型匹配

损失函数

实验设置

数据集

评价指标

实现细节

实验结果

主要结果

消融实验

伪掩码质量分析

相关工作

视觉基础模型

小样本分割方法

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献