2025-11-10T02:42:11.024249

Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation

Park, Lee, Seong et al.
We propose Foreground-Covering Prototype Generation and Matching to resolve Few-Shot Segmentation (FSS), which aims to segment target regions in unlabeled query images based on labeled support images. Unlike previous research, which typically estimates target regions in the query using support prototypes and query pixels, we utilize the relationship between support and query prototypes. To achieve this, we utilize two complementary features: SAM Image Encoder features for pixel aggregation and ResNet features for class consistency. Specifically, we construct support and query prototypes with SAM features and distinguish query prototypes of target regions based on ResNet features. For the query prototype construction, we begin by roughly guiding foreground regions within SAM features using the conventional pseudo-mask, then employ iterative cross-attention to aggregate foreground features into learnable tokens. Here, we discover that the cross-attention weights can effectively alternate the conventional pseudo-mask. Therefore, we use the attention-based pseudo-mask to guide ResNet features to focus on the foreground, then infuse the guided ResNet feature into the learnable tokens to generate class-consistent query prototypes. The generation of the support prototype is conducted symmetrically to that of the query one, with the pseudo-mask replaced by the ground-truth mask. Finally, we compare these query prototypes with support ones to generate prompts, which subsequently produce object masks through the SAM Mask Decoder. Our state-of-the-art performances on various datasets validate the effectiveness of the proposed method for FSS. Our official code is available at https://github.com/SuhoPark0706/FCP
academic

前景カバリングプロトタイプ生成とマッチングによるSAM支援少数ショット分割

基本情報

  • 論文ID: 2501.00752
  • タイトル: Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation
  • 著者: Suho Park*, SuBeen Lee*, Hyun Seok Seong, Jaejoon Yoo, Jae-Pil Heo†(成均館大学)
  • 分類: cs.CV(コンピュータビジョン)
  • 提出日: 2025年1月1日(arXiv)
  • 論文リンク: https://arxiv.org/abs/2501.00752
  • コードリンク: https://github.com/SuhoPark0706/FCP

概要

本論文は、少数ショット分割(FSS)問題を解決するための前景カバリングプロトタイプ生成・マッチング方法(FCP)を提案している。従来の研究がサポートプロトタイプとクエリピクセルを使用して対象領域を推定するのに対し、本論文はサポートプロトタイプとクエリプロトタイプ間の関係を活用する。本方法は2つの相補的特徴を組み合わせている:ピクセル集約用のSAM画像エンコーダ特徴とクラス一貫性用のResNet特徴。サポートおよびクエリプロトタイプを構築し、ResNet特徴に基づいて対象領域のクエリプロトタイプを区別し、最終的にSAMマスクデコーダを通じてオブジェクトマスクを生成することで、複数のデータセットで最先端の性能を達成した。

研究背景と動機

問題定義

少数ショット分割(Few-Shot Segmentation, FSS)は、少数のラベル付きサポート画像に基づいて、ラベルなしのクエリ画像内の対象領域を分割することを目的とする。従来の意味論的分割方法は大量のラベル付きデータを必要とするため、FSSは人手によるアノテーション負担を大幅に削減できるコンピュータビジョンの重要なタスクである。

既存方法の限界

  1. SAMの限界:Segment Anything Model(SAM)は分割タスクで優れた性能を示しているが、画像間のクラス一貫性が欠けており、サポート画像に基づいてクエリ画像の前景領域を分類できない。
  2. VRP-SAMの不足
    • プロトタイプ-ピクセルマッチング関係が最適でなく、視覚参照プロンプトが十分な前景情報を欠いているか背景要素を含む可能性がある
    • 単純なピクセル-ピクセル類似度に基づく従来の疑似マスク品質が低い
    • クエリ前景ピクセルを選択的に強化することが困難であり、前景と背景ピクセルの区別が曖昧になる可能性がある

研究動機

本論文は、SAM画像エンコーダ特徴がピクセルレベルの集約で優れた性能を示し、ResNet特徴がクラス一貫性でより強力であることを発見した。この観察に基づき、より信頼性の高い視覚参照プロンプトを生成するためのプロトタイプ-プロトタイプマッチング戦略を提案する。

核心的貢献

  1. 前景カバリングプロトタイプ生成・マッチング方法の提案:サポート画像とクエリ画像のプロトタイプを構築し、プロトタイプ間比較を通じて視覚参照プロンプトを生成し、SAMマスクデコーダを通じてクエリ画像のオブジェクトマスクを生成する。
  2. デュアル特徴融合戦略:SAM画像エンコーダ特徴の優れた集約能力とResNet特徴のクラス一貫性を効果的に活用して、前景中心のプロトタイプを生成する。
  3. 注意力ガイド付き疑似マスク:注意力ベースの疑似マスクを提案し、SAM画像エンコーダ特徴を活用して従来の疑似マスクを効果的に置き換える。
  4. 最先端性能の達成:複数のデータセットでプロトタイプ-プロトタイプマッチングの有効性を検証し、新しい最先端性能を実現した。

方法の詳細

タスク定義

FSSはメタラーニングアプローチを採用し、2つの独立したデータセットを使用する:訓練集合D_train と テスト集合D_test、重複しないクラスC_base とC_novel を含む。各エピソードは以下で構成される:

  • サポート集合:K個のラベル付き画像 S = {(I_Si, M_Si)}^K_
  • クエリ集合:1つのラベルなし画像 Q = (I_Q, M_Q)

目標はサポート集合とクエリ画像に基づいてクエリマスクM_pred を予測することである。

モデルアーキテクチャ

1. サポートプロトタイプ生成

サポートプロトタイプ生成プロセスは2つの主要なステップを含む:

前景特徴集約

Ḡ_S = ConvG(Concat(G_S, M_S, MP(G_S, M_S)))  (1)

ground truthマスクM_Sを使用してSAM特徴G_Sをガイドし、その後T-1ステップの反復クロスアテンション集約を通じて前景情報を集約する:

P^t_S = MaskedCrossAttn(P^{t-1}_S, Ḡ_S, Ḡ_S; M_S)  (2)

クラス一貫性の注入

F̄_S = ConvG(Concat(F_S, M_S, MP(F_S, M_S)))  (3)
P^T_S = MaskedCrossAttn(P^{T-1}_S, Ḡ_S, F̄_S; M_S)  (4)

2. クエリプロトタイプ生成

クエリプロトタイプ生成はground truthマスクがないという課題に直面し、以下の戦略を採用する:

従来の疑似マスク計算

M^pseudo_{h,w} = \max_{1≤h'≤H,1≤w'≤W} M_{S_{h',w'}}(F^Q_{h,w} · F^S_{h',w'})  (5)

SAM特徴集約

Ḡ_Q = ConvG(Concat(G_Q, M^pseudo, MP(G_S, M_S)))  (6)
P^t_Q = CrossAttn(P^{t-1}_Q, Ḡ_Q, Ḡ_Q)  (7)

注意力ガイド付き疑似マスク

M^{attn}_{t,h,w} = \max_{1≤n≤N} A^Q_{t,n,h,w}  (8)

ガイド損失

L_{guide} = \frac{1}{T-1} \sum^{T-1}_{t=1} L_{BCE}(M^{attn}_t, M_Q) + L_{DL}(M^{attn}_t, M_Q)  (9)

ResNet特徴融合

F̄_Q = ConvF(Concat(F_Q, M^{attn}_{T-1}, MP(F_S, M_S)))  (10)
P^T_Q = CrossAttn(P^{T-1}_Q, Ḡ_Q, F̄_Q)  (11)

3. プロトタイプ-プロトタイプマッチング

クロスアテンションを通じて視覚参照プロンプトを生成する:

V = CrossAttn(P^T_S, P^T_Q, P^T_Q)  (12)

損失関数

総損失は3つの成分を含む:

L_{total} = L_{prompt} + λ_{ortho}L_{ortho} + λ_{guide}L_{guide}  (15)
  • プロンプト損失:L_prompt = L_BCE(M_pred, M_Q) + L_DL(M_pred, M_Q)
  • 直交損失:異なるプロトタイプが異なる情報をエンコードすることを保証
  • ガイド損失:注意力を前景領域に集中させるようガイド

実験設定

データセット

  • PASCAL-5i:PASCAL VOC 2012およびSDSからの20クラス、4つのfoldに分割、各foldは15個の基本クラスと5個の新規クラスを含む
  • COCO-20i:COCOデータセットからの80クラス、4つのfoldに分割、各foldは60個の基本クラスと20個の新規クラスを含む

評価指標

平均交差比(mean Intersection over Union, mIoU)を使用して性能を評価し、新規クラスで1000個のサポート-クエリペアをランダムにサンプリングしてテストする。

実装詳細

  • オプティマイザ:AdamW、コサイン退火スケジューラ
  • PASCAL-5i:100エポック、学習率2e-4
  • COCO-20i:50エポック、学習率1e-4
  • バッチサイズ:8
  • 学習可能トークン数:50
  • 集約層数:T=3
  • 損失係数:λ_ortho=0.05、λ_guide=0.5

実験結果

主要結果

PASCAL-5iおよびCOCO-20iデータセット上の実験結果は、本方法がすべての設定で最先端の性能を達成したことを示している:

PASCAL-5iデータセット(ResNet-50)

  • 1-shot:73.2% mIoU(VRP-SAMの71.8%から1.4%向上)
  • 5-shot:74.0% mIoU(VRP-SAMの71.4%から2.6%向上)

COCO-20iデータセット(ResNet-50)

  • 1-shot:52.5% mIoU(VRP-SAMの50.2%から2.3%向上)
  • 5-shot:58.0% mIoU(VRP-SAMの55.5%から2.5%向上)

アブレーション実験

主要成分分析

  • ResNet特徴のみ(ベースライン):71.8% mIoU
  • プロトタイプ-プロトタイプマッチング追加:72.6% mIoU(+0.8%)
  • 注意力ガイド付き疑似マスク追加:73.2% mIoU(+1.4%)

集約ステップ数Tの影響

  • T=3で最高性能を達成
  • ステップ数が多すぎるとトークンがより小さな領域に過度に集中するため性能が低下

損失関数の有効性

  • プロンプト損失のみ:72.3% mIoU
  • ガイド損失追加:72.7% mIoU(+0.4%)
  • 直交損失追加:72.4% mIoU(+0.1%)
  • すべての損失:73.2% mIoU(+0.9%)

疑似マスク品質分析

注意力ガイド付き疑似マスクは従来の疑似マスクと比べて大幅に向上:

  • mIoU:60.9% vs 32.4%
  • 精度:69.1% vs 46.5%
  • 再現率:79.4% vs 53.6%

関連研究

ビジュアル基礎モデル

SAMは分割領域の基礎モデルとして、プロンプト可能な設計と強力なゼロショット能力を備えているが、画像間のクラス一貫性が欠けている。

少数ショット分割方法

主に2つのカテゴリに分類される:

  1. プロトタイプベースの方法:サポート前景をプロトタイプとして表現し予測に使用
  2. 親和性学習方法:サポート画像とクエリ画像間のピクセルレベルの密集相関を活用

VRP-SAMはSAMマスクデコーダに適切なプロンプトを生成する方法を導入したが、ピクセルレベルの比較には限界がある。

結論と考察

主要な結論

  1. プロトタイプ-プロトタイプマッチングはプロトタイプ-ピクセルマッチングより効果的である
  2. SAM特徴の集約能力とResNet特徴のクラス一貫性は相補的である
  3. 注意力ガイド付き疑似マスクは従来の疑似マスクより大幅に優れている
  4. 複数のデータセットで最先端性能を達成した

限界

  1. SAMとResNetの2つの事前学習モデルに依存し、計算複雑度が増加する
  2. 方法の有効性は主に自然画像で検証されており、他の領域への汎化能力は検証が必要
  3. ハイパーパラメータ(T、λ値など)は異なるデータセットに対して調整が必要

今後の方向性

  1. より軽量な特徴融合戦略の探索
  2. 医学画像などの特定領域への応用研究
  3. 注意力メカニズムの効率と精度のさらなる向上

深い評価

利点

  1. 技術革新性が強い:プロトタイプ-プロトタイプマッチングの新しいパラダイムを提案し、2つの特徴の相補性を効果的に活用している
  2. 実験が充分:複数のデータセットと設定で包括的な実験検証を実施している
  3. 分析が深い:可視化と定量分析を通じて方法の有効性を明確に示している
  4. 執筆が明確:論文構成が合理的で、技術詳細の説明が正確である

不足点

  1. 計算複雑度:SAMとResNet特徴を同時に使用する必要があり、推論時間が増加する可能性がある
  2. パラメータ感度:複数のハイパーパラメータの設定が方法の安定性に影響する可能性がある
  3. 汎化能力:主に自然画像データセットで検証されており、他の領域での効果は不明である

影響力

  1. 学術的貢献:少数ショット分割に新しい技術パスを提供し、後続研究を刺激する可能性がある
  2. 実用的価値:実際の応用でアノテーション費用を削減でき、応用潜在力が高い
  3. 再現性:詳細な実装詳細とオープンソースコードを提供し、再現と改善が容易である

適用シーン

  1. 新しいクラスに迅速に適応する必要がある分割タスク
  2. アノテーションデータが稀少な応用シーン
  3. 分割精度が高く要求されるコンピュータビジョン応用

参考文献

論文は少数ショット分割、ビジュアル基礎モデルなど関連領域の重要な研究を引用しており、SAM、VRP-SAM、PFENet、CyCTRなどの古典的方法を含み、本研究に堅実な理論的基礎を提供している。