2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick: 冬季スポーツコンテキストにおける迅速な応答と低レベル特徴を組み合わせたインタラクティブセグメンテーション

基本情報

  • 論文ID: 2501.07960
  • タイトル: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • 著者: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • 所属機関: University of Augsburg, Germany
  • 分類: cs.CV (Computer Vision)
  • 発表時期: 2025年1月
  • 論文リンク: https://arxiv.org/abs/2501.07960

要約

本論文は、冬季スポーツシーンに特化した新型インタラクティブセグメンテーションアーキテクチャであるSkipClickを提案している。インタラクティブセグメンテーションはユーザーガイダンス情報を通じて高品質なセグメンテーションマスクを予測し、本論文ではクリックプロンプトをガイダンス方式として使用している。著者らはまずクリック後の迅速な応答に特化したベースラインアーキテクチャを提案し、その後WSESeg データセット上での冬季スポーツ装備セグメンテーション性能を向上させるための複数のアーキテクチャ改善について述べている。WSESeg カテゴリの平均NoC@85指標において、本手法はそれぞれSAMおよびHQ-SAMと比較して2.336および7.946回のクリック削減を実現している。HQSeg-44kデータセット上では、NoC@90が6.00、NoC@95が9.89の最先端結果を達成している。さらに、著者らは新たに提案されたスキーヤー人体セグメンテーションデータセット上でもモデルをテストしている。

研究背景と動機

問題定義

  1. 中核的課題: 冬季スポーツシーンにおいて、アスリートおよび関連装備の精密な位置特定が必要であり、特にスポーツ装備のセグメンテーションタスクの重要性が増加している
  2. アノテーション課題: セグメンテーションマスクのアノテーションは時間がかかり困難であり、特に細かい構造のアノテーションが課題である
  3. 領域特異性: 冬季スポーツ装備は汎用データセットではあまり出現せず、ドメイン適応の問題が存在する

重要性

  • スポーツ分析における装備の精密な位置特定の需要増加
  • インタラクティブセグメンテーションは人手によるアノテーション時間を大幅に削減可能
  • 冬季スポーツシーンは独特の視覚的特徴(雪景、精密な装備構造)を有する

既存手法の限界

  1. SAMの問題: SA-1Bデータセット(11億マスク)上で訓練されているにもかかわらず、冬季スポーツ装備領域への汎化能力が不足している
  2. 応答時間: 早期融合手法はネットワーク全体を再実行する必要があり、応答が遅い
  3. 細部処理: 既存手法は冬季スポーツ装備の細かい構造の処理が困難である

中核的貢献

  1. リアルタイムインタラクティブセグメンテーションモデル: 冬季スポーツなどの特殊領域でセグメンテーションを実行できるリアルタイムモデルを提案し、特に画像内の細かい構造の処理に焦点を当てている
  2. アーキテクチャ革新: アブレーション実験によってWSESegデータセット上でのモデル性能を検証し、より大規模なデータセット上で訓練されたSAMを上回る性能を実現している
  3. 汎化能力: モデルが冬季スポーツ領域に過適合していないことを証明し、汎用消費者画像データセット上で競争力のある性能を示している
  4. 新規データセット: 534個のセグメンテーションマスクと496枚の画像を含むSHSeg(スキーヤー人体セグメンテーション)データセットを提案している

手法の詳細

タスク定義

インタラクティブセグメンテーションタスクは以下のように定義される:画像 ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3} が与えられたとき、目標は高品質なセグメンテーションマスク m{0,1}H×Wm \in \{0,1\}^{H×W} を作成することであり、1は目標オブジェクト、0は背景を表す。

ユーザーは反復的なインタラクションを通じてガイダンスを提供する:

  1. ユーザーが現在のマスク mτm_τ を確認する
  2. クリック pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ) を配置する。ここで (iτ,jτ)(i_τ, j_τ) は座標、lτ{+,}l_τ \in \{+,-\} は前景/背景ラベルである
  3. ネットワークが ximgx_{img}mτm_τ および累積クリック p0:τp_{0:τ} に基づいて改善されたマスク mτ+1m_{τ+1} を生成する

モデルアーキテクチャ

ベースラインアーキテクチャ

  1. バックボーンネットワーク: DINOv2で事前訓練されたViT-Bを使用し、アノテーションデータの偏見を回避する
  2. 画像特徴抽出: fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}
  3. プロンプトエンコーディング: 正負のクリックを半径5ピクセルのディスクとしてエンコードし、クリックマップ m+,mm^+, m^- を生成する fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))
  4. 特徴融合: fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})
  5. マスクデコーディング: FPNおよびSegFormerデコーダを使用して最終マスクを生成する

SkipClick完全アーキテクチャ

  1. バックボーンネットワークの凍結: 過適合を防止し、汎化能力を維持する
  2. 多層特徴融合: ViTの第3、6、9、12層の特徴を使用する f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))
  3. スキップ接続: U-Netに類似した設計 f^i=Concat(f^mix,fi) for i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ for } i = 1,2,3,4

技術的革新点

  1. 後期融合戦略: 画像エンコーディングは1回のみ実行され、インタラクション後は軽量なマスク予測器のみを実行する
  2. マルチスケール特徴統合: 異なるレベルの特徴を組み合わせて細粒度情報を保持する
  3. スキップ接続設計: プロンプト統合後も中間特徴にアクセス可能であり、細かい構造を処理する
  4. 凍結戦略: バックボーンネットワークを凍結することで事前訓練モデルの汎化能力を維持する

実験設定

データセット

  1. 訓練データ: COCO+LVIS組み合わせデータセット(99k画像、150万マスク)
  2. 評価データセット:
    • WSESeg: 7452個のマスク、10個の冬季スポーツ装備カテゴリ
    • SHSeg: 534個のスキーヤーマスク、496枚の画像(新規提案)
    • HQSeg-44k: 高品質アノテーションデータセット
    • 汎用データセット: GrabCut, Berkeley, DAVIS, SBD

評価指標

  • NoC@θ: IoUしきい値θに達するために必要なクリック回数
  • 主要指標: NoC@85, NoC@90, NoC@95
  • 上限: 最大20回のクリック

実装詳細

  • オプティマイザ: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • 損失関数: Focal Loss
  • 訓練: 55エポック、エポックあたり30,000画像
  • 解像度: WSESeg/SHSeg/HQSeg-44kは896×896、DAVISは672×672
  • ランダムサンプリング: 初期最大24個のランダムポイント、反復訓練3ラウンド

実験結果

主要結果

WSESeg データセット性能

手法NoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • SAMと比較して2.336回のクリック削減(NoC@85)
  • HQ-SAMと比較して7.946回のクリック削減(NoC@85)

HQSeg-44k最先端結果達成

手法NoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

応答時間比較

  • SkipClick: 6.61ms(最速)
  • SAM: 15.01ms
  • HQ-SAM: 18.83ms
  • SAM + Schön et al.: 41.38ms

アブレーション実験

構成WSESeg平均NoC@85WSESeg平均NoC@90
ベースライン9.46312.031
+バックボーン凍結9.41611.951
+中間特徴7.28510.344
+スキップ接続6.4949.163

主要な知見:

  1. バックボーンネットワーク凍結: わずかな改善(9.463→9.416)
  2. 中間特徴融合: 顕著な改善(9.416→7.285)
  3. スキップ接続: さらなる改善(7.285→6.494)

汎化能力検証

汎用データセット上の性能により、モデルが冬季スポーツ領域に過適合していないことが証明される:

データセット完全SkipClick NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

関連研究

スポーツセグメンテーション応用

  • サッカー、バスケットボール選手セグメンテーション3,9
  • フェンシング剣先追跡およびセグメンテーション40
  • スキー装備キーポイント検出31,32

インタラクティブセグメンテーション発展

  1. 早期融合手法: RITM44, FocalClick2, SimpleClick28 - 品質は良いが応答が遅い
  2. 後期融合手法: SAM20, InterFormer15 - 応答は速いが品質を犠牲にする可能性がある
  3. ドメイン適応: オンライン適応手法22,23,41,42

結論と考察

主要な結論

  1. SkipClickは冬季スポーツ装備セグメンテーションタスクでSAMおよびHQ-SAMを大幅に上回る性能を示す
  2. 多層特徴融合およびスキップ接続は細かい構造の処理に不可欠である
  3. 事前訓練されたバックボーンネットワークの凍結は汎化能力の維持に有効である
  4. 汎用データセット上での競争力のある性能により、良好な汎化性が証明される

限界

  1. データセットスケール: 訓練データはSAMのSA-1Bデータセットと比較して小規模である
  2. 領域特異性: 汎化能力は証明されているが、主に冬季スポーツシーンに最適化されている
  3. 計算リソース: ViT-Bバックボーンネットワークが必要であり、計算リソースに一定の要求がある

今後の方向性

  1. より多くのスポーツ領域のセグメンテーションタスクへの拡張
  2. より軽量なアーキテクチャ設計の探索
  3. より効率的なユーザーインタラクション方式の研究

深い評価

長所

  1. 実用価値が高い: 実際のアプリケーションにおける応答速度とセグメンテーション品質のバランスの問題を解決している
  2. 技術的革新: 多層特徴とスキップ接続を巧みに組み合わせ、細かい構造を効果的に処理している
  3. 実験が充分: 詳細なアブレーション実験と複数データセット検証を含む
  4. データセット貢献: SHSegデータセットはスキーヤーセグメンテーションの空白を埋める
  5. 汎化検証: 複数の汎用データセット上で手法の普遍性を検証している

不足点

  1. 理論分析: 多層特徴融合が有効である理由についての深い理論分析が不足している
  2. ユーザー研究: 実際のユーザー使用体験の評価が不足している
  3. 境界ケース: 極端な天気や照明条件下での性能分析が不足している
  4. 比較の限定性: 主にSAMシリーズとの比較であり、他の後期融合手法との比較が不足している

影響力

  1. 学術的価値: 特定領域のインタラクティブセグメンテーションに対する有効なソリューションを提供している
  2. 実用的価値: スポーツ分析、ビデオアノテーションなどのアプリケーションで直接的な価値を有する
  3. 再現性: 詳細な実装詳細とコード公開の約束により再現性が確保されている

適用シーン

  1. スポーツビデオ分析: 特に冬季スポーツ装備および人員の精密なセグメンテーションに適している
  2. ビデオアノテーションツール: ビデオアノテーションシステムに統合して効率を向上させることができる
  3. 細かい構造セグメンテーション: 複雑な境界を処理する必要があるセグメンテーションタスクに適している
  4. リアルタイムアプリケーション: 迅速な応答特性により、インタラクティブなアプリケーションに適している

参考文献

論文は46篇の関連文献を引用しており、主なものは以下の通りである:

  • 20 SAM: Segment Anything Model
  • 18 HQ-SAM: Segment Anything in High Quality
  • 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
  • 41 WSESeg データセット関連研究
  • 44 RITM: Reviving Iterative Training with Mask Guidance

総合評価: これは計算機視覚分野の高品質な論文であり、冬季スポーツという特定だが重要なアプリケーションシーンに対して、有効なインタラクティブセグメンテーションソリューションを提案している。技術方案は合理的であり、実験検証は充分であり、良好な実用的価値と学術的貢献を有している。