2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick: Combinazione di Risposte Rapide e Caratteristiche di Basso Livello per la Segmentazione Interattiva nei Contesti degli Sport Invernali

Informazioni Fondamentali

  • ID Articolo: 2501.07960
  • Titolo: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • Autori: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • Istituzione: University of Augsburg, Germania
  • Classificazione: cs.CV (Computer Vision)
  • Data di Pubblicazione: Gennaio 2025
  • Link Articolo: https://arxiv.org/abs/2501.07960

Riassunto

Questo articolo propone una nuova architettura di segmentazione interattiva denominata SkipClick, specificamente progettata per scene di sport invernali. La segmentazione interattiva prevede maschere di segmentazione di alta qualità utilizzando informazioni guidate dall'utente, con clic come modalità di guida. Gli autori presentano inizialmente un'architettura di base specializzata per risposte rapide dopo i clic, quindi descrivono diversi miglioramenti architetturali per migliorare le prestazioni sulla segmentazione dell'equipaggiamento sportivo invernale nel dataset WSESeg. Sulla metrica NoC@85 media della categoria WSESeg, il metodo riduce rispettivamente di 2,336 e 7,946 clic rispetto a SAM e HQ-SAM. Sul dataset HQSeg-44k, il sistema raggiunge risultati all'avanguardia con NoC@90 di 6,00 e NoC@95 di 9,89. Inoltre, gli autori testano il modello su un dataset di segmentazione di sciatori appena proposto.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Nelle scene di sport invernali, è necessario localizzare con precisione gli atleti e l'equipaggiamento correlato, in particolare i compiti di segmentazione dell'equipaggiamento sportivo stanno diventando sempre più importanti
  2. Sfide di Annotazione: L'annotazione delle maschere di segmentazione è dispendiosa in termini di tempo e difficile, specialmente per strutture fini
  3. Specificità del Dominio: L'equipaggiamento sportivo invernale appare raramente nei dataset generici, presentando problemi di adattamento del dominio

Importanza

  • Crescente necessità di localizzazione precisa dell'equipaggiamento nell'analisi sportiva
  • La segmentazione interattiva può ridurre significativamente il tempo di annotazione manuale
  • Le scene di sport invernali presentano caratteristiche visive uniche (paesaggi nevosi, strutture di equipaggiamento fine)

Limitazioni dei Metodi Esistenti

  1. Problemi di SAM: Nonostante l'addestramento sul dataset SA-1B (1,1 miliardi di maschere), la capacità di generalizzazione nel dominio dell'equipaggiamento sportivo invernale è insufficiente
  2. Tempo di Risposta: I metodi di fusione anticipata richiedono l'esecuzione dell'intera rete, con risposta lenta
  3. Gestione dei Dettagli: I metodi esistenti hanno difficoltà nel gestire le strutture fini dell'equipaggiamento sportivo invernale

Contributi Principali

  1. Modello di Segmentazione Interattiva in Tempo Reale: Propone un modello in tempo reale in grado di eseguire la segmentazione in domini speciali come gli sport invernali, con particolare attenzione al trattamento delle strutture fini nelle immagini
  2. Innovazione Architetturale: Verifica le prestazioni del modello sul dataset WSESeg attraverso esperimenti di ablazione, superando persino SAM addestrato su dataset più grandi
  3. Capacità di Generalizzazione: Dimostra che il modello non è sovradattato al dominio degli sport invernali, mostrando prestazioni competitive su dataset generici di immagini consumer
  4. Nuovo Dataset: Propone il dataset SHSeg (Ski Human Segmentation), contenente 534 maschere di segmentazione e 496 immagini

Dettagli del Metodo

Definizione del Compito

Il compito di segmentazione interattiva è definito come: dato un'immagine ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3}, l'obiettivo è creare una maschera di segmentazione di alta qualità m{0,1}H×Wm \in \{0,1\}^{H×W}, dove 1 rappresenta l'oggetto target e 0 rappresenta lo sfondo.

L'utente fornisce guida attraverso interazioni iterative:

  1. L'utente esamina la maschera corrente mτm_τ
  2. Posiziona un clic pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ), dove (iτ,jτ)(i_τ, j_τ) sono le coordinate e lτ{+,}l_τ \in \{+,-\} è l'etichetta primo piano/sfondo
  3. La rete genera una maschera migliorata mτ+1m_{τ+1} basata su ximgx_{img}, mτm_τ e i clic cumulativi p0:τp_{0:τ}

Architettura del Modello

Architettura di Base

  1. Rete Backbone: Utilizza ViT-B preaddestrato con DINOv2, evitando distorsioni dai dati annotati
  2. Estrazione delle Caratteristiche dell'Immagine: fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}
  3. Codifica del Prompt: Codifica i clic positivi e negativi come dischi di raggio 5 pixel, generando mappe di clic m+,mm^+, m^-fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))
  4. Fusione delle Caratteristiche: fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})
  5. Decodifica della Maschera: Utilizza un decoder FPN e SegFormer per generare la maschera finale

Architettura Completa di SkipClick

  1. Congelamento della Rete Backbone: Previene l'overfitting, mantenendo la capacità di generalizzazione
  2. Fusione Multi-Livello delle Caratteristiche: Utilizza caratteristiche dai livelli 3, 6, 9, 12 del ViT f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))
  3. Connessioni di Salto: Design simile a U-Net f^i=Concat(f^mix,fi) per i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ per } i = 1,2,3,4

Punti di Innovazione Tecnica

  1. Strategia di Fusione Tardiva: La codifica dell'immagine viene eseguita una sola volta, dopo l'interazione viene eseguito solo il predittore di maschera leggero
  2. Integrazione Multi-Scala delle Caratteristiche: Combina caratteristiche di diversi livelli per preservare informazioni a grana fine
  3. Design delle Connessioni di Salto: Accede ancora alle caratteristiche intermedie dopo l'integrazione del prompt, gestendo strutture fini
  4. Strategia di Congelamento: Mantiene la capacità di generalizzazione del modello preaddestrato congelando la rete backbone

Configurazione Sperimentale

Dataset

  1. Dati di Addestramento: Dataset combinato COCO+LVIS (99k immagini, 1,5 milioni di maschere)
  2. Dataset di Valutazione:
    • WSESeg: 7452 maschere, 10 categorie di equipaggiamento sportivo invernale
    • SHSeg: 534 maschere di sciatori, 496 immagini (appena proposto)
    • HQSeg-44k: Dataset con annotazioni di alta qualità
    • Dataset Generici: GrabCut, Berkeley, DAVIS, SBD

Metriche di Valutazione

  • NoC@θ: Numero di clic necessari per raggiungere la soglia IoU θ
  • Metriche Principali: NoC@85, NoC@90, NoC@95
  • Limite Massimo: Massimo 20 clic

Dettagli di Implementazione

  • Ottimizzatore: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • Funzione di Perdita: Focal Loss
  • Addestramento: 55 epoch, 30.000 immagini per epoch
  • Risoluzione: 896×896 per WSESeg/SHSeg/HQSeg-44k, 672×672 per DAVIS
  • Campionamento Casuale: Massimo 24 punti casuali iniziali, addestramento iterativo per 3 round

Risultati Sperimentali

Risultati Principali

Prestazioni sul Dataset WSESeg

MetodoNoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • Riduce di 2,336 clic rispetto a SAM (NoC@85)
  • Riduce di 7,946 clic rispetto a HQ-SAM (NoC@85)

Raggiungimento dello SOTA su HQSeg-44k

MetodoNoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

Confronto del Tempo di Risposta

  • SkipClick: 6.61ms (il più veloce)
  • SAM: 15.01ms
  • HQ-SAM: 18.83ms
  • SAM + Schön et al.: 41.38ms

Esperimenti di Ablazione

ConfigurazioneWSESeg NoC@85 MedioWSESeg NoC@90 Medio
Base9.46312.031
+Congelamento Backbone9.41611.951
+Caratteristiche Intermedie7.28510.344
+Connessioni di Salto6.4949.163

Scoperte Chiave:

  1. Congelamento della Rete Backbone: Miglioramento lieve (9.463→9.416)
  2. Fusione delle Caratteristiche Intermedie: Miglioramento significativo (9.416→7.285)
  3. Connessioni di Salto: Ulteriore miglioramento (7.285→6.494)

Verifica della Capacità di Generalizzazione

Le prestazioni su dataset generici dimostrano che il modello non è sovradattato al dominio degli sport invernali:

DatasetSkipClick Completo NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

Lavori Correlati

Applicazioni di Segmentazione Sportiva

  • Segmentazione di atleti di calcio e pallacanestro3,9
  • Tracciamento e segmentazione della punta di spada nella scherma40
  • Rilevamento di punti chiave dell'equipaggiamento da sci31,32

Sviluppo della Segmentazione Interattiva

  1. Metodi di Fusione Anticipata: RITM44, FocalClick2, SimpleClick28 - Buona qualità ma risposta lenta
  2. Metodi di Fusione Tardiva: SAM20, InterFormer15 - Risposta veloce ma potrebbe sacrificare la qualità
  3. Adattamento del Dominio: Metodi di adattamento online22,23,41,42

Conclusioni e Discussione

Conclusioni Principali

  1. SkipClick supera significativamente SAM e HQ-SAM nel compito di segmentazione dell'equipaggiamento sportivo invernale
  2. La fusione multi-livello delle caratteristiche e le connessioni di salto sono cruciali per gestire strutture fini
  3. Il congelamento della rete backbone preaddestrata aiuta a mantenere la capacità di generalizzazione
  4. Le prestazioni del modello su dataset generici sono competitive, dimostrando una buona generalizzazione

Limitazioni

  1. Dimensione del Dataset: I dati di addestramento sono più piccoli rispetto al dataset SA-1B di SAM
  2. Specificità del Dominio: Sebbene sia dimostrata la capacità di generalizzazione, è principalmente ottimizzato per scene di sport invernali
  3. Risorse Computazionali: Richiede una rete backbone ViT-B, con alcuni requisiti di risorse computazionali

Direzioni Future

  1. Estensione a compiti di segmentazione in più domini sportivi
  2. Esplorazione di design architetturali più leggeri
  3. Ricerca di modalità di interazione utente più efficienti

Valutazione Approfondita

Punti di Forza

  1. Alto Valore Pratico: Risolve il problema del bilanciamento tra velocità di risposta e qualità di segmentazione nelle applicazioni pratiche
  2. Innovazione Tecnica: Combina abilmente caratteristiche multi-livello e connessioni di salto, gestendo efficacemente strutture fini
  3. Esperimenti Completi: Include esperimenti di ablazione dettagliati e validazione su più dataset
  4. Contributo di Dataset: Il dataset SHSeg colma il vuoto nella segmentazione degli sciatori
  5. Verifica della Generalizzazione: Valida l'universalità del metodo su più dataset generici

Insufficienze

  1. Analisi Teorica: Manca un'analisi teorica approfondita sul perché la fusione multi-livello delle caratteristiche sia efficace
  2. Ricerca Utente: Manca la valutazione dell'esperienza utente reale
  3. Casi Limite: Analisi insufficiente delle prestazioni in condizioni meteorologiche o di illuminazione estreme
  4. Confronti Limitati: Principalmente confronti con la serie SAM, mancano confronti con altri metodi di fusione tardiva

Impatto

  1. Valore Accademico: Fornisce una soluzione efficace per la segmentazione interattiva in domini specifici
  2. Valore Pratico: Ha valore diretto in applicazioni come l'analisi di video sportivi e l'annotazione di video
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impegno di codice

Scenari Applicabili

  1. Analisi di Video Sportivi: Particolarmente adatto per la segmentazione precisa di equipaggiamento e personale negli sport invernali
  2. Strumenti di Annotazione Video: Può essere integrato in sistemi di annotazione video per migliorare l'efficienza
  3. Segmentazione di Strutture Fini: Adatto a compiti di segmentazione che richiedono la gestione di confini complessi
  4. Applicazioni in Tempo Reale: Le caratteristiche di risposta veloce lo rendono adatto per applicazioni interattive

Riferimenti Bibliografici

L'articolo cita 46 lavori correlati, principalmente includendo:

  • 20 SAM: Segment Anything Model
  • 18 HQ-SAM: Segment Anything in High Quality
  • 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
  • 41 Lavori correlati al dataset WSESeg
  • 44 RITM: Reviving Iterative Training with Mask Guidance

Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della computer vision, che propone una soluzione efficace di segmentazione interattiva per uno scenario applicativo specifico ma importante: gli sport invernali. L'approccio tecnico è razionale, la verifica sperimentale è completa e possiede un buon valore pratico e contributi accademici.