2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick : Combinaison de Réponses Rapides et de Caractéristiques de Bas Niveau pour la Segmentation Interactive dans les Contextes des Sports d'Hiver

Informations Fondamentales

  • ID de l'article : 2501.07960
  • Titre : SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • Auteurs : Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • Institution d'affiliation : Université d'Augsbourg, Allemagne
  • Classification : cs.CV (Vision par Ordinateur)
  • Date de publication : Janvier 2025
  • Lien de l'article : https://arxiv.org/abs/2501.07960

Résumé

Cet article propose une nouvelle architecture de segmentation interactive SkipClick spécialement conçue pour les scènes de sports d'hiver. La segmentation interactive prédit des masques de segmentation de haute qualité guidés par les utilisateurs, en utilisant des clics comme méthode de guidage. Les auteurs proposent d'abord une architecture de base pour les réponses rapides après les clics, puis décrivent plusieurs améliorations architecturales pour améliorer les performances de segmentation des équipements de sports d'hiver sur l'ensemble de données WSESeg. Sur la métrique NoC@85 moyenne pour les catégories WSESeg, la méthode réduit respectivement de 2,336 et 7,946 clics par rapport à SAM et HQ-SAM. Sur l'ensemble de données HQSeg-44k, le système atteint des résultats de pointe avec NoC@90 = 6,00 et NoC@95 = 9,89. De plus, les auteurs testent le modèle sur un nouvel ensemble de données de segmentation de skieurs proposé.

Contexte et Motivation de la Recherche

Définition du Problème

  1. Problème central : Dans les scènes de sports d'hiver, il est nécessaire de localiser précisément les athlètes et les équipements associés, en particulier la segmentation des équipements de sport devient de plus en plus importante
  2. Défis d'annotation : L'annotation des masques de segmentation est chronophage et difficile, particulièrement pour les structures fines
  3. Spécificité du domaine : Les équipements de sports d'hiver apparaissent rarement dans les ensembles de données génériques, posant des problèmes d'adaptation de domaine

Importance

  • Demande croissante de localisation précise des équipements dans l'analyse sportive
  • La segmentation interactive peut réduire considérablement le temps d'annotation manuelle
  • Les scènes de sports d'hiver présentent des caractéristiques visuelles uniques (paysages enneigés, structures d'équipement fines)

Limitations des Méthodes Existantes

  1. Problèmes de SAM : Bien qu'entraîné sur l'ensemble de données SA-1B (1,1 milliard de masques), il manque de capacité de généralisation dans le domaine des équipements de sports d'hiver
  2. Temps de réponse : Les méthodes de fusion précoce nécessitent de réexécuter l'ensemble du réseau, ce qui est lent
  3. Traitement des détails : Les méthodes existantes ont du mal à traiter les structures fines des équipements de sports d'hiver

Contributions Principales

  1. Modèle de segmentation interactive en temps réel : Propose un modèle capable de segmenter dans des domaines spécialisés tels que les sports d'hiver, en se concentrant particulièrement sur le traitement des structures fines dans les images
  2. Innovation architecturale : Valide les performances du modèle sur l'ensemble de données WSESeg par des expériences d'ablation, surpassant même SAM entraîné sur des ensembles de données plus volumineux
  3. Capacité de généralisation : Démontre que le modèle ne surapprentissage pas au domaine des sports d'hiver et présente des performances compétitives sur les ensembles de données d'images de consommateurs génériques
  4. Nouvel ensemble de données : Propose l'ensemble de données SHSeg (Ski Human Segmentation) contenant 534 masques de segmentation et 496 images

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de segmentation interactive est définie comme suit : étant donné une image ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3}, l'objectif est de créer un masque de segmentation de haute qualité m{0,1}H×Wm \in \{0,1\}^{H×W}, où 1 représente l'objet cible et 0 représente l'arrière-plan.

L'utilisateur fournit des conseils par le biais d'interactions itératives :

  1. L'utilisateur examine le masque actuel mτm_τ
  2. Place un clic pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ), où (iτ,jτ)(i_τ, j_τ) sont les coordonnées et lτ{+,}l_τ \in \{+,-\} est l'étiquette avant-plan/arrière-plan
  3. Le réseau génère un masque amélioré mτ+1m_{τ+1} basé sur ximgx_{img}, mτm_τ et les clics accumulés p0:τp_{0:τ}

Architecture du Modèle

Architecture de Base

  1. Réseau de base : Utilise ViT-B pré-entraîné avec DINOv2, évitant les biais des données annotées
  2. Extraction de caractéristiques d'image : fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}
  3. Codage des invites : Encode les clics positifs et négatifs sous forme de disques de rayon 5 pixels, générant des cartes de clic m+,mm^+, m^-fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))
  4. Fusion de caractéristiques : fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})
  5. Décodage de masque : Utilise un décodeur FPN et SegFormer pour générer le masque final

Architecture Complète de SkipClick

  1. Gel du réseau de base : Prévient le surapprentissage et maintient la capacité de généralisation
  2. Fusion de caractéristiques multi-couches : Utilise les caractéristiques des couches 3, 6, 9, 12 du ViT f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))
  3. Connexions de saut : Conception similaire à U-Net f^i=Concat(f^mix,fi) pour i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ pour } i = 1,2,3,4

Points d'Innovation Technique

  1. Stratégie de fusion tardive : L'encodage d'image n'est exécuté qu'une seule fois, seul un prédicteur de masque léger s'exécute après l'interaction
  2. Intégration de caractéristiques multi-échelles : Combine les caractéristiques de différents niveaux pour préserver les informations à grain fin
  3. Conception des connexions de saut : Accède toujours aux caractéristiques intermédiaires après l'intégration des invites, traitant les structures fines
  4. Stratégie de gel : Maintient la capacité de généralisation du modèle pré-entraîné en gelant le réseau de base

Configuration Expérimentale

Ensembles de Données

  1. Données d'entraînement : Ensemble de données combiné COCO+LVIS (99k images, 1,5 million de masques)
  2. Ensembles de données d'évaluation :
    • WSESeg : 7452 masques, 10 catégories d'équipements de sports d'hiver
    • SHSeg : 534 masques de skieurs, 496 images (nouvellement proposé)
    • HQSeg-44k : Ensemble de données d'annotation haute qualité
    • Ensembles de données génériques : GrabCut, Berkeley, DAVIS, SBD

Métriques d'Évaluation

  • NoC@θ : Nombre de clics nécessaires pour atteindre le seuil IoU θ
  • Métriques principales : NoC@85, NoC@90, NoC@95
  • Limite supérieure : Maximum 20 clics

Détails d'Implémentation

  • Optimiseur : Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • Fonction de perte : Focal Loss
  • Entraînement : 55 epochs, 30 000 images par epoch
  • Résolution : 896×896 pour WSESeg/SHSeg/HQSeg-44k, 672×672 pour DAVIS
  • Échantillonnage aléatoire : Jusqu'à 24 points aléatoires initialement, 3 tours d'entraînement itératif

Résultats Expérimentaux

Résultats Principaux

Performance sur l'Ensemble de Données WSESeg

MéthodeNoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • Réduit de 2,336 clics par rapport à SAM (NoC@85)
  • Réduit de 7,946 clics par rapport à HQ-SAM (NoC@85)

Atteint l'État de l'Art sur HQSeg-44k

MéthodeNoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

Comparaison du Temps de Réponse

  • SkipClick : 6,61 ms (le plus rapide)
  • SAM : 15,01 ms
  • HQ-SAM : 18,83 ms
  • SAM + Schön et al. : 41,38 ms

Expériences d'Ablation

ConfigurationWSESeg NoC@85 MoyenWSESeg NoC@90 Moyen
Ligne de base9.46312.031
+Gel du réseau de base9.41611.951
+Caractéristiques intermédiaires7.28510.344
+Connexions de saut6.4949.163

Conclusions clés :

  1. Gel du réseau de base : Amélioration légère (9.463→9.416)
  2. Fusion de caractéristiques intermédiaires : Amélioration significative (9.416→7.285)
  3. Connexions de saut : Amélioration supplémentaire (7.285→6.494)

Vérification de la Capacité de Généralisation

Les performances sur les ensembles de données génériques prouvent que le modèle ne surapprentissage pas au domaine des sports d'hiver :

Ensemble de DonnéesSkipClick Complet NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

Travaux Connexes

Applications de Segmentation Sportive

  • Segmentation de joueurs de football et de basket-ball 3,9
  • Suivi et segmentation de la pointe d'épée en escrime 40
  • Détection de points clés d'équipements de ski 31,32

Évolution de la Segmentation Interactive

  1. Méthodes de fusion précoce : RITM44, FocalClick2, SimpleClick28 - Bonne qualité mais réponse lente
  2. Méthodes de fusion tardive : SAM20, InterFormer15 - Réponse rapide mais peut sacrifier la qualité
  3. Adaptation de domaine : Méthodes d'adaptation en ligne 22,23,41,42

Conclusions et Discussion

Conclusions Principales

  1. SkipClick surpasse significativement SAM et HQ-SAM dans la tâche de segmentation d'équipements de sports d'hiver
  2. La fusion de caractéristiques multi-couches et les connexions de saut sont cruciales pour traiter les structures fines
  3. Le gel du réseau de base pré-entraîné aide à maintenir la capacité de généralisation
  4. Les performances du modèle sur les ensembles de données génériques sont compétitives, démontrant une bonne généralisation

Limitations

  1. Taille de l'ensemble de données : Les données d'entraînement sont plus petites que l'ensemble de données SA-1B de SAM
  2. Spécificité du domaine : Bien que la généralisation soit démontrée, l'optimisation est principalement orientée vers les scènes de sports d'hiver
  3. Ressources de calcul : Nécessite un réseau de base ViT-B, imposant certaines exigences en ressources de calcul

Directions Futures

  1. Extension à davantage de tâches de segmentation dans d'autres domaines sportifs
  2. Exploration de conceptions architecturales plus légères
  3. Recherche de modes d'interaction utilisateur plus efficaces

Évaluation Approfondie

Points Forts

  1. Valeur pratique élevée : Résout le problème d'équilibre entre la vitesse de réponse et la qualité de segmentation dans les applications réelles
  2. Innovation technique : Combine intelligemment les caractéristiques multi-couches et les connexions de saut, traitant efficacement les structures fines
  3. Expériences complètes : Inclut des expériences d'ablation détaillées et une validation multi-ensembles de données
  4. Contribution d'ensemble de données : L'ensemble de données SHSeg comble le vide dans la segmentation de skieurs
  5. Vérification de généralisation : Valide la généralité de la méthode sur plusieurs ensembles de données génériques

Insuffisances

  1. Analyse théorique : Manque d'analyse théorique approfondie sur les raisons pour lesquelles la fusion de caractéristiques multi-couches est efficace
  2. Études utilisateur : Absence d'évaluation de l'expérience utilisateur réelle
  3. Cas limites : Analyse insuffisante des performances dans des conditions météorologiques ou d'éclairage extrêmes
  4. Comparaisons limitées : Comparaisons principalement avec la série SAM, manquant de comparaisons avec d'autres méthodes de fusion tardive

Impact

  1. Valeur académique : Fournit une solution efficace pour la segmentation interactive dans des domaines spécifiques
  2. Valeur pratique : Possède une valeur directe dans l'analyse vidéo sportive, l'annotation vidéo et d'autres applications
  3. Reproductibilité : Fournit des détails d'implémentation détaillés et s'engage à publier le code

Scénarios d'Application

  1. Analyse vidéo sportive : Particulièrement adaptée à la segmentation précise des équipements et du personnel des sports d'hiver
  2. Outils d'annotation vidéo : Peut être intégré dans les systèmes d'annotation vidéo pour améliorer l'efficacité
  3. Segmentation de structures fines : Applicable aux tâches de segmentation nécessitant le traitement de frontières complexes
  4. Applications en temps réel : Les caractéristiques de réponse rapide la rendent adaptée aux applications interactives

Références

L'article cite 46 références connexes, incluant principalement :

  • 20 SAM : Segment Anything Model
  • 18 HQ-SAM : Segment Anything in High Quality
  • 28 SimpleClick : Interactive Image Segmentation with Simple Vision Transformers
  • 41 Travaux connexes sur l'ensemble de données WSESeg
  • 44 RITM : Reviving Iterative Training with Mask Guidance

Évaluation Globale : Ceci est un article de haute qualité en vision par ordinateur qui propose une solution efficace de segmentation interactive pour le scénario d'application spécifique mais important des sports d'hiver. L'approche technique est raisonnable, la validation expérimentale est complète, et elle possède une excellente valeur pratique et une contribution académique.