2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

SchÃ¶n, Lorenz, Kienzle et al.

In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.

academic

SkipClick : Combinaison de Réponses Rapides et de Caractéristiques de Bas Niveau pour la Segmentation Interactive dans les Contextes des Sports d'Hiver

Informations Fondamentales

ID de l'article : 2501.07960
Titre : SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
Auteurs : Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
Institution d'affiliation : Université d'Augsbourg, Allemagne
Classification : cs.CV (Vision par Ordinateur)
Date de publication : Janvier 2025
Lien de l'article : https://arxiv.org/abs/2501.07960

Résumé

Cet article propose une nouvelle architecture de segmentation interactive SkipClick spécialement conçue pour les scènes de sports d'hiver. La segmentation interactive prédit des masques de segmentation de haute qualité guidés par les utilisateurs, en utilisant des clics comme méthode de guidage. Les auteurs proposent d'abord une architecture de base pour les réponses rapides après les clics, puis décrivent plusieurs améliorations architecturales pour améliorer les performances de segmentation des équipements de sports d'hiver sur l'ensemble de données WSESeg. Sur la métrique NoC@85 moyenne pour les catégories WSESeg, la méthode réduit respectivement de 2,336 et 7,946 clics par rapport à SAM et HQ-SAM. Sur l'ensemble de données HQSeg-44k, le système atteint des résultats de pointe avec NoC@90 = 6,00 et NoC@95 = 9,89. De plus, les auteurs testent le modèle sur un nouvel ensemble de données de segmentation de skieurs proposé.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central : Dans les scènes de sports d'hiver, il est nécessaire de localiser précisément les athlètes et les équipements associés, en particulier la segmentation des équipements de sport devient de plus en plus importante
Défis d'annotation : L'annotation des masques de segmentation est chronophage et difficile, particulièrement pour les structures fines
Spécificité du domaine : Les équipements de sports d'hiver apparaissent rarement dans les ensembles de données génériques, posant des problèmes d'adaptation de domaine

Importance

Demande croissante de localisation précise des équipements dans l'analyse sportive
La segmentation interactive peut réduire considérablement le temps d'annotation manuelle
Les scènes de sports d'hiver présentent des caractéristiques visuelles uniques (paysages enneigés, structures d'équipement fines)

Limitations des Méthodes Existantes

Problèmes de SAM : Bien qu'entraîné sur l'ensemble de données SA-1B (1,1 milliard de masques), il manque de capacité de généralisation dans le domaine des équipements de sports d'hiver
Temps de réponse : Les méthodes de fusion précoce nécessitent de réexécuter l'ensemble du réseau, ce qui est lent
Traitement des détails : Les méthodes existantes ont du mal à traiter les structures fines des équipements de sports d'hiver

Contributions Principales

Modèle de segmentation interactive en temps réel : Propose un modèle capable de segmenter dans des domaines spécialisés tels que les sports d'hiver, en se concentrant particulièrement sur le traitement des structures fines dans les images
Innovation architecturale : Valide les performances du modèle sur l'ensemble de données WSESeg par des expériences d'ablation, surpassant même SAM entraîné sur des ensembles de données plus volumineux
Capacité de généralisation : Démontre que le modèle ne surapprentissage pas au domaine des sports d'hiver et présente des performances compétitives sur les ensembles de données d'images de consommateurs génériques
Nouvel ensemble de données : Propose l'ensemble de données SHSeg (Ski Human Segmentation) contenant 534 masques de segmentation et 496 images

Explication Détaillée de la Méthode

Définition de la Tâche

La tâche de segmentation interactive est définie comme suit : étant donné une image $x_{img} \in \mathbb{R}^{H×W×3}$ , l'objectif est de créer un masque de segmentation de haute qualité $m \in \{0,1\}^{H×W}$ , où 1 représente l'objet cible et 0 représente l'arrière-plan.

L'utilisateur fournit des conseils par le biais d'interactions itératives :

L'utilisateur examine le masque actuel $m_τ$
Place un clic $p_τ = (i_τ, j_τ, l_τ)$ , où $(i_τ, j_τ)$ sont les coordonnées et $l_τ \in \{+,-\}$ est l'étiquette avant-plan/arrière-plan
Le réseau génère un masque amélioré $m_{τ+1}$ basé sur $x_{img}$ , $m_τ$ et les clics accumulés $p_{0:τ}$

Architecture du Modèle

Architecture de Base

Réseau de base : Utilise ViT-B pré-entraîné avec DINOv2, évitant les biais des données annotées
Extraction de caractéristiques d'image : $f_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}$
Codage des invites : Encode les clics positifs et négatifs sous forme de disques de rayon 5 pixels, générant des cartes de clic $m^+, m^-$ $f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))$
Fusion de caractéristiques : $f_{mix} = f_{img} + f_{prompt}$ $\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})$
Décodage de masque : Utilise un décodeur FPN et SegFormer pour générer le masque final

Architecture Complète de SkipClick

Gel du réseau de base : Prévient le surapprentissage et maintient la capacité de généralisation
Fusion de caractéristiques multi-couches : Utilise les caractéristiques des couches 3, 6, 9, 12 du ViT $f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})$ $f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))$
Connexions de saut : Conception similaire à U-Net $\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ pour } i = 1,2,3,4$

Points d'Innovation Technique

Stratégie de fusion tardive : L'encodage d'image n'est exécuté qu'une seule fois, seul un prédicteur de masque léger s'exécute après l'interaction
Intégration de caractéristiques multi-échelles : Combine les caractéristiques de différents niveaux pour préserver les informations à grain fin
Conception des connexions de saut : Accède toujours aux caractéristiques intermédiaires après l'intégration des invites, traitant les structures fines
Stratégie de gel : Maintient la capacité de généralisation du modèle pré-entraîné en gelant le réseau de base

Configuration Expérimentale

Ensembles de Données

Données d'entraînement : Ensemble de données combiné COCO+LVIS (99k images, 1,5 million de masques)
Ensembles de données d'évaluation :
- WSESeg : 7452 masques, 10 catégories d'équipements de sports d'hiver
- SHSeg : 534 masques de skieurs, 496 images (nouvellement proposé)
- HQSeg-44k : Ensemble de données d'annotation haute qualité
- Ensembles de données génériques : GrabCut, Berkeley, DAVIS, SBD

Métriques d'Évaluation

NoC@θ : Nombre de clics nécessaires pour atteindre le seuil IoU θ
Métriques principales : NoC@85, NoC@90, NoC@95
Limite supérieure : Maximum 20 clics

Détails d'Implémentation

Optimiseur : Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
Fonction de perte : Focal Loss
Entraînement : 55 epochs, 30 000 images par epoch
Résolution : 896×896 pour WSESeg/SHSeg/HQSeg-44k, 672×672 pour DAVIS
Échantillonnage aléatoire : Jusqu'à 24 points aléatoires initialement, 3 tours d'entraînement itératif

Résultats Expérimentaux

Résultats Principaux

Performance sur l'Ensemble de Données WSESeg

Méthode	NoC@85	NoC@90
SAM	8.83	11.86
HQ-SAM	14.44	16.31
SkipClick	6.49	9.16

Réduit de 2,336 clics par rapport à SAM (NoC@85)
Réduit de 7,946 clics par rapport à HQ-SAM (NoC@85)

Atteint l'État de l'Art sur HQSeg-44k

Méthode	NoC@90	NoC@95
HQ-SAM	6.49	10.79
SkipClick	6.00	9.89

Comparaison du Temps de Réponse

SkipClick : 6,61 ms (le plus rapide)
SAM : 15,01 ms
HQ-SAM : 18,83 ms
SAM + Schön et al. : 41,38 ms

Expériences d'Ablation

Configuration	WSESeg NoC@85 Moyen	WSESeg NoC@90 Moyen
Ligne de base	9.463	12.031
+Gel du réseau de base	9.416	11.951
+Caractéristiques intermédiaires	7.285	10.344
+Connexions de saut	6.494	9.163

Conclusions clés :

Gel du réseau de base : Amélioration légère (9.463→9.416)
Fusion de caractéristiques intermédiaires : Amélioration significative (9.416→7.285)
Connexions de saut : Amélioration supplémentaire (7.285→6.494)

Vérification de la Capacité de Généralisation

Les performances sur les ensembles de données génériques prouvent que le modèle ne surapprentissage pas au domaine des sports d'hiver :

Ensemble de Données	SkipClick Complet NoC@90
GrabCut	1.44
Berkeley	2.45
DAVIS	4.94
SBD	6.18

Travaux Connexes

Applications de Segmentation Sportive

Segmentation de joueurs de football et de basket-ball 3,9
Suivi et segmentation de la pointe d'épée en escrime 40
Détection de points clés d'équipements de ski 31,32

Évolution de la Segmentation Interactive

Méthodes de fusion précoce : RITM44, FocalClick2, SimpleClick28 - Bonne qualité mais réponse lente
Méthodes de fusion tardive : SAM20, InterFormer15 - Réponse rapide mais peut sacrifier la qualité
Adaptation de domaine : Méthodes d'adaptation en ligne 22,23,41,42

Conclusions et Discussion

Conclusions Principales

SkipClick surpasse significativement SAM et HQ-SAM dans la tâche de segmentation d'équipements de sports d'hiver
La fusion de caractéristiques multi-couches et les connexions de saut sont cruciales pour traiter les structures fines
Le gel du réseau de base pré-entraîné aide à maintenir la capacité de généralisation
Les performances du modèle sur les ensembles de données génériques sont compétitives, démontrant une bonne généralisation

Limitations

Taille de l'ensemble de données : Les données d'entraînement sont plus petites que l'ensemble de données SA-1B de SAM
Spécificité du domaine : Bien que la généralisation soit démontrée, l'optimisation est principalement orientée vers les scènes de sports d'hiver
Ressources de calcul : Nécessite un réseau de base ViT-B, imposant certaines exigences en ressources de calcul

Directions Futures

Extension à davantage de tâches de segmentation dans d'autres domaines sportifs
Exploration de conceptions architecturales plus légères
Recherche de modes d'interaction utilisateur plus efficaces

Évaluation Approfondie

Points Forts

Valeur pratique élevée : Résout le problème d'équilibre entre la vitesse de réponse et la qualité de segmentation dans les applications réelles
Innovation technique : Combine intelligemment les caractéristiques multi-couches et les connexions de saut, traitant efficacement les structures fines
Expériences complètes : Inclut des expériences d'ablation détaillées et une validation multi-ensembles de données
Contribution d'ensemble de données : L'ensemble de données SHSeg comble le vide dans la segmentation de skieurs
Vérification de généralisation : Valide la généralité de la méthode sur plusieurs ensembles de données génériques

Insuffisances

Analyse théorique : Manque d'analyse théorique approfondie sur les raisons pour lesquelles la fusion de caractéristiques multi-couches est efficace
Études utilisateur : Absence d'évaluation de l'expérience utilisateur réelle
Cas limites : Analyse insuffisante des performances dans des conditions météorologiques ou d'éclairage extrêmes
Comparaisons limitées : Comparaisons principalement avec la série SAM, manquant de comparaisons avec d'autres méthodes de fusion tardive

Impact

Valeur académique : Fournit une solution efficace pour la segmentation interactive dans des domaines spécifiques
Valeur pratique : Possède une valeur directe dans l'analyse vidéo sportive, l'annotation vidéo et d'autres applications
Reproductibilité : Fournit des détails d'implémentation détaillés et s'engage à publier le code

Scénarios d'Application

Analyse vidéo sportive : Particulièrement adaptée à la segmentation précise des équipements et du personnel des sports d'hiver
Outils d'annotation vidéo : Peut être intégré dans les systèmes d'annotation vidéo pour améliorer l'efficacité
Segmentation de structures fines : Applicable aux tâches de segmentation nécessitant le traitement de frontières complexes
Applications en temps réel : Les caractéristiques de réponse rapide la rendent adaptée aux applications interactives

Références

L'article cite 46 références connexes, incluant principalement :

20 SAM : Segment Anything Model
18 HQ-SAM : Segment Anything in High Quality
28 SimpleClick : Interactive Image Segmentation with Simple Vision Transformers
41 Travaux connexes sur l'ensemble de données WSESeg
44 RITM : Reviving Iterative Training with Mask Guidance

Évaluation Globale : Ceci est un article de haute qualité en vision par ordinateur qui propose une solution efficace de segmentation interactive pour le scénario d'application spécifique mais important des sports d'hiver. L'approche technique est raisonnable, la validation expérimentale est complète, et elle possède une excellente valeur pratique et une contribution académique.