In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
- ID de l'article : 2501.07960
- Titre : SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
- Auteurs : Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
- Institution d'affiliation : Université d'Augsbourg, Allemagne
- Classification : cs.CV (Vision par Ordinateur)
- Date de publication : Janvier 2025
- Lien de l'article : https://arxiv.org/abs/2501.07960
Cet article propose une nouvelle architecture de segmentation interactive SkipClick spécialement conçue pour les scènes de sports d'hiver. La segmentation interactive prédit des masques de segmentation de haute qualité guidés par les utilisateurs, en utilisant des clics comme méthode de guidage. Les auteurs proposent d'abord une architecture de base pour les réponses rapides après les clics, puis décrivent plusieurs améliorations architecturales pour améliorer les performances de segmentation des équipements de sports d'hiver sur l'ensemble de données WSESeg. Sur la métrique NoC@85 moyenne pour les catégories WSESeg, la méthode réduit respectivement de 2,336 et 7,946 clics par rapport à SAM et HQ-SAM. Sur l'ensemble de données HQSeg-44k, le système atteint des résultats de pointe avec NoC@90 = 6,00 et NoC@95 = 9,89. De plus, les auteurs testent le modèle sur un nouvel ensemble de données de segmentation de skieurs proposé.
- Problème central : Dans les scènes de sports d'hiver, il est nécessaire de localiser précisément les athlètes et les équipements associés, en particulier la segmentation des équipements de sport devient de plus en plus importante
- Défis d'annotation : L'annotation des masques de segmentation est chronophage et difficile, particulièrement pour les structures fines
- Spécificité du domaine : Les équipements de sports d'hiver apparaissent rarement dans les ensembles de données génériques, posant des problèmes d'adaptation de domaine
- Demande croissante de localisation précise des équipements dans l'analyse sportive
- La segmentation interactive peut réduire considérablement le temps d'annotation manuelle
- Les scènes de sports d'hiver présentent des caractéristiques visuelles uniques (paysages enneigés, structures d'équipement fines)
- Problèmes de SAM : Bien qu'entraîné sur l'ensemble de données SA-1B (1,1 milliard de masques), il manque de capacité de généralisation dans le domaine des équipements de sports d'hiver
- Temps de réponse : Les méthodes de fusion précoce nécessitent de réexécuter l'ensemble du réseau, ce qui est lent
- Traitement des détails : Les méthodes existantes ont du mal à traiter les structures fines des équipements de sports d'hiver
- Modèle de segmentation interactive en temps réel : Propose un modèle capable de segmenter dans des domaines spécialisés tels que les sports d'hiver, en se concentrant particulièrement sur le traitement des structures fines dans les images
- Innovation architecturale : Valide les performances du modèle sur l'ensemble de données WSESeg par des expériences d'ablation, surpassant même SAM entraîné sur des ensembles de données plus volumineux
- Capacité de généralisation : Démontre que le modèle ne surapprentissage pas au domaine des sports d'hiver et présente des performances compétitives sur les ensembles de données d'images de consommateurs génériques
- Nouvel ensemble de données : Propose l'ensemble de données SHSeg (Ski Human Segmentation) contenant 534 masques de segmentation et 496 images
La tâche de segmentation interactive est définie comme suit : étant donné une image ximg∈RH×W×3, l'objectif est de créer un masque de segmentation de haute qualité m∈{0,1}H×W, où 1 représente l'objet cible et 0 représente l'arrière-plan.
L'utilisateur fournit des conseils par le biais d'interactions itératives :
- L'utilisateur examine le masque actuel mτ
- Place un clic pτ=(iτ,jτ,lτ), où (iτ,jτ) sont les coordonnées et lτ∈{+,−} est l'étiquette avant-plan/arrière-plan
- Le réseau génère un masque amélioré mτ+1 basé sur ximg, mτ et les clics accumulés p0:τ
- Réseau de base : Utilise ViT-B pré-entraîné avec DINOv2, évitant les biais des données annotées
- Extraction de caractéristiques d'image :
fimg=Linear(ViTBackbone(ximg))∈R14H×14W×dmodel
- Codage des invites : Encode les clics positifs et négatifs sous forme de disques de rayon 5 pixels, générant des cartes de clic m+,m−fprompt=PatchEmbedding(Concat(m+,m−,mτ))
- Fusion de caractéristiques :
fmix=fimg+fpromptf^mix=ViTBlocks(fmix)
- Décodage de masque : Utilise un décodeur FPN et SegFormer pour générer le masque final
- Gel du réseau de base : Prévient le surapprentissage et maintient la capacité de généralisation
- Fusion de caractéristiques multi-couches : Utilise les caractéristiques des couches 3, 6, 9, 12 du ViT
f1,f2,f3,f4=ViTBackbone(ximg)fimg=Linear(Concat(f1,f2,f3,f4))
- Connexions de saut : Conception similaire à U-Net
f^i=Concat(f^mix,fi) pour i=1,2,3,4
- Stratégie de fusion tardive : L'encodage d'image n'est exécuté qu'une seule fois, seul un prédicteur de masque léger s'exécute après l'interaction
- Intégration de caractéristiques multi-échelles : Combine les caractéristiques de différents niveaux pour préserver les informations à grain fin
- Conception des connexions de saut : Accède toujours aux caractéristiques intermédiaires après l'intégration des invites, traitant les structures fines
- Stratégie de gel : Maintient la capacité de généralisation du modèle pré-entraîné en gelant le réseau de base
- Données d'entraînement : Ensemble de données combiné COCO+LVIS (99k images, 1,5 million de masques)
- Ensembles de données d'évaluation :
- WSESeg : 7452 masques, 10 catégories d'équipements de sports d'hiver
- SHSeg : 534 masques de skieurs, 496 images (nouvellement proposé)
- HQSeg-44k : Ensemble de données d'annotation haute qualité
- Ensembles de données génériques : GrabCut, Berkeley, DAVIS, SBD
- NoC@θ : Nombre de clics nécessaires pour atteindre le seuil IoU θ
- Métriques principales : NoC@85, NoC@90, NoC@95
- Limite supérieure : Maximum 20 clics
- Optimiseur : Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
- Fonction de perte : Focal Loss
- Entraînement : 55 epochs, 30 000 images par epoch
- Résolution : 896×896 pour WSESeg/SHSeg/HQSeg-44k, 672×672 pour DAVIS
- Échantillonnage aléatoire : Jusqu'à 24 points aléatoires initialement, 3 tours d'entraînement itératif
| Méthode | NoC@85 | NoC@90 |
|---|
| SAM | 8.83 | 11.86 |
| HQ-SAM | 14.44 | 16.31 |
| SkipClick | 6.49 | 9.16 |
- Réduit de 2,336 clics par rapport à SAM (NoC@85)
- Réduit de 7,946 clics par rapport à HQ-SAM (NoC@85)
| Méthode | NoC@90 | NoC@95 |
|---|
| HQ-SAM | 6.49 | 10.79 |
| SkipClick | 6.00 | 9.89 |
- SkipClick : 6,61 ms (le plus rapide)
- SAM : 15,01 ms
- HQ-SAM : 18,83 ms
- SAM + Schön et al. : 41,38 ms
| Configuration | WSESeg NoC@85 Moyen | WSESeg NoC@90 Moyen |
|---|
| Ligne de base | 9.463 | 12.031 |
| +Gel du réseau de base | 9.416 | 11.951 |
| +Caractéristiques intermédiaires | 7.285 | 10.344 |
| +Connexions de saut | 6.494 | 9.163 |
Conclusions clés :
- Gel du réseau de base : Amélioration légère (9.463→9.416)
- Fusion de caractéristiques intermédiaires : Amélioration significative (9.416→7.285)
- Connexions de saut : Amélioration supplémentaire (7.285→6.494)
Les performances sur les ensembles de données génériques prouvent que le modèle ne surapprentissage pas au domaine des sports d'hiver :
| Ensemble de Données | SkipClick Complet NoC@90 |
|---|
| GrabCut | 1.44 |
| Berkeley | 2.45 |
| DAVIS | 4.94 |
| SBD | 6.18 |
- Segmentation de joueurs de football et de basket-ball 3,9
- Suivi et segmentation de la pointe d'épée en escrime 40
- Détection de points clés d'équipements de ski 31,32
- Méthodes de fusion précoce : RITM44, FocalClick2, SimpleClick28 - Bonne qualité mais réponse lente
- Méthodes de fusion tardive : SAM20, InterFormer15 - Réponse rapide mais peut sacrifier la qualité
- Adaptation de domaine : Méthodes d'adaptation en ligne 22,23,41,42
- SkipClick surpasse significativement SAM et HQ-SAM dans la tâche de segmentation d'équipements de sports d'hiver
- La fusion de caractéristiques multi-couches et les connexions de saut sont cruciales pour traiter les structures fines
- Le gel du réseau de base pré-entraîné aide à maintenir la capacité de généralisation
- Les performances du modèle sur les ensembles de données génériques sont compétitives, démontrant une bonne généralisation
- Taille de l'ensemble de données : Les données d'entraînement sont plus petites que l'ensemble de données SA-1B de SAM
- Spécificité du domaine : Bien que la généralisation soit démontrée, l'optimisation est principalement orientée vers les scènes de sports d'hiver
- Ressources de calcul : Nécessite un réseau de base ViT-B, imposant certaines exigences en ressources de calcul
- Extension à davantage de tâches de segmentation dans d'autres domaines sportifs
- Exploration de conceptions architecturales plus légères
- Recherche de modes d'interaction utilisateur plus efficaces
- Valeur pratique élevée : Résout le problème d'équilibre entre la vitesse de réponse et la qualité de segmentation dans les applications réelles
- Innovation technique : Combine intelligemment les caractéristiques multi-couches et les connexions de saut, traitant efficacement les structures fines
- Expériences complètes : Inclut des expériences d'ablation détaillées et une validation multi-ensembles de données
- Contribution d'ensemble de données : L'ensemble de données SHSeg comble le vide dans la segmentation de skieurs
- Vérification de généralisation : Valide la généralité de la méthode sur plusieurs ensembles de données génériques
- Analyse théorique : Manque d'analyse théorique approfondie sur les raisons pour lesquelles la fusion de caractéristiques multi-couches est efficace
- Études utilisateur : Absence d'évaluation de l'expérience utilisateur réelle
- Cas limites : Analyse insuffisante des performances dans des conditions météorologiques ou d'éclairage extrêmes
- Comparaisons limitées : Comparaisons principalement avec la série SAM, manquant de comparaisons avec d'autres méthodes de fusion tardive
- Valeur académique : Fournit une solution efficace pour la segmentation interactive dans des domaines spécifiques
- Valeur pratique : Possède une valeur directe dans l'analyse vidéo sportive, l'annotation vidéo et d'autres applications
- Reproductibilité : Fournit des détails d'implémentation détaillés et s'engage à publier le code
- Analyse vidéo sportive : Particulièrement adaptée à la segmentation précise des équipements et du personnel des sports d'hiver
- Outils d'annotation vidéo : Peut être intégré dans les systèmes d'annotation vidéo pour améliorer l'efficacité
- Segmentation de structures fines : Applicable aux tâches de segmentation nécessitant le traitement de frontières complexes
- Applications en temps réel : Les caractéristiques de réponse rapide la rendent adaptée aux applications interactives
L'article cite 46 références connexes, incluant principalement :
- 20 SAM : Segment Anything Model
- 18 HQ-SAM : Segment Anything in High Quality
- 28 SimpleClick : Interactive Image Segmentation with Simple Vision Transformers
- 41 Travaux connexes sur l'ensemble de données WSESeg
- 44 RITM : Reviving Iterative Training with Mask Guidance
Évaluation Globale : Ceci est un article de haute qualité en vision par ordinateur qui propose une solution efficace de segmentation interactive pour le scénario d'application spécifique mais important des sports d'hiver. L'approche technique est raisonnable, la validation expérimentale est complète, et elle possède une excellente valeur pratique et une contribution académique.