2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

SchÃ¶n, Lorenz, Kienzle et al.

In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.

academic

SkipClick: Combinando Respuestas Rápidas y Características de Bajo Nivel para Segmentación Interactiva en Contextos de Deportes de Invierno

Información Básica

ID del Artículo: 2501.07960
Título: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
Autores: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
Institución: Universidad de Augsburgo, Alemania
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: Enero de 2025
Enlace del Artículo: https://arxiv.org/abs/2501.07960

Resumen

Este artículo propone una nueva arquitectura de segmentación interactiva denominada SkipClick, diseñada específicamente para escenas de deportes de invierno. La segmentación interactiva predice máscaras de segmentación de alta calidad mediante información guiada por el usuario, utilizando clics como mecanismo de guía. Los autores presentan primero una arquitectura de referencia especializada en respuestas rápidas después de clics, seguida de múltiples mejoras arquitectónicas para mejorar el rendimiento en la segmentación de equipos de deportes de invierno en el conjunto de datos WSESeg. En la métrica promedio NoC@85 de la categoría WSESeg, el método reduce respectivamente 2.336 y 7.946 clics en comparación con SAM y HQ-SAM. En el conjunto de datos HQSeg-44k, el sistema logra resultados de última generación con NoC@90 de 6.00 y NoC@95 de 9.89. Además, los autores prueban el modelo en un conjunto de datos recientemente propuesto para segmentación de esquiadores.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: En escenas de deportes de invierno, es necesario localizar con precisión a los atletas y equipos relacionados, siendo cada vez más importante la tarea de segmentación de equipos deportivos
Desafíos de Anotación: La anotación de máscaras de segmentación es laboriosa y difícil, especialmente para estructuras finas
Especificidad del Dominio: Los equipos de deportes de invierno aparecen con poca frecuencia en conjuntos de datos genéricos, existiendo problemas de adaptación de dominio

Importancia

Creciente demanda de localización precisa de equipos en análisis deportivo
La segmentación interactiva puede reducir significativamente el tiempo de anotación manual
Las escenas de deportes de invierno poseen características visuales únicas (paisajes nevados, estructuras de equipos finas)

Limitaciones de Métodos Existentes

Problemas de SAM: A pesar de entrenarse en el conjunto de datos SA-1B (1.1 mil millones de máscaras), muestra capacidad de generalización insuficiente en el dominio de equipos de deportes de invierno
Tiempo de Respuesta: Los métodos de fusión temprana requieren ejecutar nuevamente la red completa, resultando en respuestas lentas
Procesamiento de Detalles: Los métodos existentes tienen dificultades para manejar estructuras finas de equipos de deportes de invierno

Contribuciones Principales

Modelo de Segmentación Interactiva en Tiempo Real: Se propone un modelo en tiempo real capaz de realizar segmentación en dominios especiales como deportes de invierno, con enfoque particular en el manejo de estructuras finas en imágenes
Innovación Arquitectónica: Se validan mediante experimentos de ablación las mejoras de rendimiento del modelo en el conjunto de datos WSESeg, incluso superando a SAM entrenado en conjuntos de datos más grandes
Capacidad de Generalización: Se demuestra que el modelo no está sobreajustado al dominio de deportes de invierno, mostrando rendimiento competitivo en conjuntos de datos genéricos de consumidor
Nuevo Conjunto de Datos: Se propone el conjunto de datos SHSeg (Segmentación de Esquiadores), que contiene 534 máscaras de segmentación y 496 imágenes

Explicación Detallada del Método

Definición de la Tarea

La tarea de segmentación interactiva se define como: dado una imagen $x_{img} \in \mathbb{R}^{H×W×3}$ , el objetivo es crear una máscara de segmentación de alta calidad $m \in \{0,1\}^{H×W}$ , donde 1 representa el objeto objetivo y 0 representa el fondo.

El usuario proporciona guía mediante interacciones iterativas:

El usuario inspecciona la máscara actual $m_τ$
Coloca un clic $p_τ = (i_τ, j_τ, l_τ)$ , donde $(i_τ, j_τ)$ son las coordenadas y $l_τ \in \{+,-\}$ es la etiqueta de primer plano/fondo
La red genera una máscara mejorada $m_{τ+1}$ basada en $x_{img}$ , $m_τ$ y los clics acumulados $p_{0:τ}$

Arquitectura del Modelo

Arquitectura de Referencia

Red Troncal: Utiliza ViT-B preentrenado con DINOv2, evitando sesgos de datos anotados
Extracción de Características de Imagen: $f_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}$
Codificación de Indicaciones: Los clics positivos y negativos se codifican como discos de radio 5 píxeles, generando mapas de clics $m^+, m^-$ $f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))$
Fusión de Características: $f_{mix} = f_{img} + f_{prompt}$ $\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})$
Decodificación de Máscara: Utiliza decodificador FPN y SegFormer para generar la máscara final

Arquitectura Completa de SkipClick

Red Troncal Congelada: Previene el sobreajuste, manteniendo la capacidad de generalización
Fusión de Características Multicapa: Utiliza características de las capas 3, 6, 9, 12 de ViT $f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})$ $f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))$
Conexiones de Salto: Diseño similar a U-Net $\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ para } i = 1,2,3,4$

Puntos de Innovación Técnica

Estrategia de Fusión Tardía: La codificación de imagen se ejecuta solo una vez, ejecutando únicamente el predictor de máscara ligero después de la interacción
Integración de Características Multiescala: Combina características de diferentes niveles para preservar información de grano fino
Diseño de Conexiones de Salto: Permite acceso a características intermedias después de la integración de indicaciones, manejando estructuras finas
Estrategia de Congelación: Mantiene la capacidad de generalización del modelo preentrenado congelando la red troncal

Configuración Experimental

Conjuntos de Datos

Datos de Entrenamiento: Conjunto de datos combinado COCO+LVIS (99k imágenes, 1.5 millones de máscaras)
Conjuntos de Datos de Evaluación:
- WSESeg: 7452 máscaras, 10 categorías de equipos de deportes de invierno
- SHSeg: 534 máscaras de esquiadores, 496 imágenes (recientemente propuesto)
- HQSeg-44k: Conjunto de datos con anotaciones de alta calidad
- Conjuntos de Datos Genéricos: GrabCut, Berkeley, DAVIS, SBD

Métricas de Evaluación

NoC@θ: Número de clics necesarios para alcanzar el umbral de IoU θ
Métricas Principales: NoC@85, NoC@90, NoC@95
Límite Superior: Máximo 20 clics

Detalles de Implementación

Optimizador: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
Función de Pérdida: Focal Loss
Entrenamiento: 55 épocas, 30,000 imágenes por época
Resolución: 896×896 para WSESeg/SHSeg/HQSeg-44k, 672×672 para DAVIS
Muestreo Aleatorio: Máximo 24 puntos aleatorios iniciales, entrenamiento iterativo de 3 rondas

Resultados Experimentales

Resultados Principales

Rendimiento en Conjunto de Datos WSESeg

Método	NoC@85	NoC@90
SAM	8.83	11.86
HQ-SAM	14.44	16.31
SkipClick	6.49	9.16

Reduce 2.336 clics en comparación con SAM (NoC@85)
Reduce 7.946 clics en comparación con HQ-SAM (NoC@85)

Logra SOTA en HQSeg-44k

Método	NoC@90	NoC@95
HQ-SAM	6.49	10.79
SkipClick	6.00	9.89

Comparación de Tiempo de Respuesta

SkipClick: 6.61ms (más rápido)
SAM: 15.01ms
HQ-SAM: 18.83ms
SAM + Schön et al.: 41.38ms

Experimentos de Ablación

Configuración	WSESeg NoC@85 Promedio	WSESeg NoC@90 Promedio
Referencia	9.463	12.031
+Red Troncal Congelada	9.416	11.951
+Características Intermedias	7.285	10.344
+Conexiones de Salto	6.494	9.163

Hallazgos Clave:

Red Troncal Congelada: Mejora ligera (9.463→9.416)
Fusión de Características Intermedias: Mejora significativa (9.416→7.285)
Conexiones de Salto: Mejora adicional (7.285→6.494)

Verificación de Capacidad de Generalización

El rendimiento en conjuntos de datos genéricos demuestra que el modelo no está sobreajustado al dominio de deportes de invierno:

Conjunto de Datos	SkipClick Completo NoC@90
GrabCut	1.44
Berkeley	2.45
DAVIS	4.94
SBD	6.18

Trabajo Relacionado

Aplicaciones de Segmentación en Deportes

Segmentación de jugadores de fútbol y baloncesto3,9
Seguimiento y segmentación de puntas de espada en esgrima40
Detección de puntos clave en equipos de esquí31,32

Desarrollo de Segmentación Interactiva

Métodos de Fusión Temprana: RITM44, FocalClick2, SimpleClick28 - Buena calidad pero respuesta lenta
Métodos de Fusión Tardía: SAM20, InterFormer15 - Respuesta rápida pero posible sacrificio de calidad
Adaptación de Dominio: Métodos de adaptación en línea22,23,41,42

Conclusiones y Discusión

Conclusiones Principales

SkipClick supera significativamente a SAM y HQ-SAM en la tarea de segmentación de equipos de deportes de invierno
La fusión de características multicapa y las conexiones de salto son cruciales para manejar estructuras finas
Congelar la red troncal preentrenada ayuda a mantener la capacidad de generalización
El rendimiento competitivo en conjuntos de datos genéricos demuestra buena generalización

Limitaciones

Tamaño del Conjunto de Datos: Los datos de entrenamiento son más pequeños en comparación con el conjunto de datos SA-1B de SAM
Especificidad de Dominio: Aunque se demuestra capacidad de generalización, está principalmente optimizado para escenas de deportes de invierno
Recursos Computacionales: Requiere red troncal ViT-B, demandando ciertos recursos computacionales

Direcciones Futuras

Extensión a tareas de segmentación en más dominios deportivos
Exploración de diseños de arquitectura más ligeros
Investigación de formas de interacción del usuario más eficientes

Evaluación Profunda

Fortalezas

Alto Valor Práctico: Resuelve el equilibrio entre velocidad de respuesta y calidad de segmentación en aplicaciones reales
Innovación Técnica: Combina ingeniosamente características multicapa y conexiones de salto, manejando efectivamente estructuras finas
Experimentación Completa: Incluye experimentos de ablación detallados y validación en múltiples conjuntos de datos
Contribución de Conjunto de Datos: El conjunto de datos SHSeg llena el vacío en segmentación de esquiadores
Verificación de Generalización: Valida la universalidad del método en múltiples conjuntos de datos genéricos

Insuficiencias

Análisis Teórico: Carece de análisis teórico profundo sobre por qué la fusión de características multicapa es efectiva
Investigación de Usuario: Falta evaluación de la experiencia de usuario real
Casos Extremos: Análisis insuficiente del rendimiento bajo condiciones climáticas o de iluminación extremas
Comparaciones Limitadas: Principalmente comparaciones con la serie SAM, faltando comparaciones con otros métodos de fusión tardía

Impacto

Valor Académico: Proporciona una solución efectiva para segmentación interactiva en dominios específicos
Valor Práctico: Tiene valor directo en análisis de video deportivo, anotación de video y otras aplicaciones
Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código

Escenarios Aplicables

Análisis de Video Deportivo: Particularmente adecuado para segmentación precisa de equipos y personal en deportes de invierno
Herramientas de Anotación de Video: Puede integrarse en sistemas de anotación de video para mejorar eficiencia
Segmentación de Estructuras Finas: Aplicable a tareas de segmentación que requieren manejar límites complejos
Aplicaciones Interactivas: Las características de respuesta rápida la hacen adecuada para aplicaciones interactivas

Referencias

El artículo cita 46 referencias relacionadas, incluyendo principalmente:

20 SAM: Segment Anything Model
18 HQ-SAM: Segment Anything in High Quality
28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
41 Trabajo relacionado con conjunto de datos WSESeg
44 RITM: Reviving Iterative Training with Mask Guidance

Evaluación General: Este es un artículo de alta calidad en visión por computadora que propone una solución efectiva de segmentación interactiva para el escenario de aplicación específico pero importante de deportes de invierno. El esquema técnico es razonable, la validación experimental es completa y posee buen valor práctico y contribución académica.