2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick: Combinando Respuestas Rápidas y Características de Bajo Nivel para Segmentación Interactiva en Contextos de Deportes de Invierno

Información Básica

  • ID del Artículo: 2501.07960
  • Título: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • Autores: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • Institución: Universidad de Augsburgo, Alemania
  • Clasificación: cs.CV (Visión por Computadora)
  • Fecha de Publicación: Enero de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2501.07960

Resumen

Este artículo propone una nueva arquitectura de segmentación interactiva denominada SkipClick, diseñada específicamente para escenas de deportes de invierno. La segmentación interactiva predice máscaras de segmentación de alta calidad mediante información guiada por el usuario, utilizando clics como mecanismo de guía. Los autores presentan primero una arquitectura de referencia especializada en respuestas rápidas después de clics, seguida de múltiples mejoras arquitectónicas para mejorar el rendimiento en la segmentación de equipos de deportes de invierno en el conjunto de datos WSESeg. En la métrica promedio NoC@85 de la categoría WSESeg, el método reduce respectivamente 2.336 y 7.946 clics en comparación con SAM y HQ-SAM. En el conjunto de datos HQSeg-44k, el sistema logra resultados de última generación con NoC@90 de 6.00 y NoC@95 de 9.89. Además, los autores prueban el modelo en un conjunto de datos recientemente propuesto para segmentación de esquiadores.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: En escenas de deportes de invierno, es necesario localizar con precisión a los atletas y equipos relacionados, siendo cada vez más importante la tarea de segmentación de equipos deportivos
  2. Desafíos de Anotación: La anotación de máscaras de segmentación es laboriosa y difícil, especialmente para estructuras finas
  3. Especificidad del Dominio: Los equipos de deportes de invierno aparecen con poca frecuencia en conjuntos de datos genéricos, existiendo problemas de adaptación de dominio

Importancia

  • Creciente demanda de localización precisa de equipos en análisis deportivo
  • La segmentación interactiva puede reducir significativamente el tiempo de anotación manual
  • Las escenas de deportes de invierno poseen características visuales únicas (paisajes nevados, estructuras de equipos finas)

Limitaciones de Métodos Existentes

  1. Problemas de SAM: A pesar de entrenarse en el conjunto de datos SA-1B (1.1 mil millones de máscaras), muestra capacidad de generalización insuficiente en el dominio de equipos de deportes de invierno
  2. Tiempo de Respuesta: Los métodos de fusión temprana requieren ejecutar nuevamente la red completa, resultando en respuestas lentas
  3. Procesamiento de Detalles: Los métodos existentes tienen dificultades para manejar estructuras finas de equipos de deportes de invierno

Contribuciones Principales

  1. Modelo de Segmentación Interactiva en Tiempo Real: Se propone un modelo en tiempo real capaz de realizar segmentación en dominios especiales como deportes de invierno, con enfoque particular en el manejo de estructuras finas en imágenes
  2. Innovación Arquitectónica: Se validan mediante experimentos de ablación las mejoras de rendimiento del modelo en el conjunto de datos WSESeg, incluso superando a SAM entrenado en conjuntos de datos más grandes
  3. Capacidad de Generalización: Se demuestra que el modelo no está sobreajustado al dominio de deportes de invierno, mostrando rendimiento competitivo en conjuntos de datos genéricos de consumidor
  4. Nuevo Conjunto de Datos: Se propone el conjunto de datos SHSeg (Segmentación de Esquiadores), que contiene 534 máscaras de segmentación y 496 imágenes

Explicación Detallada del Método

Definición de la Tarea

La tarea de segmentación interactiva se define como: dado una imagen ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3}, el objetivo es crear una máscara de segmentación de alta calidad m{0,1}H×Wm \in \{0,1\}^{H×W}, donde 1 representa el objeto objetivo y 0 representa el fondo.

El usuario proporciona guía mediante interacciones iterativas:

  1. El usuario inspecciona la máscara actual mτm_τ
  2. Coloca un clic pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ), donde (iτ,jτ)(i_τ, j_τ) son las coordenadas y lτ{+,}l_τ \in \{+,-\} es la etiqueta de primer plano/fondo
  3. La red genera una máscara mejorada mτ+1m_{τ+1} basada en ximgx_{img}, mτm_τ y los clics acumulados p0:τp_{0:τ}

Arquitectura del Modelo

Arquitectura de Referencia

  1. Red Troncal: Utiliza ViT-B preentrenado con DINOv2, evitando sesgos de datos anotados
  2. Extracción de Características de Imagen: fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}
  3. Codificación de Indicaciones: Los clics positivos y negativos se codifican como discos de radio 5 píxeles, generando mapas de clics m+,mm^+, m^-fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))
  4. Fusión de Características: fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})
  5. Decodificación de Máscara: Utiliza decodificador FPN y SegFormer para generar la máscara final

Arquitectura Completa de SkipClick

  1. Red Troncal Congelada: Previene el sobreajuste, manteniendo la capacidad de generalización
  2. Fusión de Características Multicapa: Utiliza características de las capas 3, 6, 9, 12 de ViT f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))
  3. Conexiones de Salto: Diseño similar a U-Net f^i=Concat(f^mix,fi) para i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ para } i = 1,2,3,4

Puntos de Innovación Técnica

  1. Estrategia de Fusión Tardía: La codificación de imagen se ejecuta solo una vez, ejecutando únicamente el predictor de máscara ligero después de la interacción
  2. Integración de Características Multiescala: Combina características de diferentes niveles para preservar información de grano fino
  3. Diseño de Conexiones de Salto: Permite acceso a características intermedias después de la integración de indicaciones, manejando estructuras finas
  4. Estrategia de Congelación: Mantiene la capacidad de generalización del modelo preentrenado congelando la red troncal

Configuración Experimental

Conjuntos de Datos

  1. Datos de Entrenamiento: Conjunto de datos combinado COCO+LVIS (99k imágenes, 1.5 millones de máscaras)
  2. Conjuntos de Datos de Evaluación:
    • WSESeg: 7452 máscaras, 10 categorías de equipos de deportes de invierno
    • SHSeg: 534 máscaras de esquiadores, 496 imágenes (recientemente propuesto)
    • HQSeg-44k: Conjunto de datos con anotaciones de alta calidad
    • Conjuntos de Datos Genéricos: GrabCut, Berkeley, DAVIS, SBD

Métricas de Evaluación

  • NoC@θ: Número de clics necesarios para alcanzar el umbral de IoU θ
  • Métricas Principales: NoC@85, NoC@90, NoC@95
  • Límite Superior: Máximo 20 clics

Detalles de Implementación

  • Optimizador: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • Función de Pérdida: Focal Loss
  • Entrenamiento: 55 épocas, 30,000 imágenes por época
  • Resolución: 896×896 para WSESeg/SHSeg/HQSeg-44k, 672×672 para DAVIS
  • Muestreo Aleatorio: Máximo 24 puntos aleatorios iniciales, entrenamiento iterativo de 3 rondas

Resultados Experimentales

Resultados Principales

Rendimiento en Conjunto de Datos WSESeg

MétodoNoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • Reduce 2.336 clics en comparación con SAM (NoC@85)
  • Reduce 7.946 clics en comparación con HQ-SAM (NoC@85)

Logra SOTA en HQSeg-44k

MétodoNoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

Comparación de Tiempo de Respuesta

  • SkipClick: 6.61ms (más rápido)
  • SAM: 15.01ms
  • HQ-SAM: 18.83ms
  • SAM + Schön et al.: 41.38ms

Experimentos de Ablación

ConfiguraciónWSESeg NoC@85 PromedioWSESeg NoC@90 Promedio
Referencia9.46312.031
+Red Troncal Congelada9.41611.951
+Características Intermedias7.28510.344
+Conexiones de Salto6.4949.163

Hallazgos Clave:

  1. Red Troncal Congelada: Mejora ligera (9.463→9.416)
  2. Fusión de Características Intermedias: Mejora significativa (9.416→7.285)
  3. Conexiones de Salto: Mejora adicional (7.285→6.494)

Verificación de Capacidad de Generalización

El rendimiento en conjuntos de datos genéricos demuestra que el modelo no está sobreajustado al dominio de deportes de invierno:

Conjunto de DatosSkipClick Completo NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

Trabajo Relacionado

Aplicaciones de Segmentación en Deportes

  • Segmentación de jugadores de fútbol y baloncesto3,9
  • Seguimiento y segmentación de puntas de espada en esgrima40
  • Detección de puntos clave en equipos de esquí31,32

Desarrollo de Segmentación Interactiva

  1. Métodos de Fusión Temprana: RITM44, FocalClick2, SimpleClick28 - Buena calidad pero respuesta lenta
  2. Métodos de Fusión Tardía: SAM20, InterFormer15 - Respuesta rápida pero posible sacrificio de calidad
  3. Adaptación de Dominio: Métodos de adaptación en línea22,23,41,42

Conclusiones y Discusión

Conclusiones Principales

  1. SkipClick supera significativamente a SAM y HQ-SAM en la tarea de segmentación de equipos de deportes de invierno
  2. La fusión de características multicapa y las conexiones de salto son cruciales para manejar estructuras finas
  3. Congelar la red troncal preentrenada ayuda a mantener la capacidad de generalización
  4. El rendimiento competitivo en conjuntos de datos genéricos demuestra buena generalización

Limitaciones

  1. Tamaño del Conjunto de Datos: Los datos de entrenamiento son más pequeños en comparación con el conjunto de datos SA-1B de SAM
  2. Especificidad de Dominio: Aunque se demuestra capacidad de generalización, está principalmente optimizado para escenas de deportes de invierno
  3. Recursos Computacionales: Requiere red troncal ViT-B, demandando ciertos recursos computacionales

Direcciones Futuras

  1. Extensión a tareas de segmentación en más dominios deportivos
  2. Exploración de diseños de arquitectura más ligeros
  3. Investigación de formas de interacción del usuario más eficientes

Evaluación Profunda

Fortalezas

  1. Alto Valor Práctico: Resuelve el equilibrio entre velocidad de respuesta y calidad de segmentación en aplicaciones reales
  2. Innovación Técnica: Combina ingeniosamente características multicapa y conexiones de salto, manejando efectivamente estructuras finas
  3. Experimentación Completa: Incluye experimentos de ablación detallados y validación en múltiples conjuntos de datos
  4. Contribución de Conjunto de Datos: El conjunto de datos SHSeg llena el vacío en segmentación de esquiadores
  5. Verificación de Generalización: Valida la universalidad del método en múltiples conjuntos de datos genéricos

Insuficiencias

  1. Análisis Teórico: Carece de análisis teórico profundo sobre por qué la fusión de características multicapa es efectiva
  2. Investigación de Usuario: Falta evaluación de la experiencia de usuario real
  3. Casos Extremos: Análisis insuficiente del rendimiento bajo condiciones climáticas o de iluminación extremas
  4. Comparaciones Limitadas: Principalmente comparaciones con la serie SAM, faltando comparaciones con otros métodos de fusión tardía

Impacto

  1. Valor Académico: Proporciona una solución efectiva para segmentación interactiva en dominios específicos
  2. Valor Práctico: Tiene valor directo en análisis de video deportivo, anotación de video y otras aplicaciones
  3. Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código

Escenarios Aplicables

  1. Análisis de Video Deportivo: Particularmente adecuado para segmentación precisa de equipos y personal en deportes de invierno
  2. Herramientas de Anotación de Video: Puede integrarse en sistemas de anotación de video para mejorar eficiencia
  3. Segmentación de Estructuras Finas: Aplicable a tareas de segmentación que requieren manejar límites complejos
  4. Aplicaciones Interactivas: Las características de respuesta rápida la hacen adecuada para aplicaciones interactivas

Referencias

El artículo cita 46 referencias relacionadas, incluyendo principalmente:

  • 20 SAM: Segment Anything Model
  • 18 HQ-SAM: Segment Anything in High Quality
  • 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
  • 41 Trabajo relacionado con conjunto de datos WSESeg
  • 44 RITM: Reviving Iterative Training with Mask Guidance

Evaluación General: Este es un artículo de alta calidad en visión por computadora que propone una solución efectiva de segmentación interactiva para el escenario de aplicación específico pero importante de deportes de invierno. El esquema técnico es razonable, la validación experimental es completa y posee buen valor práctico y contribución académica.