In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
SkipClick: Combinando Respuestas Rápidas y Características de Bajo Nivel para Segmentación Interactiva en Contextos de Deportes de Invierno
- ID del Artículo: 2501.07960
- Título: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
- Autores: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
- Institución: Universidad de Augsburgo, Alemania
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: Enero de 2025
- Enlace del Artículo: https://arxiv.org/abs/2501.07960
Este artículo propone una nueva arquitectura de segmentación interactiva denominada SkipClick, diseñada específicamente para escenas de deportes de invierno. La segmentación interactiva predice máscaras de segmentación de alta calidad mediante información guiada por el usuario, utilizando clics como mecanismo de guía. Los autores presentan primero una arquitectura de referencia especializada en respuestas rápidas después de clics, seguida de múltiples mejoras arquitectónicas para mejorar el rendimiento en la segmentación de equipos de deportes de invierno en el conjunto de datos WSESeg. En la métrica promedio NoC@85 de la categoría WSESeg, el método reduce respectivamente 2.336 y 7.946 clics en comparación con SAM y HQ-SAM. En el conjunto de datos HQSeg-44k, el sistema logra resultados de última generación con NoC@90 de 6.00 y NoC@95 de 9.89. Además, los autores prueban el modelo en un conjunto de datos recientemente propuesto para segmentación de esquiadores.
- Problema Central: En escenas de deportes de invierno, es necesario localizar con precisión a los atletas y equipos relacionados, siendo cada vez más importante la tarea de segmentación de equipos deportivos
- Desafíos de Anotación: La anotación de máscaras de segmentación es laboriosa y difícil, especialmente para estructuras finas
- Especificidad del Dominio: Los equipos de deportes de invierno aparecen con poca frecuencia en conjuntos de datos genéricos, existiendo problemas de adaptación de dominio
- Creciente demanda de localización precisa de equipos en análisis deportivo
- La segmentación interactiva puede reducir significativamente el tiempo de anotación manual
- Las escenas de deportes de invierno poseen características visuales únicas (paisajes nevados, estructuras de equipos finas)
- Problemas de SAM: A pesar de entrenarse en el conjunto de datos SA-1B (1.1 mil millones de máscaras), muestra capacidad de generalización insuficiente en el dominio de equipos de deportes de invierno
- Tiempo de Respuesta: Los métodos de fusión temprana requieren ejecutar nuevamente la red completa, resultando en respuestas lentas
- Procesamiento de Detalles: Los métodos existentes tienen dificultades para manejar estructuras finas de equipos de deportes de invierno
- Modelo de Segmentación Interactiva en Tiempo Real: Se propone un modelo en tiempo real capaz de realizar segmentación en dominios especiales como deportes de invierno, con enfoque particular en el manejo de estructuras finas en imágenes
- Innovación Arquitectónica: Se validan mediante experimentos de ablación las mejoras de rendimiento del modelo en el conjunto de datos WSESeg, incluso superando a SAM entrenado en conjuntos de datos más grandes
- Capacidad de Generalización: Se demuestra que el modelo no está sobreajustado al dominio de deportes de invierno, mostrando rendimiento competitivo en conjuntos de datos genéricos de consumidor
- Nuevo Conjunto de Datos: Se propone el conjunto de datos SHSeg (Segmentación de Esquiadores), que contiene 534 máscaras de segmentación y 496 imágenes
La tarea de segmentación interactiva se define como: dado una imagen ximg∈RH×W×3, el objetivo es crear una máscara de segmentación de alta calidad m∈{0,1}H×W, donde 1 representa el objeto objetivo y 0 representa el fondo.
El usuario proporciona guía mediante interacciones iterativas:
- El usuario inspecciona la máscara actual mτ
- Coloca un clic pτ=(iτ,jτ,lτ), donde (iτ,jτ) son las coordenadas y lτ∈{+,−} es la etiqueta de primer plano/fondo
- La red genera una máscara mejorada mτ+1 basada en ximg, mτ y los clics acumulados p0:τ
- Red Troncal: Utiliza ViT-B preentrenado con DINOv2, evitando sesgos de datos anotados
- Extracción de Características de Imagen:
fimg=Linear(ViTBackbone(ximg))∈R14H×14W×dmodel
- Codificación de Indicaciones: Los clics positivos y negativos se codifican como discos de radio 5 píxeles, generando mapas de clics m+,m−fprompt=PatchEmbedding(Concat(m+,m−,mτ))
- Fusión de Características:
fmix=fimg+fpromptf^mix=ViTBlocks(fmix)
- Decodificación de Máscara: Utiliza decodificador FPN y SegFormer para generar la máscara final
- Red Troncal Congelada: Previene el sobreajuste, manteniendo la capacidad de generalización
- Fusión de Características Multicapa: Utiliza características de las capas 3, 6, 9, 12 de ViT
f1,f2,f3,f4=ViTBackbone(ximg)fimg=Linear(Concat(f1,f2,f3,f4))
- Conexiones de Salto: Diseño similar a U-Net
f^i=Concat(f^mix,fi) para i=1,2,3,4
- Estrategia de Fusión Tardía: La codificación de imagen se ejecuta solo una vez, ejecutando únicamente el predictor de máscara ligero después de la interacción
- Integración de Características Multiescala: Combina características de diferentes niveles para preservar información de grano fino
- Diseño de Conexiones de Salto: Permite acceso a características intermedias después de la integración de indicaciones, manejando estructuras finas
- Estrategia de Congelación: Mantiene la capacidad de generalización del modelo preentrenado congelando la red troncal
- Datos de Entrenamiento: Conjunto de datos combinado COCO+LVIS (99k imágenes, 1.5 millones de máscaras)
- Conjuntos de Datos de Evaluación:
- WSESeg: 7452 máscaras, 10 categorías de equipos de deportes de invierno
- SHSeg: 534 máscaras de esquiadores, 496 imágenes (recientemente propuesto)
- HQSeg-44k: Conjunto de datos con anotaciones de alta calidad
- Conjuntos de Datos Genéricos: GrabCut, Berkeley, DAVIS, SBD
- NoC@θ: Número de clics necesarios para alcanzar el umbral de IoU θ
- Métricas Principales: NoC@85, NoC@90, NoC@95
- Límite Superior: Máximo 20 clics
- Optimizador: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
- Función de Pérdida: Focal Loss
- Entrenamiento: 55 épocas, 30,000 imágenes por época
- Resolución: 896×896 para WSESeg/SHSeg/HQSeg-44k, 672×672 para DAVIS
- Muestreo Aleatorio: Máximo 24 puntos aleatorios iniciales, entrenamiento iterativo de 3 rondas
| Método | NoC@85 | NoC@90 |
|---|
| SAM | 8.83 | 11.86 |
| HQ-SAM | 14.44 | 16.31 |
| SkipClick | 6.49 | 9.16 |
- Reduce 2.336 clics en comparación con SAM (NoC@85)
- Reduce 7.946 clics en comparación con HQ-SAM (NoC@85)
| Método | NoC@90 | NoC@95 |
|---|
| HQ-SAM | 6.49 | 10.79 |
| SkipClick | 6.00 | 9.89 |
- SkipClick: 6.61ms (más rápido)
- SAM: 15.01ms
- HQ-SAM: 18.83ms
- SAM + Schön et al.: 41.38ms
| Configuración | WSESeg NoC@85 Promedio | WSESeg NoC@90 Promedio |
|---|
| Referencia | 9.463 | 12.031 |
| +Red Troncal Congelada | 9.416 | 11.951 |
| +Características Intermedias | 7.285 | 10.344 |
| +Conexiones de Salto | 6.494 | 9.163 |
Hallazgos Clave:
- Red Troncal Congelada: Mejora ligera (9.463→9.416)
- Fusión de Características Intermedias: Mejora significativa (9.416→7.285)
- Conexiones de Salto: Mejora adicional (7.285→6.494)
El rendimiento en conjuntos de datos genéricos demuestra que el modelo no está sobreajustado al dominio de deportes de invierno:
| Conjunto de Datos | SkipClick Completo NoC@90 |
|---|
| GrabCut | 1.44 |
| Berkeley | 2.45 |
| DAVIS | 4.94 |
| SBD | 6.18 |
- Segmentación de jugadores de fútbol y baloncesto3,9
- Seguimiento y segmentación de puntas de espada en esgrima40
- Detección de puntos clave en equipos de esquí31,32
- Métodos de Fusión Temprana: RITM44, FocalClick2, SimpleClick28 - Buena calidad pero respuesta lenta
- Métodos de Fusión Tardía: SAM20, InterFormer15 - Respuesta rápida pero posible sacrificio de calidad
- Adaptación de Dominio: Métodos de adaptación en línea22,23,41,42
- SkipClick supera significativamente a SAM y HQ-SAM en la tarea de segmentación de equipos de deportes de invierno
- La fusión de características multicapa y las conexiones de salto son cruciales para manejar estructuras finas
- Congelar la red troncal preentrenada ayuda a mantener la capacidad de generalización
- El rendimiento competitivo en conjuntos de datos genéricos demuestra buena generalización
- Tamaño del Conjunto de Datos: Los datos de entrenamiento son más pequeños en comparación con el conjunto de datos SA-1B de SAM
- Especificidad de Dominio: Aunque se demuestra capacidad de generalización, está principalmente optimizado para escenas de deportes de invierno
- Recursos Computacionales: Requiere red troncal ViT-B, demandando ciertos recursos computacionales
- Extensión a tareas de segmentación en más dominios deportivos
- Exploración de diseños de arquitectura más ligeros
- Investigación de formas de interacción del usuario más eficientes
- Alto Valor Práctico: Resuelve el equilibrio entre velocidad de respuesta y calidad de segmentación en aplicaciones reales
- Innovación Técnica: Combina ingeniosamente características multicapa y conexiones de salto, manejando efectivamente estructuras finas
- Experimentación Completa: Incluye experimentos de ablación detallados y validación en múltiples conjuntos de datos
- Contribución de Conjunto de Datos: El conjunto de datos SHSeg llena el vacío en segmentación de esquiadores
- Verificación de Generalización: Valida la universalidad del método en múltiples conjuntos de datos genéricos
- Análisis Teórico: Carece de análisis teórico profundo sobre por qué la fusión de características multicapa es efectiva
- Investigación de Usuario: Falta evaluación de la experiencia de usuario real
- Casos Extremos: Análisis insuficiente del rendimiento bajo condiciones climáticas o de iluminación extremas
- Comparaciones Limitadas: Principalmente comparaciones con la serie SAM, faltando comparaciones con otros métodos de fusión tardía
- Valor Académico: Proporciona una solución efectiva para segmentación interactiva en dominios específicos
- Valor Práctico: Tiene valor directo en análisis de video deportivo, anotación de video y otras aplicaciones
- Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código
- Análisis de Video Deportivo: Particularmente adecuado para segmentación precisa de equipos y personal en deportes de invierno
- Herramientas de Anotación de Video: Puede integrarse en sistemas de anotación de video para mejorar eficiencia
- Segmentación de Estructuras Finas: Aplicable a tareas de segmentación que requieren manejar límites complejos
- Aplicaciones Interactivas: Las características de respuesta rápida la hacen adecuada para aplicaciones interactivas
El artículo cita 46 referencias relacionadas, incluyendo principalmente:
- 20 SAM: Segment Anything Model
- 18 HQ-SAM: Segment Anything in High Quality
- 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
- 41 Trabajo relacionado con conjunto de datos WSESeg
- 44 RITM: Reviving Iterative Training with Mask Guidance
Evaluación General: Este es un artículo de alta calidad en visión por computadora que propone una solución efectiva de segmentación interactiva para el escenario de aplicación específico pero importante de deportes de invierno. El esquema técnico es razonable, la validación experimental es completa y posee buen valor práctico y contribución académica.