2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

SchÃ¶n, Lorenz, Kienzle et al.

In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.

academic

SkipClick: Объединение быстрых ответов и низкоуровневых признаков для интерактивной сегментации в контексте зимних видов спорта

Основная информация

ID статьи: 2501.07960
Название: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
Авторы: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
Учреждение: Университет Аугсбурга, Германия
Категория: cs.CV (Компьютерное зрение)
Дата публикации: Январь 2025
Ссылка на статью: https://arxiv.org/abs/2501.07960

Аннотация

В данной работе предлагается новая архитектура интерактивной сегментации SkipClick, специально разработанная для сцен зимних видов спорта. Интерактивная сегментация предсказывает высококачественные маски сегментации на основе пользовательского руководства; в качестве метода руководства используются клики. Авторы сначала предлагают базовую архитектуру для быстрого ответа после клика, а затем описывают несколько архитектурных улучшений для повышения производительности при сегментации зимнего спортивного снаряжения на наборе данных WSESeg. По метрике среднего NoC@85 на категориях WSESeg метод требует на 2,336 и 7,946 кликов меньше, чем SAM и HQ-SAM соответственно. На наборе данных HQSeg-44k система достигает современных результатов с NoC@90 = 6,00 и NoC@95 = 9,89. Кроме того, модель протестирована на новом предложенном наборе данных для сегментации лыжников.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: В сценах зимних видов спорта требуется точная локализация спортсменов и соответствующего снаряжения, особенно задача сегментации спортивного снаряжения становится все более важной
Проблемы аннотирования: Аннотирование масок сегментации требует много времени и сложно, особенно для аннотирования тонких структур
Специфика домена: Зимнее спортивное снаряжение редко встречается в универсальных наборах данных, что создает проблемы адаптации к домену

Значимость

Растущий спрос на точную локализацию снаряжения в спортивном анализе
Интерактивная сегментация может значительно сократить время ручного аннотирования
Сцены зимних видов спорта имеют уникальные визуальные характеристики (снежные пейзажи, тонкие структуры снаряжения)

Ограничения существующих методов

Проблемы SAM: Несмотря на обучение на наборе данных SA-1B (1,1 млрд масок), способность к обобщению в области зимнего спортивного снаряжения недостаточна
Время ответа: Методы ранней интеграции требуют повторного запуска всей сети, что приводит к медленному ответу
Обработка деталей: Существующие методы испытывают трудности при обработке тонких структур зимнего спортивного снаряжения

Основные вклады

Модель интерактивной сегментации в реальном времени: Предложена модель, способная выполнять сегментацию в специальных областях, таких как зимние виды спорта, с особым акцентом на обработку тонких структур в изображениях
Архитектурные инновации: Через абляционные эксперименты проверена производительность модели на наборе данных WSESeg, даже превосходящая SAM, обученный на более крупных наборах данных
Способность к обобщению: Доказано, что модель не переобучена на область зимних видов спорта и показывает конкурентоспособные результаты на универсальных наборах данных потребительских изображений
Новый набор данных: Предложен набор данных SHSeg (сегментация лыжников), содержащий 534 маски сегментации и 496 изображений

Описание метода

Определение задачи

Задача интерактивной сегментации определяется следующим образом: дано изображение $x_{img} \in \mathbb{R}^{H×W×3}$ , целью является создание высококачественной маски сегментации $m \in \{0,1\}^{H×W}$ , где 1 обозначает целевой объект, а 0 обозначает фон.

Пользователь предоставляет руководство через итеративное взаимодействие:

Пользователь проверяет текущую маску $m_τ$
Размещает клик $p_τ = (i_τ, j_τ, l_τ)$ , где $(i_τ, j_τ)$ — координаты, $l_τ \in \{+,-\}$ — метка переднего плана/фона
Сеть генерирует улучшенную маску $m_{τ+1}$ на основе $x_{img}$ , $m_τ$ и накопленных кликов $p_{0:τ}$

Архитектура модели

Базовая архитектура

Магистральная сеть: Используется предварительно обученный ViT-B на DINOv2, что избегает смещения от аннотированных данных
Извлечение признаков изображения: $f_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}$
Кодирование подсказок: Положительные и отрицательные клики кодируются как диски радиусом 5 пикселей, генерируя карты кликов $m^+, m^-$ $f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))$
Интеграция признаков: $f_{mix} = f_{img} + f_{prompt}$ $\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})$
Декодирование маски: Использует декодер FPN и SegFormer для генерации финальной маски

Полная архитектура SkipClick

Замораживание магистральной сети: Предотвращает переобучение, сохраняет способность к обобщению
Многоуровневая интеграция признаков: Использует признаки из слоев 3, 6, 9, 12 ViT $f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})$ $f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))$
Пропускающие соединения: Дизайн, аналогичный U-Net $\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ для } i = 1,2,3,4$

Технические инновации

Стратегия поздней интеграции: Кодирование изображения выполняется только один раз, после взаимодействия запускается только легкий предсказатель маски
Интеграция многомасштабных признаков: Объединяет признаки разных уровней для сохранения информации с высокой детализацией
Дизайн пропускающих соединений: Обеспечивает доступ к промежуточным признакам после интеграции подсказок для обработки тонких структур
Стратегия замораживания: Сохраняет способность к обобщению предварительно обученной модели путем замораживания магистральной сети

Экспериментальная установка

Наборы данных

Данные обучения: Комбинированный набор данных COCO+LVIS (99 тыс. изображений, 1,5 млн масок)
Наборы данных оценки:
- WSESeg: 7452 маски, 10 категорий зимнего спортивного снаряжения
- SHSeg: 534 маски лыжников, 496 изображений (новый)
- HQSeg-44k: Набор данных с высококачественной аннотацией
- Универсальные наборы данных: GrabCut, Berkeley, DAVIS, SBD

Метрики оценки

NoC@θ: Количество кликов, необходимых для достижения порога IoU θ
Основные метрики: NoC@85, NoC@90, NoC@95
Верхний предел: Максимум 20 кликов

Детали реализации

Оптимизатор: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
Функция потерь: Focal Loss
Обучение: 55 эпох, 30 000 изображений на эпоху
Разрешение: 896×896 для WSESeg/SHSeg/HQSeg-44k, 672×672 для DAVIS
Случайная выборка: Начально до 24 случайных точек, итеративное обучение в 3 раунда

Результаты экспериментов

Основные результаты

Производительность на наборе данных WSESeg

Метод	NoC@85	NoC@90
SAM	8.83	11.86
HQ-SAM	14.44	16.31
SkipClick	6.49	9.16

На 2,336 клика меньше, чем SAM (NoC@85)
На 7,946 кликов меньше, чем HQ-SAM (NoC@85)

Современные результаты на HQSeg-44k

Метод	NoC@90	NoC@95
HQ-SAM	6.49	10.79
SkipClick	6.00	9.89

Сравнение времени ответа

SkipClick: 6.61 мс (самый быстрый)
SAM: 15.01 мс
HQ-SAM: 18.83 мс
SAM + Schön et al.: 41.38 мс

Абляционные эксперименты

Конфигурация	Средний NoC@85 WSESeg	Средний NoC@90 WSESeg
Базовая	9.463	12.031
+Замораживание магистрали	9.416	11.951
+Промежуточные признаки	7.285	10.344
+Пропускающие соединения	6.494	9.163

Ключевые выводы:

Замораживание магистральной сети: Небольшое улучшение (9.463→9.416)
Интеграция промежуточных признаков: Значительное улучшение (9.416→7.285)
Пропускающие соединения: Дальнейшее улучшение (7.285→6.494)

Проверка способности к обобщению

Производительность на универсальных наборах данных доказывает, что модель не переобучена на область зимних видов спорта:

Набор данных	Полный SkipClick NoC@90
GrabCut	1.44
Berkeley	2.45
DAVIS	4.94
SBD	6.18

Связанные работы

Приложения в спортивной сегментации

Сегментация спортсменов в футболе и баскетболе 3,9
Отслеживание и сегментация острия шпаги в фехтовании 40
Обнаружение ключевых точек лыжного снаряжения 31,32

Развитие интерактивной сегментации

Методы ранней интеграции: RITM 44, FocalClick 2, SimpleClick 28 — хорошее качество, но медленный ответ
Методы поздней интеграции: SAM 20, InterFormer 15 — быстрый ответ, но возможное снижение качества
Адаптация к домену: Методы онлайн-адаптации 22,23,41,42

Заключение и обсуждение

Основные выводы

SkipClick значительно превосходит SAM и HQ-SAM в задаче сегментации зимнего спортивного снаряжения
Многоуровневая интеграция признаков и пропускающие соединения критически важны для обработки тонких структур
Замораживание предварительно обученной магистральной сети помогает сохранить способность к обобщению
Модель показывает конкурентоспособные результаты на универсальных наборах данных, что доказывает хорошую способность к обобщению

Ограничения

Размер набора данных: Данные обучения меньше, чем набор данных SA-1B для SAM
Специфика домена: Хотя доказана способность к обобщению, модель в основном оптимизирована для сцен зимних видов спорта
Вычислительные ресурсы: Требует магистральную сеть ViT-B, предъявляет определенные требования к вычислительным ресурсам

Направления будущих исследований

Расширение на задачи сегментации в других спортивных областях
Исследование более легких архитектурных решений
Изучение более эффективных способов взаимодействия с пользователем

Глубокая оценка

Преимущества

Высокая практическая ценность: Решает проблему баланса между скоростью ответа и качеством сегментации в практических приложениях
Технические инновации: Умело объединяет многоуровневые признаки и пропускающие соединения, эффективно обрабатывает тонкие структуры
Полные эксперименты: Включает детальные абляционные эксперименты и проверку на нескольких наборах данных
Вклад набора данных: Набор данных SHSeg заполняет пробел в сегментации лыжников
Проверка обобщения: Способность к обобщению проверена на нескольких универсальных наборах данных

Недостатки

Теоретический анализ: Отсутствует глубокий теоретический анализ того, почему многоуровневая интеграция признаков эффективна
Исследование пользователей: Отсутствует оценка опыта реальных пользователей
Граничные случаи: Недостаточный анализ производительности в экстремальных погодных условиях или при плохом освещении
Ограниченное сравнение: Основное сравнение с семейством SAM, отсутствует сравнение с другими методами поздней интеграции

Влияние

Академическая ценность: Предоставляет эффективное решение для интерактивной сегментации в специальных областях
Практическая ценность: Имеет прямую ценность в приложениях спортивного анализа, видеоаннотирования и т.д.
Воспроизводимость: Предоставляет детальные детали реализации и обещание кода

Применимые сценарии

Анализ спортивных видео: Особенно подходит для точной сегментации снаряжения и персонала в зимних видах спорта
Инструменты видеоаннотирования: Может быть интегрирован в системы видеоаннотирования для повышения эффективности
Сегментация тонких структур: Подходит для задач сегментации, требующих обработки сложных границ
Интерактивные приложения: Характеристика быстрого ответа делает её подходящей для интерактивных приложений

Библиография

Статья цитирует 46 соответствующих источников, включая:

20 SAM: Segment Anything Model
18 HQ-SAM: Segment Anything in High Quality
28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
41 Работы, связанные с набором данных WSESeg
44 RITM: Reviving Iterative Training with Mask Guidance

Общая оценка: Это высококачественная статья в области компьютерного зрения, которая предлагает эффективное решение для интерактивной сегментации в специальной, но важной области зимних видов спорта. Технический подход обоснован, экспериментальная проверка полна, работа имеет хорошую практическую ценность и академический вклад.