In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
- ID статьи: 2501.07960
- Название: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
- Авторы: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
- Учреждение: Университет Аугсбурга, Германия
- Категория: cs.CV (Компьютерное зрение)
- Дата публикации: Январь 2025
- Ссылка на статью: https://arxiv.org/abs/2501.07960
В данной работе предлагается новая архитектура интерактивной сегментации SkipClick, специально разработанная для сцен зимних видов спорта. Интерактивная сегментация предсказывает высококачественные маски сегментации на основе пользовательского руководства; в качестве метода руководства используются клики. Авторы сначала предлагают базовую архитектуру для быстрого ответа после клика, а затем описывают несколько архитектурных улучшений для повышения производительности при сегментации зимнего спортивного снаряжения на наборе данных WSESeg. По метрике среднего NoC@85 на категориях WSESeg метод требует на 2,336 и 7,946 кликов меньше, чем SAM и HQ-SAM соответственно. На наборе данных HQSeg-44k система достигает современных результатов с NoC@90 = 6,00 и NoC@95 = 9,89. Кроме того, модель протестирована на новом предложенном наборе данных для сегментации лыжников.
- Основная проблема: В сценах зимних видов спорта требуется точная локализация спортсменов и соответствующего снаряжения, особенно задача сегментации спортивного снаряжения становится все более важной
- Проблемы аннотирования: Аннотирование масок сегментации требует много времени и сложно, особенно для аннотирования тонких структур
- Специфика домена: Зимнее спортивное снаряжение редко встречается в универсальных наборах данных, что создает проблемы адаптации к домену
- Растущий спрос на точную локализацию снаряжения в спортивном анализе
- Интерактивная сегментация может значительно сократить время ручного аннотирования
- Сцены зимних видов спорта имеют уникальные визуальные характеристики (снежные пейзажи, тонкие структуры снаряжения)
- Проблемы SAM: Несмотря на обучение на наборе данных SA-1B (1,1 млрд масок), способность к обобщению в области зимнего спортивного снаряжения недостаточна
- Время ответа: Методы ранней интеграции требуют повторного запуска всей сети, что приводит к медленному ответу
- Обработка деталей: Существующие методы испытывают трудности при обработке тонких структур зимнего спортивного снаряжения
- Модель интерактивной сегментации в реальном времени: Предложена модель, способная выполнять сегментацию в специальных областях, таких как зимние виды спорта, с особым акцентом на обработку тонких структур в изображениях
- Архитектурные инновации: Через абляционные эксперименты проверена производительность модели на наборе данных WSESeg, даже превосходящая SAM, обученный на более крупных наборах данных
- Способность к обобщению: Доказано, что модель не переобучена на область зимних видов спорта и показывает конкурентоспособные результаты на универсальных наборах данных потребительских изображений
- Новый набор данных: Предложен набор данных SHSeg (сегментация лыжников), содержащий 534 маски сегментации и 496 изображений
Задача интерактивной сегментации определяется следующим образом: дано изображение ximg∈RH×W×3, целью является создание высококачественной маски сегментации m∈{0,1}H×W, где 1 обозначает целевой объект, а 0 обозначает фон.
Пользователь предоставляет руководство через итеративное взаимодействие:
- Пользователь проверяет текущую маску mτ
- Размещает клик pτ=(iτ,jτ,lτ), где (iτ,jτ) — координаты, lτ∈{+,−} — метка переднего плана/фона
- Сеть генерирует улучшенную маску mτ+1 на основе ximg, mτ и накопленных кликов p0:τ
- Магистральная сеть: Используется предварительно обученный ViT-B на DINOv2, что избегает смещения от аннотированных данных
- Извлечение признаков изображения:
fimg=Linear(ViTBackbone(ximg))∈R14H×14W×dmodel
- Кодирование подсказок: Положительные и отрицательные клики кодируются как диски радиусом 5 пикселей, генерируя карты кликов m+,m−fprompt=PatchEmbedding(Concat(m+,m−,mτ))
- Интеграция признаков:
fmix=fimg+fpromptf^mix=ViTBlocks(fmix)
- Декодирование маски: Использует декодер FPN и SegFormer для генерации финальной маски
- Замораживание магистральной сети: Предотвращает переобучение, сохраняет способность к обобщению
- Многоуровневая интеграция признаков: Использует признаки из слоев 3, 6, 9, 12 ViT
f1,f2,f3,f4=ViTBackbone(ximg)fimg=Linear(Concat(f1,f2,f3,f4))
- Пропускающие соединения: Дизайн, аналогичный U-Net
f^i=Concat(f^mix,fi) для i=1,2,3,4
- Стратегия поздней интеграции: Кодирование изображения выполняется только один раз, после взаимодействия запускается только легкий предсказатель маски
- Интеграция многомасштабных признаков: Объединяет признаки разных уровней для сохранения информации с высокой детализацией
- Дизайн пропускающих соединений: Обеспечивает доступ к промежуточным признакам после интеграции подсказок для обработки тонких структур
- Стратегия замораживания: Сохраняет способность к обобщению предварительно обученной модели путем замораживания магистральной сети
- Данные обучения: Комбинированный набор данных COCO+LVIS (99 тыс. изображений, 1,5 млн масок)
- Наборы данных оценки:
- WSESeg: 7452 маски, 10 категорий зимнего спортивного снаряжения
- SHSeg: 534 маски лыжников, 496 изображений (новый)
- HQSeg-44k: Набор данных с высококачественной аннотацией
- Универсальные наборы данных: GrabCut, Berkeley, DAVIS, SBD
- NoC@θ: Количество кликов, необходимых для достижения порога IoU θ
- Основные метрики: NoC@85, NoC@90, NoC@95
- Верхний предел: Максимум 20 кликов
- Оптимизатор: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
- Функция потерь: Focal Loss
- Обучение: 55 эпох, 30 000 изображений на эпоху
- Разрешение: 896×896 для WSESeg/SHSeg/HQSeg-44k, 672×672 для DAVIS
- Случайная выборка: Начально до 24 случайных точек, итеративное обучение в 3 раунда
| Метод | NoC@85 | NoC@90 |
|---|
| SAM | 8.83 | 11.86 |
| HQ-SAM | 14.44 | 16.31 |
| SkipClick | 6.49 | 9.16 |
- На 2,336 клика меньше, чем SAM (NoC@85)
- На 7,946 кликов меньше, чем HQ-SAM (NoC@85)
| Метод | NoC@90 | NoC@95 |
|---|
| HQ-SAM | 6.49 | 10.79 |
| SkipClick | 6.00 | 9.89 |
- SkipClick: 6.61 мс (самый быстрый)
- SAM: 15.01 мс
- HQ-SAM: 18.83 мс
- SAM + Schön et al.: 41.38 мс
| Конфигурация | Средний NoC@85 WSESeg | Средний NoC@90 WSESeg |
|---|
| Базовая | 9.463 | 12.031 |
| +Замораживание магистрали | 9.416 | 11.951 |
| +Промежуточные признаки | 7.285 | 10.344 |
| +Пропускающие соединения | 6.494 | 9.163 |
Ключевые выводы:
- Замораживание магистральной сети: Небольшое улучшение (9.463→9.416)
- Интеграция промежуточных признаков: Значительное улучшение (9.416→7.285)
- Пропускающие соединения: Дальнейшее улучшение (7.285→6.494)
Производительность на универсальных наборах данных доказывает, что модель не переобучена на область зимних видов спорта:
| Набор данных | Полный SkipClick NoC@90 |
|---|
| GrabCut | 1.44 |
| Berkeley | 2.45 |
| DAVIS | 4.94 |
| SBD | 6.18 |
- Сегментация спортсменов в футболе и баскетболе 3,9
- Отслеживание и сегментация острия шпаги в фехтовании 40
- Обнаружение ключевых точек лыжного снаряжения 31,32
- Методы ранней интеграции: RITM 44, FocalClick 2, SimpleClick 28 — хорошее качество, но медленный ответ
- Методы поздней интеграции: SAM 20, InterFormer 15 — быстрый ответ, но возможное снижение качества
- Адаптация к домену: Методы онлайн-адаптации 22,23,41,42
- SkipClick значительно превосходит SAM и HQ-SAM в задаче сегментации зимнего спортивного снаряжения
- Многоуровневая интеграция признаков и пропускающие соединения критически важны для обработки тонких структур
- Замораживание предварительно обученной магистральной сети помогает сохранить способность к обобщению
- Модель показывает конкурентоспособные результаты на универсальных наборах данных, что доказывает хорошую способность к обобщению
- Размер набора данных: Данные обучения меньше, чем набор данных SA-1B для SAM
- Специфика домена: Хотя доказана способность к обобщению, модель в основном оптимизирована для сцен зимних видов спорта
- Вычислительные ресурсы: Требует магистральную сеть ViT-B, предъявляет определенные требования к вычислительным ресурсам
- Расширение на задачи сегментации в других спортивных областях
- Исследование более легких архитектурных решений
- Изучение более эффективных способов взаимодействия с пользователем
- Высокая практическая ценность: Решает проблему баланса между скоростью ответа и качеством сегментации в практических приложениях
- Технические инновации: Умело объединяет многоуровневые признаки и пропускающие соединения, эффективно обрабатывает тонкие структуры
- Полные эксперименты: Включает детальные абляционные эксперименты и проверку на нескольких наборах данных
- Вклад набора данных: Набор данных SHSeg заполняет пробел в сегментации лыжников
- Проверка обобщения: Способность к обобщению проверена на нескольких универсальных наборах данных
- Теоретический анализ: Отсутствует глубокий теоретический анализ того, почему многоуровневая интеграция признаков эффективна
- Исследование пользователей: Отсутствует оценка опыта реальных пользователей
- Граничные случаи: Недостаточный анализ производительности в экстремальных погодных условиях или при плохом освещении
- Ограниченное сравнение: Основное сравнение с семейством SAM, отсутствует сравнение с другими методами поздней интеграции
- Академическая ценность: Предоставляет эффективное решение для интерактивной сегментации в специальных областях
- Практическая ценность: Имеет прямую ценность в приложениях спортивного анализа, видеоаннотирования и т.д.
- Воспроизводимость: Предоставляет детальные детали реализации и обещание кода
- Анализ спортивных видео: Особенно подходит для точной сегментации снаряжения и персонала в зимних видах спорта
- Инструменты видеоаннотирования: Может быть интегрирован в системы видеоаннотирования для повышения эффективности
- Сегментация тонких структур: Подходит для задач сегментации, требующих обработки сложных границ
- Интерактивные приложения: Характеристика быстрого ответа делает её подходящей для интерактивных приложений
Статья цитирует 46 соответствующих источников, включая:
- 20 SAM: Segment Anything Model
- 18 HQ-SAM: Segment Anything in High Quality
- 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
- 41 Работы, связанные с набором данных WSESeg
- 44 RITM: Reviving Iterative Training with Mask Guidance
Общая оценка: Это высококачественная статья в области компьютерного зрения, которая предлагает эффективное решение для интерактивной сегментации в специальной, но важной области зимних видов спорта. Технический подход обоснован, экспериментальная проверка полна, работа имеет хорошую практическую ценность и академический вклад.