2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

SchÃ¶n, Lorenz, Kienzle et al.

In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.

academic

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

基本信息

论文ID: 2501.07960
标题: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
作者: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
所属机构: University of Augsburg, Germany
分类: cs.CV (Computer Vision)
发表时间: 2025年1月
论文链接: https://arxiv.org/abs/2501.07960

摘要

本文提出了一种针对冬季运动场景的新型交互式分割架构SkipClick。交互式分割通过用户引导信息来预测高质量分割掩码，本文使用点击提示作为引导方式。作者首先提出了一个专门针对点击后快速响应的基线架构，然后描述了多项架构改进来提升在WSESeg数据集上分割冬季运动装备的性能。在WSESeg类别的平均NoC@85指标上，该方法分别比SAM和HQ-SAM减少了2.336和7.946次点击。在HQSeg-44k数据集上，该系统达到了最先进的结果，NoC@90为6.00，NoC@95为9.89。此外，作者还在新提出的滑雪人体分割数据集上测试了模型。

研究背景与动机

问题定义

核心问题: 在冬季运动场景中，需要精确定位运动员和相关装备，特别是运动装备的分割任务日益重要
标注挑战: 分割掩码标注耗时且困难，特别是对于精细结构的标注
领域特殊性: 冬季运动装备在通用数据集中出现较少，存在领域适应问题

重要性

运动分析中对装备精确定位的需求增长
交互式分割可大幅减少人工标注时间
冬季运动场景具有独特的视觉特征（雪景、精细装备结构）

现有方法局限性

SAM的问题: 尽管在SA-1B数据集（11亿掩码）上训练，但在冬季运动装备领域泛化能力不足
响应时间: 早期融合方法需要重新运行整个网络，响应慢
细节处理: 现有方法难以处理冬季运动装备的精细结构

核心贡献

实时交互式分割模型: 提出了能够在冬季运动等特殊领域进行分割的实时模型，特别关注处理图像中的精细结构
架构创新: 通过消融实验验证了模型在WSESeg数据集上的性能，甚至超越了在更大数据集上训练的SAM
泛化能力: 证明模型未过拟合到冬季运动领域，在通用消费者图像数据集上表现具有竞争力
新数据集: 提出了SHSeg（滑雪人体分割）数据集，包含534个分割掩码和496张图像

方法详解

任务定义

交互式分割任务定义为：给定图像 $x_{img} \in \mathbb{R}^{H×W×3}$ ，目标是创建高质量分割掩码 $m \in \{0,1\}^{H×W}$ ，其中1表示目标对象，0表示背景。

用户通过迭代交互提供指导：

用户检查当前掩码 $m_τ$
放置点击 $p_τ = (i_τ, j_τ, l_τ)$ ，其中 $(i_τ, j_τ)$ 是坐标， $l_τ \in \{+,-\}$ 是前景/背景标签
网络根据 $x_{img}$ 、 $m_τ$ 和累积点击 $p_{0:τ}$ 生成改进掩码 $m_{τ+1}$

模型架构

基线架构

骨干网络: 使用DINOv2预训练的ViT-B，避免标注数据的偏见
图像特征提取: $f_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}$
提示编码: 将正负点击编码为半径5像素的圆盘，生成点击图 $m^+, m^-$ $f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))$
特征融合: $f_{mix} = f_{img} + f_{prompt}$ $\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})$
掩码解码: 使用FPN和SegFormer解码器生成最终掩码

SkipClick完整架构

冻结骨干网络: 防止过拟合，保持泛化能力
多层特征融合: 使用ViT的第3、6、9、12层特征 $f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})$ $f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))$
跳跃连接: 类似U-Net的设计 $\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ for } i = 1,2,3,4$

技术创新点

后期融合策略: 图像编码只需执行一次，交互后仅运行轻量级掩码预测器
多尺度特征集成: 结合不同层次的特征以保留细粒度信息
跳跃连接设计: 在提示集成后仍能访问中间特征，处理精细结构
冻结策略: 通过冻结骨干网络保持预训练模型的泛化能力

实验设置

数据集

训练数据: COCO+LVIS组合数据集（99k图像，150万掩码）
评估数据集:
- WSESeg: 7452个掩码，10个冬季运动装备类别
- SHSeg: 534个滑雪者掩码，496张图像（新提出）
- HQSeg-44k: 高质量标注数据集
- 通用数据集: GrabCut, Berkeley, DAVIS, SBD