2025-11-16T00:28:11.703942

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

Schön, Lorenz, Kienzle et al.
In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academic

SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts

基本信息

  • 论文ID: 2501.07960
  • 标题: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
  • 作者: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
  • 所属机构: University of Augsburg, Germany
  • 分类: cs.CV (Computer Vision)
  • 发表时间: 2025年1月
  • 论文链接: https://arxiv.org/abs/2501.07960

摘要

本文提出了一种针对冬季运动场景的新型交互式分割架构SkipClick。交互式分割通过用户引导信息来预测高质量分割掩码,本文使用点击提示作为引导方式。作者首先提出了一个专门针对点击后快速响应的基线架构,然后描述了多项架构改进来提升在WSESeg数据集上分割冬季运动装备的性能。在WSESeg类别的平均NoC@85指标上,该方法分别比SAM和HQ-SAM减少了2.336和7.946次点击。在HQSeg-44k数据集上,该系统达到了最先进的结果,NoC@90为6.00,NoC@95为9.89。此外,作者还在新提出的滑雪人体分割数据集上测试了模型。

研究背景与动机

问题定义

  1. 核心问题: 在冬季运动场景中,需要精确定位运动员和相关装备,特别是运动装备的分割任务日益重要
  2. 标注挑战: 分割掩码标注耗时且困难,特别是对于精细结构的标注
  3. 领域特殊性: 冬季运动装备在通用数据集中出现较少,存在领域适应问题

重要性

  • 运动分析中对装备精确定位的需求增长
  • 交互式分割可大幅减少人工标注时间
  • 冬季运动场景具有独特的视觉特征(雪景、精细装备结构)

现有方法局限性

  1. SAM的问题: 尽管在SA-1B数据集(11亿掩码)上训练,但在冬季运动装备领域泛化能力不足
  2. 响应时间: 早期融合方法需要重新运行整个网络,响应慢
  3. 细节处理: 现有方法难以处理冬季运动装备的精细结构

核心贡献

  1. 实时交互式分割模型: 提出了能够在冬季运动等特殊领域进行分割的实时模型,特别关注处理图像中的精细结构
  2. 架构创新: 通过消融实验验证了模型在WSESeg数据集上的性能,甚至超越了在更大数据集上训练的SAM
  3. 泛化能力: 证明模型未过拟合到冬季运动领域,在通用消费者图像数据集上表现具有竞争力
  4. 新数据集: 提出了SHSeg(滑雪人体分割)数据集,包含534个分割掩码和496张图像

方法详解

任务定义

交互式分割任务定义为:给定图像 ximgRH×W×3x_{img} \in \mathbb{R}^{H×W×3},目标是创建高质量分割掩码 m{0,1}H×Wm \in \{0,1\}^{H×W},其中1表示目标对象,0表示背景。

用户通过迭代交互提供指导:

  1. 用户检查当前掩码 mτm_τ
  2. 放置点击 pτ=(iτ,jτ,lτ)p_τ = (i_τ, j_τ, l_τ),其中 (iτ,jτ)(i_τ, j_τ) 是坐标,lτ{+,}l_τ \in \{+,-\} 是前景/背景标签
  3. 网络根据 ximgx_{img}mτm_τ 和累积点击 p0:τp_{0:τ} 生成改进掩码 mτ+1m_{τ+1}

模型架构

基线架构

  1. 骨干网络: 使用DINOv2预训练的ViT-B,避免标注数据的偏见
  2. 图像特征提取: fimg=Linear(ViTBackbone(ximg))RH14×W14×dmodelf_{img} = \text{Linear}(\text{ViTBackbone}(x_{img})) \in \mathbb{R}^{\frac{H}{14}×\frac{W}{14}×d_{model}}
  3. 提示编码: 将正负点击编码为半径5像素的圆盘,生成点击图 m+,mm^+, m^-fprompt=PatchEmbedding(Concat(m+,m,mτ))f_{prompt} = \text{PatchEmbedding}(\text{Concat}(m^+, m^-, m_τ))
  4. 特征融合: fmix=fimg+fpromptf_{mix} = f_{img} + f_{prompt}f^mix=ViTBlocks(fmix)\hat{f}_{mix} = \text{ViTBlocks}(f_{mix})
  5. 掩码解码: 使用FPN和SegFormer解码器生成最终掩码

SkipClick完整架构

  1. 冻结骨干网络: 防止过拟合,保持泛化能力
  2. 多层特征融合: 使用ViT的第3、6、9、12层特征 f1,f2,f3,f4=ViTBackbone(ximg)f_1, f_2, f_3, f_4 = \text{ViTBackbone}(x_{img})fimg=Linear(Concat(f1,f2,f3,f4))f_{img} = \text{Linear}(\text{Concat}(f_1, f_2, f_3, f_4))
  3. 跳跃连接: 类似U-Net的设计 f^i=Concat(f^mix,fi) for i=1,2,3,4\hat{f}_i = \text{Concat}(\hat{f}_{mix}, f_i) \text{ for } i = 1,2,3,4

技术创新点

  1. 后期融合策略: 图像编码只需执行一次,交互后仅运行轻量级掩码预测器
  2. 多尺度特征集成: 结合不同层次的特征以保留细粒度信息
  3. 跳跃连接设计: 在提示集成后仍能访问中间特征,处理精细结构
  4. 冻结策略: 通过冻结骨干网络保持预训练模型的泛化能力

实验设置

数据集

  1. 训练数据: COCO+LVIS组合数据集(99k图像,150万掩码)
  2. 评估数据集:
    • WSESeg: 7452个掩码,10个冬季运动装备类别
    • SHSeg: 534个滑雪者掩码,496张图像(新提出)
    • HQSeg-44k: 高质量标注数据集
    • 通用数据集: GrabCut, Berkeley, DAVIS, SBD

评价指标

  • NoC@θ: 达到IoU阈值θ所需的点击次数
  • 主要指标: NoC@85, NoC@90, NoC@95
  • 上限: 最多20次点击

实现细节

  • 优化器: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
  • 损失函数: Focal Loss
  • 训练: 55个epoch,每epoch 30,000张图像
  • 分辨率: WSESeg/SHSeg/HQSeg-44k使用896×896,DAVIS使用672×672
  • 随机采样: 初始最多24个随机点,迭代训练3轮

实验结果

主要结果

WSESeg数据集表现

方法NoC@85NoC@90
SAM8.8311.86
HQ-SAM14.4416.31
SkipClick6.499.16
  • 比SAM减少2.336次点击(NoC@85)
  • 比HQ-SAM减少7.946次点击(NoC@85)

HQSeg-44k达到SOTA

方法NoC@90NoC@95
HQ-SAM6.4910.79
SkipClick6.009.89

响应时间对比

  • SkipClick: 6.61ms(最快)
  • SAM: 15.01ms
  • HQ-SAM: 18.83ms
  • SAM + Schön et al.: 41.38ms

消融实验

配置WSESeg平均NoC@85WSESeg平均NoC@90
基线9.46312.031
+冻结骨干9.41611.951
+中间特征7.28510.344
+跳跃连接6.4949.163

关键发现:

  1. 冻结骨干网络: 轻微改善(9.463→9.416)
  2. 中间特征融合: 显著改善(9.416→7.285)
  3. 跳跃连接: 进一步改善(7.285→6.494)

泛化能力验证

在通用数据集上的表现证明模型未过拟合到冬季运动领域:

数据集完整SkipClick NoC@90
GrabCut1.44
Berkeley2.45
DAVIS4.94
SBD6.18

相关工作

运动分割应用

  • 足球、篮球运动员分割3,9
  • 击剑剑尖追踪和分割40
  • 滑雪装备关键点检测31,32

交互式分割发展

  1. 早期融合方法: RITM44, FocalClick2, SimpleClick28 - 质量好但响应慢
  2. 后期融合方法: SAM20, InterFormer15 - 响应快但可能牺牲质量
  3. 领域适应: 在线适应方法22,23,41,42

结论与讨论

主要结论

  1. SkipClick在冬季运动装备分割任务上显著优于SAM和HQ-SAM
  2. 多层特征融合和跳跃连接对处理精细结构至关重要
  3. 冻结预训练骨干网络有助于保持泛化能力
  4. 模型在通用数据集上表现具有竞争力,证明了良好的泛化性

局限性

  1. 数据集规模: 训练数据相比SAM的SA-1B数据集较小
  2. 领域特异性: 虽然证明了泛化能力,但主要针对冬季运动场景优化
  3. 计算资源: 需要ViT-B骨干网络,对计算资源有一定要求

未来方向

  1. 扩展到更多运动领域的分割任务
  2. 探索更轻量级的架构设计
  3. 研究更高效的用户交互方式

深度评价

优点

  1. 实用价值高: 解决了实际应用中的响应速度和分割质量平衡问题
  2. 技术创新: 巧妙结合多层特征和跳跃连接,有效处理精细结构
  3. 实验充分: 包含详细消融实验和多数据集验证
  4. 贡献数据集: SHSeg数据集填补了滑雪者分割的空白
  5. 泛化验证: 在多个通用数据集上验证了方法的普适性

不足

  1. 理论分析: 缺乏对为什么多层特征融合有效的深入理论分析
  2. 用户研究: 缺乏真实用户使用体验的评估
  3. 边界情况: 对极端天气或光照条件下的表现分析不足
  4. 比较局限: 主要与SAM系列比较,缺乏与其他后期融合方法的对比

影响力

  1. 学术价值: 为特定领域的交互式分割提供了有效解决方案
  2. 实用价值: 在体育分析、视频标注等应用中具有直接价值
  3. 可复现性: 提供了详细的实现细节和代码承诺

适用场景

  1. 体育视频分析: 特别适合冬季运动装备和人员的精确分割
  2. 视频标注工具: 可集成到视频标注系统中提高效率
  3. 精细结构分割: 适用于需要处理复杂边界的分割任务
  4. 实时应用: 快速响应特性使其适合交互式应用

参考文献

论文引用了46篇相关文献,主要包括:

  • 20 SAM: Segment Anything Model
  • 18 HQ-SAM: Segment Anything in High Quality
  • 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
  • 41 WSESeg数据集相关工作
  • 44 RITM: Reviving Iterative Training with Mask Guidance

总体评价: 这是一篇高质量的计算机视觉论文,针对冬季运动这一特定但重要的应用场景,提出了有效的交互式分割解决方案。技术方案合理,实验验证充分,具有良好的实用价值和学术贡献。