In this paper, we present a novel architecture for interactive segmentation in winter sports contexts. The field of interactive segmentation deals with the prediction of high-quality segmentation masks by informing the network about the objects position with the help of user guidance. In our case the guidance consists of click prompts. For this task, we first present a baseline architecture which is specifically geared towards quickly responding after each click. Afterwards, we motivate and describe a number of architectural modifications which improve the performance when tasked with segmenting winter sports equipment on the WSESeg dataset. With regards to the average NoC@85 metric on the WSESeg classes, we outperform SAM and HQ-SAM by 2.336 and 7.946 clicks, respectively. When applied to the HQSeg-44k dataset, our system delivers state-of-the-art results with a NoC@90 of 6.00 and NoC@95 of 9.89. In addition to that, we test our model on a novel dataset containing masks for humans during skiing.
academicSkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
- 论文ID: 2501.07960
- 标题: SkipClick: Combining Quick Responses and Low-Level Features for Interactive Segmentation in Winter Sports Contexts
- 作者: Robin Schön, Julian Lorenz, Daniel Kienzle, Rainer Lienhart
- 所属机构: University of Augsburg, Germany
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年1月
- 论文链接: https://arxiv.org/abs/2501.07960
本文提出了一种针对冬季运动场景的新型交互式分割架构SkipClick。交互式分割通过用户引导信息来预测高质量分割掩码,本文使用点击提示作为引导方式。作者首先提出了一个专门针对点击后快速响应的基线架构,然后描述了多项架构改进来提升在WSESeg数据集上分割冬季运动装备的性能。在WSESeg类别的平均NoC@85指标上,该方法分别比SAM和HQ-SAM减少了2.336和7.946次点击。在HQSeg-44k数据集上,该系统达到了最先进的结果,NoC@90为6.00,NoC@95为9.89。此外,作者还在新提出的滑雪人体分割数据集上测试了模型。
- 核心问题: 在冬季运动场景中,需要精确定位运动员和相关装备,特别是运动装备的分割任务日益重要
- 标注挑战: 分割掩码标注耗时且困难,特别是对于精细结构的标注
- 领域特殊性: 冬季运动装备在通用数据集中出现较少,存在领域适应问题
- 运动分析中对装备精确定位的需求增长
- 交互式分割可大幅减少人工标注时间
- 冬季运动场景具有独特的视觉特征(雪景、精细装备结构)
- SAM的问题: 尽管在SA-1B数据集(11亿掩码)上训练,但在冬季运动装备领域泛化能力不足
- 响应时间: 早期融合方法需要重新运行整个网络,响应慢
- 细节处理: 现有方法难以处理冬季运动装备的精细结构
- 实时交互式分割模型: 提出了能够在冬季运动等特殊领域进行分割的实时模型,特别关注处理图像中的精细结构
- 架构创新: 通过消融实验验证了模型在WSESeg数据集上的性能,甚至超越了在更大数据集上训练的SAM
- 泛化能力: 证明模型未过拟合到冬季运动领域,在通用消费者图像数据集上表现具有竞争力
- 新数据集: 提出了SHSeg(滑雪人体分割)数据集,包含534个分割掩码和496张图像
交互式分割任务定义为:给定图像 ximg∈RH×W×3,目标是创建高质量分割掩码 m∈{0,1}H×W,其中1表示目标对象,0表示背景。
用户通过迭代交互提供指导:
- 用户检查当前掩码 mτ
- 放置点击 pτ=(iτ,jτ,lτ),其中 (iτ,jτ) 是坐标,lτ∈{+,−} 是前景/背景标签
- 网络根据 ximg、mτ 和累积点击 p0:τ 生成改进掩码 mτ+1
- 骨干网络: 使用DINOv2预训练的ViT-B,避免标注数据的偏见
- 图像特征提取:
fimg=Linear(ViTBackbone(ximg))∈R14H×14W×dmodel
- 提示编码: 将正负点击编码为半径5像素的圆盘,生成点击图 m+,m−fprompt=PatchEmbedding(Concat(m+,m−,mτ))
- 特征融合:
fmix=fimg+fpromptf^mix=ViTBlocks(fmix)
- 掩码解码: 使用FPN和SegFormer解码器生成最终掩码
- 冻结骨干网络: 防止过拟合,保持泛化能力
- 多层特征融合: 使用ViT的第3、6、9、12层特征
f1,f2,f3,f4=ViTBackbone(ximg)fimg=Linear(Concat(f1,f2,f3,f4))
- 跳跃连接: 类似U-Net的设计
f^i=Concat(f^mix,fi) for i=1,2,3,4
- 后期融合策略: 图像编码只需执行一次,交互后仅运行轻量级掩码预测器
- 多尺度特征集成: 结合不同层次的特征以保留细粒度信息
- 跳跃连接设计: 在提示集成后仍能访问中间特征,处理精细结构
- 冻结策略: 通过冻结骨干网络保持预训练模型的泛化能力
- 训练数据: COCO+LVIS组合数据集(99k图像,150万掩码)
- 评估数据集:
- WSESeg: 7452个掩码,10个冬季运动装备类别
- SHSeg: 534个滑雪者掩码,496张图像(新提出)
- HQSeg-44k: 高质量标注数据集
- 通用数据集: GrabCut, Berkeley, DAVIS, SBD
- NoC@θ: 达到IoU阈值θ所需的点击次数
- 主要指标: NoC@85, NoC@90, NoC@95
- 上限: 最多20次点击
- 优化器: Adam (lr=5×10⁻⁵, β₁=0.9, β₂=0.999)
- 损失函数: Focal Loss
- 训练: 55个epoch,每epoch 30,000张图像
- 分辨率: WSESeg/SHSeg/HQSeg-44k使用896×896,DAVIS使用672×672
- 随机采样: 初始最多24个随机点,迭代训练3轮
| 方法 | NoC@85 | NoC@90 |
|---|
| SAM | 8.83 | 11.86 |
| HQ-SAM | 14.44 | 16.31 |
| SkipClick | 6.49 | 9.16 |
- 比SAM减少2.336次点击(NoC@85)
- 比HQ-SAM减少7.946次点击(NoC@85)
| 方法 | NoC@90 | NoC@95 |
|---|
| HQ-SAM | 6.49 | 10.79 |
| SkipClick | 6.00 | 9.89 |
- SkipClick: 6.61ms(最快)
- SAM: 15.01ms
- HQ-SAM: 18.83ms
- SAM + Schön et al.: 41.38ms
| 配置 | WSESeg平均NoC@85 | WSESeg平均NoC@90 |
|---|
| 基线 | 9.463 | 12.031 |
| +冻结骨干 | 9.416 | 11.951 |
| +中间特征 | 7.285 | 10.344 |
| +跳跃连接 | 6.494 | 9.163 |
关键发现:
- 冻结骨干网络: 轻微改善(9.463→9.416)
- 中间特征融合: 显著改善(9.416→7.285)
- 跳跃连接: 进一步改善(7.285→6.494)
在通用数据集上的表现证明模型未过拟合到冬季运动领域:
| 数据集 | 完整SkipClick NoC@90 |
|---|
| GrabCut | 1.44 |
| Berkeley | 2.45 |
| DAVIS | 4.94 |
| SBD | 6.18 |
- 足球、篮球运动员分割3,9
- 击剑剑尖追踪和分割40
- 滑雪装备关键点检测31,32
- 早期融合方法: RITM44, FocalClick2, SimpleClick28 - 质量好但响应慢
- 后期融合方法: SAM20, InterFormer15 - 响应快但可能牺牲质量
- 领域适应: 在线适应方法22,23,41,42
- SkipClick在冬季运动装备分割任务上显著优于SAM和HQ-SAM
- 多层特征融合和跳跃连接对处理精细结构至关重要
- 冻结预训练骨干网络有助于保持泛化能力
- 模型在通用数据集上表现具有竞争力,证明了良好的泛化性
- 数据集规模: 训练数据相比SAM的SA-1B数据集较小
- 领域特异性: 虽然证明了泛化能力,但主要针对冬季运动场景优化
- 计算资源: 需要ViT-B骨干网络,对计算资源有一定要求
- 扩展到更多运动领域的分割任务
- 探索更轻量级的架构设计
- 研究更高效的用户交互方式
- 实用价值高: 解决了实际应用中的响应速度和分割质量平衡问题
- 技术创新: 巧妙结合多层特征和跳跃连接,有效处理精细结构
- 实验充分: 包含详细消融实验和多数据集验证
- 贡献数据集: SHSeg数据集填补了滑雪者分割的空白
- 泛化验证: 在多个通用数据集上验证了方法的普适性
- 理论分析: 缺乏对为什么多层特征融合有效的深入理论分析
- 用户研究: 缺乏真实用户使用体验的评估
- 边界情况: 对极端天气或光照条件下的表现分析不足
- 比较局限: 主要与SAM系列比较,缺乏与其他后期融合方法的对比
- 学术价值: 为特定领域的交互式分割提供了有效解决方案
- 实用价值: 在体育分析、视频标注等应用中具有直接价值
- 可复现性: 提供了详细的实现细节和代码承诺
- 体育视频分析: 特别适合冬季运动装备和人员的精确分割
- 视频标注工具: 可集成到视频标注系统中提高效率
- 精细结构分割: 适用于需要处理复杂边界的分割任务
- 实时应用: 快速响应特性使其适合交互式应用
论文引用了46篇相关文献,主要包括:
- 20 SAM: Segment Anything Model
- 18 HQ-SAM: Segment Anything in High Quality
- 28 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers
- 41 WSESeg数据集相关工作
- 44 RITM: Reviving Iterative Training with Mask Guidance
总体评价: 这是一篇高质量的计算机视觉论文,针对冬季运动这一特定但重要的应用场景,提出了有效的交互式分割解决方案。技术方案合理,实验验证充分,具有良好的实用价值和学术贡献。