We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.
- 论文ID: 2511.13944
- 标题: Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
- 作者: Noam Glazner (Bar-Ilan University), Noam Tsfaty (Afeka College of Engineering), Sharon Shalev (Independent Researcher), Avishai Weizman (Ben-Gurion University of the Negev)
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年11月17日提交至arXiv
- 论文链接: https://arxiv.org/abs/2511.13944v1
本文提出了一种基于聚类的帧选择策略,用于缓解视频衍生帧数据集中的信息泄漏问题。通过在划分训练集、验证集和测试集之前对视觉相似的帧进行分组,该方法能够产生更具代表性、平衡性和可靠性的数据集分区。
在深度学习研究中,从视频数据中提取帧来构建数据集是一种常见做法。然而,传统的随机划分方法会导致严重的信息泄漏问题:由于视频中连续帧之间存在高度的时空相关性(例如相同背景、相同物体但位置略有不同),如果这些相关帧被分散到训练集、验证集和测试集中,模型可能会"记住"训练集中的场景特征,从而在验证和测试集上获得虚高的性能评估。
- 模型评估失真:信息泄漏导致模型在测试集上的表现无法真实反映其泛化能力
- 过拟合风险:模型可能过度拟合特定场景而非学习通用特征
- 研究可靠性:影响目标检测等计算机视觉任务的研究结论可信度
- 实际应用差距:实验室性能与实际部署性能存在巨大差距
- 随机划分:完全忽略帧之间的时空相关性
- 视频级划分:过于粗粒度,可能导致数据分布不均衡
- 手动划分:劳动密集且难以扩展到大规模数据集
本文旨在提供一种简单、可扩展且可集成到现有数据集准备流程的解决方案,通过智能分组视觉相似的帧来确保相关图像保持在同一数据分区中,从而提高数据集划分的公平性和模型评估的鲁棒性。
- 提出聚类驱动的数据集划分方法:首次系统性地将聚类技术应用于视频衍生数据集的划分,通过将视觉相似的帧分组到同一分区来防止信息泄漏
- 全面的特征提取器评估:系统比较了7种不同的特征提取方法(从传统的SIFT、HOG到现代的CLIP、DINO-V3),为实践者提供了方法选择指导
- 即插即用的解决方案:提供了无需修改训练过程的数据集预处理管道,具有良好的可扩展性和实用性
- 实证验证:在ImageNet-VID和UCF101两个基准数据集上验证了方法的有效性,DINO-V3达到了0.96的V-measure和AMI分数
输入:一组未标注视频集合 V={V1,V2,…,VK},其中K为视频总数
输出:将所有提取的帧分配到训练集、验证集和测试集,确保视觉相似的帧(特别是来自同一视频的帧)被分配到同一分区
约束条件:
- 最小化分区间的信息泄漏
- 保持各分区的数据分布平衡
- 确保聚类结果与视频来源高度一致
整体流程包含三个主要阶段(如图1所示):
对每个视频 Vk 分解为帧序列 {Ik,1,Ik,2,…,Ik,Nk},其中 Nk 为从视频 Vk 提取的帧数。
对每一帧 Ik,i 提取特征向量:
fk,i=Φfeat(Ik,i)
其中 fk,i∈Rd 是d维特征向量,Φfeat(⋅) 是特征提取函数。
支持的特征提取方法:
- 传统描述符:
- SIFT 8,9:尺度不变特征变换,捕获局部纹理信息
- HOG 4:方向梯度直方图,编码梯度方向模式
- 轻量级学习特征:
- XFeat 5:通过轻量级卷积架构提供高效的关键点检测和描述
- 深度预训练模型:
- CLIP 3:对比语言-图像预训练,提供语义图像表示
- SigLIP 10:使用Sigmoid损失的语言-图像预训练
- DINO-V3 11:自监督视觉Transformer
- 聚合方法:
- VLAD 12:向量局部聚合描述符,应用于SIFT和XFeat,将局部关键点描述符组合成固定长度的紧凑特征向量(1024维)
降维:使用PaCMAP(Pairwise Controlled Manifold Approximation Projection)6将高维特征投影到低维嵌入空间:
zk,i=PPaCMAP(fk,i)
其中 zk,i∈Rm 是m维嵌入表示(本文设置m=256),PPaCMAP(⋅) 是PaCMAP投影算子。
聚类:采用HDBSCAN(Hierarchy of Density-Based Spatial Clustering)7算法对嵌入表示进行聚类。
选择HDBSCAN的理由:
- 能够发现任意形状的聚类
- 适应不同密度的数据分布
- 自动确定聚类数量
- 能够识别噪声点
- 比K-Means等中心点方法更适合视频数据的连续和非均匀特性
将聚类结果 Cj(包含帧 Ik,i 对应的特征 zk,i)作为划分的基本单元。每个聚类 Cj 代表视觉相关的帧,整个聚类被分配到同一数据分区(训练/验证/测试),从而防止数据泄漏。
- 密度聚类的应用:相比传统的视频级划分或随机划分,基于密度的聚类能够更精细地捕获帧间的视觉相似性,同时避免强制假设球形聚类
- 特征提取的系统性评估:不依赖单一特征提取方法,而是提供了从传统到现代的全面比较,使方法具有更好的适应性
- 两阶段降维策略:先用特定方法提取高维特征,再用PaCMAP统一降维到256维,既保留了语义信息又提高了聚类效率
- 即插即用设计:作为数据预处理步骤,不需要修改模型训练过程,具有良好的工程实用性
- 来源:ImageNet Large Scale Visual Recognition Challenge 2015 14
- 使用部分:验证集
- 特点:提供按对象synset分类的标注图像,适合评估目标检测中的信息泄漏
- 标注类型:图像级对象类别标注
- 来源:101类人类动作视频数据集 15
- 使用部分:所有分区
- 特点:包含修剪后的视频片段,视频级标签
- 预处理:每秒提取一帧以减少视觉冗余,确保连续帧不会几乎完全相同
- 挑战:时间变异性增加了聚类难度
- 定义:衡量预测聚类与真实标签之间的一致性,同时校正偶然因素
- 取值范围:0, 1,1表示完美匹配
- 优势:考虑了随机聚类的基线性能
- 定义:评估聚类的同质性(homogeneity)和完整性(completeness)之间的权衡
- 同质性:每个聚类中样本来自单一类别的程度
- 完整性:同一类别的样本共享同一聚类的程度
- 取值范围:0, 1,1表示最优
- 计算:同质性和完整性的调和平均
本文对比了7种特征提取方法的聚类性能:
- SIFT + VLAD
- HOG (224×224)
- HOG (128×128)
- XFeat + VLAD
- CLIP (ViT-B/32)
- SigLIP (ViT-B/16)
- DINO-V3 (ViT-B/16)
图像预处理:
- XFeat, CLIP, DINO, SigLIP:调整到224×224
- HOG:128×128或224×224(128×128表现略好且维度更低)
特征维度:
- VLAD向量:降维至1024维以提供统一表示
- PaCMAP嵌入:投影到256维空间 (m=256)
聚类算法:HDBSCAN(具体超参数未在文中详细说明)
表I展示了在ImageNet-VID和UCF101验证集上使用不同特征提取方法的聚类性能:
| 特征提取方法 | 数据集 | V-measure | AMI |
|---|
| SIFT + VLAD | ImageNet-VID | 0.81 | 0.80 |
| UCF101 | 0.57 | 0.38 |
| HOG (224×224) | ImageNet-VID | 0.82 | 0.81 |
| UCF101 | 0.61 | 0.48 |
| HOG (128×128) | ImageNet-VID | 0.87 | 0.86 |
| UCF101 | 0.67 | 0.54 |
| XFeat + VLAD | ImageNet-VID | 0.90 | 0.89 |
| UCF101 | 0.72 | 0.58 |
| CLIP (ViT-B/32) | ImageNet-VID | 0.92 | 0.91 |
| UCF101 | 0.75 | 0.66 |
| SigLIP (ViT-B/16) | ImageNet-VID | 0.93 | 0.92 |
| UCF101 | 0.75 | 0.67 |
| DINO-V3 (ViT-B/16) | ImageNet-VID | 0.96 | 0.96 |
| UCF101 | 0.87 | 0.80 |
- 深度预训练模型显著优于传统方法:
- DINO-V3在两个数据集上均达到最高分数
- 在ImageNet-VID上,DINO-V3相比SIFT+VLAD提升了18.5%(V-measure)
- 在UCF101上,提升更为显著,达到52.6%
- 数据集难度差异:
- 所有方法在UCF101上的表现都低于ImageNet-VID
- UCF101的时间变异性增加了聚类难度
- SIFT+VLAD在UCF101上表现最弱(AMI仅0.38)
- 特征提取方法性能梯度:
- 第一梯队:DINO-V3 > SigLIP ≈ CLIP
- 第二梯队:XFeat + VLAD
- 第三梯队:HOG (128×128) > HOG (224×224)
- 第四梯队:SIFT + VLAD
- 轻量级方法的潜力:
- XFeat + VLAD相比传统描述符有明显改进
- 在ImageNet-VID上达到0.90的V-measure
- 为计算资源受限场景提供了可行选择
- 图像分辨率的影响:
- HOG在128×128分辨率下表现优于224×224
- 较低分辨率产生更低维度的描述符,同时保持更好的性能
- 语义表示的优势:深度预训练模型(尤其是DINO-V3)能够捕获高层语义信息,更好地识别视觉相似性,这对信息泄漏检测至关重要
- 自监督学习的有效性:DINO-V3作为自监督方法表现最佳,说明无需显式监督即可学习到适合聚类任务的表示
- 特征聚合的重要性:VLAD对局部描述符(SIFT、XFeat)的聚合显著提升了性能
- 方法的普适性:该框架在两个不同特性的数据集上都表现良好,证明了其泛化能力
- Botache et al. 1:研究了分割序列数据的复杂性,探讨了视频和时间序列分析中的挑战
- Figueiredo & Mendes 2:分析了视频目标检测数据集中的信息泄漏,通过将图像分割成具有高时空相关性的聚类来解决
- 传统方法:SIFT 8,9、HOG 4等手工设计的特征
- 深度学习方法:CLIP 3、SigLIP 10、DINO-V3 11等预训练模型
- 轻量级方法:XFeat 5提供了效率和性能的平衡
- 密度聚类:HDBSCAN 7能够发现任意形状的聚类
- 降维技术:PaCMAP 6相比t-SNE和UMAP提供更好的全局结构保持
相比现有工作,本文:
- 提供了更系统的特征提取方法比较
- 采用了更适合视频数据特性的密度聚类
- 提出了完整的端到端解决方案
- 在多个基准数据集上进行了验证
- 方法有效性:基于聚类的帧选择策略能够有效识别和分组视觉相似的帧,从而防止信息泄漏
- 最佳实践:DINO-V3嵌入在两个数据集上都达到了最佳聚类性能,是实践中的首选方法
- 实用价值:该方法简单、可扩展,可无缝集成到现有数据集准备流程中
- 改进效果:通过在数据集划分前对帧进行分组,该方法能够提高多样性并提供公平的评估环境,从而缓解视频数据集训练的目标检测模型的过拟合
- 超参数依赖:方法依赖HDBSCAN的超参数选择,不同设置可能影响聚类结果
- 计算成本:深度预训练模型(如DINO-V3)的特征提取需要较高的计算资源
- 缺乏下游任务验证:论文未提供在实际目标检测任务上的性能对比(使用vs不使用该方法)
- 聚类质量评估:仅使用AMI和V-measure评估,缺少对实际信息泄漏程度的定量分析
- 数据集规模:未在超大规模数据集上验证方法的可扩展性
作者明确提出以下研究方向:
- 自适应聚类策略:探索能够自动调整超参数的聚类方法,减少对HDBSCAN超参数的依赖
- 性能差距量化:训练有/无该方法的图像目标检测模型,量化信息泄漏对模型性能的实际影响
- 跨数据集评估:在更多不同特性的数据集上验证方法的有效性
- 端到端优化:可能探索将聚类和模型训练联合优化的方法
- 问题针对性强:直击视频衍生数据集的核心痛点——信息泄漏
- 解决方案优雅:将聚类技术巧妙应用于数据集划分,思路清晰且合理
- 即插即用设计:无需修改训练流程,工程实用性强
- 特征提取方法全面:涵盖传统、轻量级和现代深度方法共7种
- 数据集选择合理:ImageNet-VID和UCF101代表了不同类型的视频数据
- 评价指标恰当:AMI和V-measure都是聚类质量的标准评估指标
- 性能提升显著:DINO-V3在两个数据集上都达到了0.80+的高分
- 一致性强:深度方法在两个数据集上都优于传统方法,结论稳健
- 数值详实:提供了所有方法的完整对比数据
- 结构清晰:问题-方法-实验的组织逻辑性强
- 表述准确:技术描述精确,数学符号使用规范
- 可视化有效:图1清晰展示了整体流程
- 缺乏理论分析:未提供为什么DINO-V3表现最好的理论解释
- 超参数敏感性未探讨:HDBSCAN的超参数如何影响结果未被研究
- 聚类数量控制:未讨论如何控制聚类数量以平衡分区大小
- 缺少消融实验:
- PaCMAP降维是否必要?直接在高维空间聚类效果如何?
- 降维到256维是否最优?
- 其他聚类算法(如K-Means、DBSCAN)的对比?
- 下游任务验证缺失:最关键的问题——该方法是否真正改善了模型的泛化性能——未被验证
- 统计显著性检验:未提供误差条或显著性检验
- 失败案例分析缺失:哪些类型的帧难以正确聚类?
- 可视化不足:未展示聚类结果的t-SNE/UMAP可视化
- 计算成本分析:未报告各方法的运行时间和内存消耗
- 信息泄漏定量分析:未量化传统方法导致的泄漏程度
- 数据集有限:仅两个数据集,缺少更多样化的验证
- 任务单一:仅关注目标检测,未探讨在其他任务(如动作识别、分割)上的效果
- 规模验证不足:未在百万级大规模数据集上测试
- 提升研究可靠性:为视频衍生数据集的使用提供了标准化的预处理方法
- 方法论贡献:强调了数据集划分对模型评估的重要性
- 实践指导:为从业者提供了特征提取方法的选择建议
- 高:方法简单易实现,可立即应用于实际项目
- 通用性强:适用于所有从视频提取帧的场景
- 成本可控:一次性预处理成本,不增加训练开销
- 优点:
- 方法描述清晰
- 使用的都是公开可用的工具和模型
- 超参数设置明确(图像大小、降维维度等)
- 不足:
- 未提供代码或实现细节
- HDBSCAN的具体超参数未说明
- 数据集划分的具体策略(如70/15/15)未明确
- 短期:可能被数据集构建相关的论文引用和采用
- 中期:可能成为视频数据集发布的标准预处理步骤
- 长期:推动更严格的数据集质量控制标准
- 视频目标检测:论文的主要目标场景
- 动作识别:从视频中提取帧进行分类
- 视频实例分割:需要帧级标注的任务
- 监控视频分析:通常包含大量相似帧
- 视频理解任务:需要保留时序信息的任务可能不适合
- 小规模数据集:聚类可能不稳定
- 高度多样化的视频:如果视频内容差异极大,聚类可能过于细粒度
- 原生图像数据集:不存在信息泄漏问题
- 需要时序建模的任务:如视频预测、光流估计
- 实时应用:深度特征提取可能过慢
- 1 Botache et al., 2023 - 序列数据分割的复杂性研究
- 2 Figueiredo & Mendes, 2024 - 视频目标检测数据集中的信息泄漏分析(IEEE Access)
- 3 Radford et al., 2021 - CLIP:从自然语言监督中学习可迁移的视觉模型(ICML)
- 7 McInnes et al., 2017 - HDBSCAN:层次密度聚类算法
- 11 Siméoni et al., 2025 - DINO-V3:自监督视觉Transformer(arXiv预印本)
- 14 Russakovsky et al., 2015 - ImageNet大规模视觉识别挑战(IJCV)
本文针对视频衍生数据集中的信息泄漏问题提出了一个实用的解决方案。核心优势在于方法的简洁性和实用性——通过聚类确保视觉相似的帧被分配到同一数据分区,这是一个直观且有效的策略。实验结果表明,现代深度预训练模型(特别是DINO-V3)在识别帧间相似性方面显著优于传统方法。
然而,论文的主要缺陷在于缺少下游任务验证。虽然聚类质量很高(AMI和V-measure达到0.96),但这是否真正转化为更好的模型泛化性能仍未得到证实。这是一个关键的缺失,因为聚类质量只是手段,改善模型评估才是最终目标。
尽管如此,这项工作为视频数据集的构建提供了重要的方法论贡献,具有较高的实践价值。建议未来工作:
- 优先级最高:在实际目标检测任务上验证方法效果
- 探索自适应超参数选择策略
- 扩展到更大规模和更多样化的数据集
- 提供开源实现以促进社区采用
推荐指数:★★★★☆ (4/5)
- 问题重要且实用 ✓
- 方法简洁有效 ✓
- 实验较为充分 ✓
- 缺少下游验证 ✗
- 分析深度可提升 ✗