2025-11-24T15:22:16.851016

Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets

Glazner, Tsfaty, Shalev et al.

We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.

academic

Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets

基本信息

论文ID: 2511.13944
标题: Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
作者: Noam Glazner (Bar-Ilan University), Noam Tsfaty (Afeka College of Engineering), Sharon Shalev (Independent Researcher), Avishai Weizman (Ben-Gurion University of the Negev)
分类: cs.CV (Computer Vision)
发表时间: 2025年11月17日提交至arXiv
论文链接: https://arxiv.org/abs/2511.13944v1

摘要

本文提出了一种基于聚类的帧选择策略，用于缓解视频衍生帧数据集中的信息泄漏问题。通过在划分训练集、验证集和测试集之前对视觉相似的帧进行分组，该方法能够产生更具代表性、平衡性和可靠性的数据集分区。

研究背景与动机

核心问题

在深度学习研究中，从视频数据中提取帧来构建数据集是一种常见做法。然而，传统的随机划分方法会导致严重的信息泄漏问题：由于视频中连续帧之间存在高度的时空相关性（例如相同背景、相同物体但位置略有不同），如果这些相关帧被分散到训练集、验证集和测试集中，模型可能会"记住"训练集中的场景特征，从而在验证和测试集上获得虚高的性能评估。

问题重要性

模型评估失真：信息泄漏导致模型在测试集上的表现无法真实反映其泛化能力
过拟合风险：模型可能过度拟合特定场景而非学习通用特征
研究可靠性：影响目标检测等计算机视觉任务的研究结论可信度
实际应用差距：实验室性能与实际部署性能存在巨大差距

现有方法局限

随机划分：完全忽略帧之间的时空相关性
视频级划分：过于粗粒度，可能导致数据分布不均衡
手动划分：劳动密集且难以扩展到大规模数据集

研究动机

本文旨在提供一种简单、可扩展且可集成到现有数据集准备流程的解决方案，通过智能分组视觉相似的帧来确保相关图像保持在同一数据分区中，从而提高数据集划分的公平性和模型评估的鲁棒性。

核心贡献

提出聚类驱动的数据集划分方法：首次系统性地将聚类技术应用于视频衍生数据集的划分，通过将视觉相似的帧分组到同一分区来防止信息泄漏
全面的特征提取器评估：系统比较了7种不同的特征提取方法（从传统的SIFT、HOG到现代的CLIP、DINO-V3），为实践者提供了方法选择指导
即插即用的解决方案：提供了无需修改训练过程的数据集预处理管道，具有良好的可扩展性和实用性
实证验证：在ImageNet-VID和UCF101两个基准数据集上验证了方法的有效性，DINO-V3达到了0.96的V-measure和AMI分数

方法详解

任务定义

输入：一组未标注视频集合 $V = \{V_1, V_2, \ldots, V_K\}$ ，其中K为视频总数

输出：将所有提取的帧分配到训练集、验证集和测试集，确保视觉相似的帧（特别是来自同一视频的帧）被分配到同一分区

约束条件：

最小化分区间的信息泄漏
保持各分区的数据分布平衡
确保聚类结果与视频来源高度一致

模型架构

整体流程包含三个主要阶段（如图1所示）：

1. 特征提取阶段

对每个视频 $V_k$ 分解为帧序列 $\{I_{k,1}, I_{k,2}, \ldots, I_{k,N_k}\}$ ，其中 $N_k$ 为从视频 $V_k$ 提取的帧数。

对每一帧 $I_{k,i}$ 提取特征向量： $f_{k,i} = \Phi_{feat}(I_{k,i})$

其中 $f_{k,i} \in \mathbb{R}^d$ 是d维特征向量， $\Phi_{feat}(\cdot)$ 是特征提取函数。

支持的特征提取方法：

传统描述符：
- SIFT 8,9：尺度不变特征变换，捕获局部纹理信息
- HOG 4：方向梯度直方图，编码梯度方向模式
轻量级学习特征：
- XFeat 5：通过轻量级卷积架构提供高效的关键点检测和描述
深度预训练模型：
- CLIP 3：对比语言-图像预训练，提供语义图像表示
- SigLIP 10：使用Sigmoid损失的语言-图像预训练
- DINO-V3 11：自监督视觉Transformer
聚合方法：
- VLAD 12：向量局部聚合描述符，应用于SIFT和XFeat，将局部关键点描述符组合成固定长度的紧凑特征向量（1024维）

2. 降维与聚类阶段

降维：使用PaCMAP（Pairwise Controlled Manifold Approximation Projection）6将高维特征投影到低维嵌入空间： $z_{k,i} = P_{PaCMAP}(f_{k,i})$

其中 $z_{k,i} \in \mathbb{R}^m$ 是m维嵌入表示（本文设置m=256）， $P_{PaCMAP}(\cdot)$ 是PaCMAP投影算子。

聚类：采用HDBSCAN（Hierarchy of Density-Based Spatial Clustering）7算法对嵌入表示进行聚类。

选择HDBSCAN的理由：

能够发现任意形状的聚类
适应不同密度的数据分布
自动确定聚类数量
能够识别噪声点
比K-Means等中心点方法更适合视频数据的连续和非均匀特性

3. 基于聚类的数据集划分

将聚类结果 $C_j$ （包含帧 $I_{k,i}$ 对应的特征 $z_{k,i}$ ）作为划分的基本单元。每个聚类 $C_j$ 代表视觉相关的帧，整个聚类被分配到同一数据分区（训练/验证/测试），从而防止数据泄漏。

技术创新点

密度聚类的应用：相比传统的视频级划分或随机划分，基于密度的聚类能够更精细地捕获帧间的视觉相似性，同时避免强制假设球形聚类
特征提取的系统性评估：不依赖单一特征提取方法，而是提供了从传统到现代的全面比较，使方法具有更好的适应性
两阶段降维策略：先用特定方法提取高维特征，再用PaCMAP统一降维到256维，既保留了语义信息又提高了聚类效率
即插即用设计：作为数据预处理步骤，不需要修改模型训练过程，具有良好的工程实用性

实验设置

数据集

ImageNet-VID (ILSVRC2015)

来源：ImageNet Large Scale Visual Recognition Challenge 2015 14
使用部分：验证集
特点：提供按对象synset分类的标注图像，适合评估目标检测中的信息泄漏
标注类型：图像级对象类别标注

UCF101

来源：101类人类动作视频数据集 15
使用部分：所有分区
特点：包含修剪后的视频片段，视频级标签
预处理：每秒提取一帧以减少视觉冗余，确保连续帧不会几乎完全相同
挑战：时间变异性增加了聚类难度

评价指标

Adjusted Mutual Information (AMI) 16

定义：衡量预测聚类与真实标签之间的一致性，同时校正偶然因素
取值范围：0, 1，1表示完美匹配
优势：考虑了随机聚类的基线性能

V-measure 17

定义：评估聚类的同质性（homogeneity）和完整性（completeness）之间的权衡
- 同质性：每个聚类中样本来自单一类别的程度
- 完整性：同一类别的样本共享同一聚类的程度
取值范围：0, 1，1表示最优
计算：同质性和完整性的调和平均

对比方法

本文对比了7种特征提取方法的聚类性能：

SIFT + VLAD
HOG (224×224)
HOG (128×128)
XFeat + VLAD
CLIP (ViT-B/32)
SigLIP (ViT-B/16)
DINO-V3 (ViT-B/16)

实现细节

图像预处理：

XFeat, CLIP, DINO, SigLIP：调整到224×224
HOG：128×128或224×224（128×128表现略好且维度更低）

特征维度：

VLAD向量：降维至1024维以提供统一表示
PaCMAP嵌入：投影到256维空间 (m=256)

聚类算法：HDBSCAN（具体超参数未在文中详细说明）

实验结果

主要结果

表I展示了在ImageNet-VID和UCF101验证集上使用不同特征提取方法的聚类性能：

特征提取方法	数据集	V-measure	AMI
SIFT + VLAD	ImageNet-VID	0.81	0.80
	UCF101	0.57	0.38
HOG (224×224)	ImageNet-VID	0.82	0.81
	UCF101	0.61	0.48
HOG (128×128)	ImageNet-VID	0.87	0.86
	UCF101	0.67	0.54
XFeat + VLAD	ImageNet-VID	0.90	0.89
	UCF101	0.72	0.58
CLIP (ViT-B/32)	ImageNet-VID	0.92	0.91
	UCF101	0.75	0.66
SigLIP (ViT-B/16)	ImageNet-VID	0.93	0.92
	UCF101	0.75	0.67
DINO-V3 (ViT-B/16)	ImageNet-VID	0.96	0.96
	UCF101	0.87	0.80

关键发现

深度预训练模型显著优于传统方法：
- DINO-V3在两个数据集上均达到最高分数
- 在ImageNet-VID上，DINO-V3相比SIFT+VLAD提升了18.5%（V-measure）
- 在UCF101上，提升更为显著，达到52.6%
数据集难度差异：
- 所有方法在UCF101上的表现都低于ImageNet-VID
- UCF101的时间变异性增加了聚类难度
- SIFT+VLAD在UCF101上表现最弱（AMI仅0.38）
特征提取方法性能梯度：
- 第一梯队：DINO-V3 > SigLIP ≈ CLIP
- 第二梯队：XFeat + VLAD
- 第三梯队：HOG (128×128) > HOG (224×224)
- 第四梯队：SIFT + VLAD
轻量级方法的潜力：
- XFeat + VLAD相比传统描述符有明显改进
- 在ImageNet-VID上达到0.90的V-measure
- 为计算资源受限场景提供了可行选择
图像分辨率的影响：
- HOG在128×128分辨率下表现优于224×224
- 较低分辨率产生更低维度的描述符，同时保持更好的性能

实验发现

语义表示的优势：深度预训练模型（尤其是DINO-V3）能够捕获高层语义信息，更好地识别视觉相似性，这对信息泄漏检测至关重要
自监督学习的有效性：DINO-V3作为自监督方法表现最佳，说明无需显式监督即可学习到适合聚类任务的表示
特征聚合的重要性：VLAD对局部描述符（SIFT、XFeat）的聚合显著提升了性能
方法的普适性：该框架在两个不同特性的数据集上都表现良好，证明了其泛化能力

结论与讨论

主要结论

方法有效性：基于聚类的帧选择策略能够有效识别和分组视觉相似的帧，从而防止信息泄漏
最佳实践：DINO-V3嵌入在两个数据集上都达到了最佳聚类性能，是实践中的首选方法
实用价值：该方法简单、可扩展，可无缝集成到现有数据集准备流程中
改进效果：通过在数据集划分前对帧进行分组，该方法能够提高多样性并提供公平的评估环境，从而缓解视频数据集训练的目标检测模型的过拟合

局限性

超参数依赖：方法依赖HDBSCAN的超参数选择，不同设置可能影响聚类结果
计算成本：深度预训练模型（如DINO-V3）的特征提取需要较高的计算资源
缺乏下游任务验证：论文未提供在实际目标检测任务上的性能对比（使用vs不使用该方法）
聚类质量评估：仅使用AMI和V-measure评估，缺少对实际信息泄漏程度的定量分析
数据集规模：未在超大规模数据集上验证方法的可扩展性

未来方向

作者明确提出以下研究方向：

自适应聚类策略：探索能够自动调整超参数的聚类方法，减少对HDBSCAN超参数的依赖
性能差距量化：训练有/无该方法的图像目标检测模型，量化信息泄漏对模型性能的实际影响
跨数据集评估：在更多不同特性的数据集上验证方法的有效性
端到端优化：可能探索将聚类和模型训练联合优化的方法

深度评价

优点

1. 方法创新性

问题针对性强：直击视频衍生数据集的核心痛点——信息泄漏
解决方案优雅：将聚类技术巧妙应用于数据集划分，思路清晰且合理
即插即用设计：无需修改训练流程，工程实用性强

2. 实验充分性

特征提取方法全面：涵盖传统、轻量级和现代深度方法共7种
数据集选择合理：ImageNet-VID和UCF101代表了不同类型的视频数据
评价指标恰当：AMI和V-measure都是聚类质量的标准评估指标

3. 结果说服力

性能提升显著：DINO-V3在两个数据集上都达到了0.80+的高分
一致性强：深度方法在两个数据集上都优于传统方法，结论稳健
数值详实：提供了所有方法的完整对比数据

4. 写作质量

结构清晰：问题-方法-实验的组织逻辑性强
表述准确：技术描述精确，数学符号使用规范
可视化有效：图1清晰展示了整体流程

不足

1. 方法局限性

缺乏理论分析：未提供为什么DINO-V3表现最好的理论解释
超参数敏感性未探讨：HDBSCAN的超参数如何影响结果未被研究
聚类数量控制：未讨论如何控制聚类数量以平衡分区大小

2. 实验设置缺陷

缺少消融实验：
- PaCMAP降维是否必要？直接在高维空间聚类效果如何？
- 降维到256维是否最优？
- 其他聚类算法（如K-Means、DBSCAN）的对比？
下游任务验证缺失：最关键的问题——该方法是否真正改善了模型的泛化性能——未被验证
统计显著性检验：未提供误差条或显著性检验