We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.
- ID du papier : 2511.13944
- Titre : Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
- Auteurs : Noam Glazner (Bar-Ilan University), Noam Tsfaty (Afeka College of Engineering), Sharon Shalev (Independent Researcher), Avishai Weizman (Ben-Gurion University of the Negev)
- Classification : cs.CV (Vision par Ordinateur)
- Date de soumission : 17 novembre 2025 sur arXiv
- Lien du papier : https://arxiv.org/abs/2511.13944v1
Cet article propose une stratégie de sélection de cadres basée sur le clustering pour atténuer les problèmes de fuite d'information dans les ensembles de données de cadres dérivés de vidéos. En regroupant les cadres visuellement similaires avant de diviser les ensembles d'entraînement, de validation et de test, cette méthode produit des partitions de données plus représentatives, équilibrées et fiables.
Dans la recherche en apprentissage profond, l'extraction de cadres à partir de données vidéo pour construire des ensembles de données est une pratique courante. Cependant, les méthodes de division aléatoire traditionnelles entraînent un grave problème de fuite d'information : en raison de la forte corrélation spatio-temporelle entre les cadres consécutifs dans une vidéo (par exemple, le même arrière-plan, le même objet avec une position légèrement différente), si ces cadres corrélés sont dispersés entre les ensembles d'entraînement, de validation et de test, le modèle peut « mémoriser » les caractéristiques de la scène de l'ensemble d'entraînement, obtenant ainsi une évaluation de performance gonflée sur les ensembles de validation et de test.
- Distorsion de l'évaluation du modèle : La fuite d'information empêche que la performance du modèle sur l'ensemble de test reflète fidèlement sa capacité de généralisation
- Risque de surapprentissage : Le modèle peut surappendre aux caractéristiques spécifiques de la scène plutôt que d'apprendre des caractéristiques génériques
- Fiabilité de la recherche : Affecte la crédibilité des conclusions de recherche dans les tâches de vision par ordinateur telles que la détection d'objets
- Écart entre application et pratique : Écart considérable entre la performance en laboratoire et celle du déploiement réel
- Division aléatoire : Ignore complètement la corrélation spatio-temporelle entre les cadres
- Division au niveau vidéo : Trop grossière, peut entraîner une distribution de données déséquilibrée
- Division manuelle : Laborieuse et difficile à étendre aux ensembles de données à grande échelle
Cet article vise à fournir une solution simple, évolutive et intégrable dans les flux de travail existants de préparation d'ensembles de données. En regroupant intelligemment les cadres visuellement similaires, on assure que les images corrélées restent dans la même partition de données, améliorant ainsi l'équité de la division de l'ensemble de données et la robustesse de l'évaluation du modèle.
- Proposition d'une méthode de division d'ensemble de données pilotée par clustering : Application systématique pour la première fois de techniques de clustering à la division d'ensembles de données dérivés de vidéos, en regroupant les cadres visuellement similaires dans la même partition pour prévenir les fuites d'information
- Évaluation complète des extracteurs de caractéristiques : Comparaison systématique de 7 méthodes d'extraction de caractéristiques différentes (du SIFT et HOG traditionnels aux CLIP et DINO-V3 modernes), fournissant des conseils de sélection de méthodes aux praticiens
- Solution prête à l'emploi : Fourniture d'un pipeline de prétraitement d'ensemble de données sans modification du processus d'entraînement, avec bonne évolutivité et praticité
- Vérification empirique : Validation de l'efficacité de la méthode sur deux ensembles de données de référence (ImageNet-VID et UCF101), avec DINO-V3 atteignant des scores V-measure et AMI de 0,96
Entrée : Un ensemble de vidéos non annotées V={V1,V2,…,VK}, où K est le nombre total de vidéos
Sortie : Attribution de tous les cadres extraits aux ensembles d'entraînement, de validation et de test, en assurant que les cadres visuellement similaires (en particulier ceux provenant de la même vidéo) sont assignés à la même partition
Contraintes :
- Minimiser la fuite d'information entre les partitions
- Maintenir l'équilibre de la distribution des données dans chaque partition
- Assurer une cohérence élevée entre les résultats du clustering et la source vidéo
Le processus global comprend trois étapes principales (comme illustré à la Figure 1) :
Chaque vidéo Vk est décomposée en une séquence de cadres {Ik,1,Ik,2,…,Ik,Nk}, où Nk est le nombre de cadres extraits de la vidéo Vk.
Pour chaque cadre Ik,i, un vecteur de caractéristiques est extrait :
fk,i=Φfeat(Ik,i)
où fk,i∈Rd est un vecteur de caractéristiques de dimension d, et Φfeat(⋅) est la fonction d'extraction de caractéristiques.
Méthodes d'extraction de caractéristiques supportées :
- Descripteurs traditionnels :
- SIFT 8,9 : Transformation de caractéristiques invariantes à l'échelle, capturant les informations de texture locale
- HOG 4 : Histogramme des gradients orientés, codant les motifs de direction des gradients
- Caractéristiques d'apprentissage léger :
- XFeat 5 : Fournissant une détection et une description de points clés efficaces via une architecture de convolution légère
- Modèles pré-entraînés profonds :
- CLIP 3 : Pré-entraînement contrastif langage-image, fournissant des représentations d'images sémantiques
- SigLIP 10 : Pré-entraînement langage-image utilisant la perte Sigmoid
- DINO-V3 11 : Vision Transformer auto-supervisée
- Méthodes d'agrégation :
- VLAD 12 : Descripteur d'agrégation locale vectorielle, appliqué à SIFT et XFeat, combinant les descripteurs de points clés locaux en un vecteur de caractéristiques compact de longueur fixe (1024 dimensions)
Réduction de dimensionnalité : Utilisation de PaCMAP (Pairwise Controlled Manifold Approximation Projection) 6 pour projeter les caractéristiques de haute dimension dans un espace d'intégration de faible dimension :
zk,i=PPaCMAP(fk,i)
où zk,i∈Rm est une représentation d'intégration de dimension m (m=256 dans cet article), et PPaCMAP(⋅) est l'opérateur de projection PaCMAP.
Clustering : Utilisation de l'algorithme HDBSCAN (Hierarchy of Density-Based Spatial Clustering) 7 pour le clustering des représentations d'intégration.
Justification du choix de HDBSCAN :
- Capable de découvrir des clusters de formes arbitraires
- S'adapte aux distributions de données de densités différentes
- Détermine automatiquement le nombre de clusters
- Capable d'identifier les points de bruit
- Plus approprié que les méthodes basées sur les points centraux comme K-Means pour les caractéristiques continues et non uniformes des données vidéo
Les résultats du clustering Cj (contenant les caractéristiques zk,i correspondant aux cadres Ik,i) servent d'unité de base pour la division. Chaque cluster Cj représente des cadres visuellement corrélés, et le cluster entier est assigné à la même partition de données (entraînement/validation/test), prévenant ainsi la fuite de données.
- Application du clustering de densité : Comparé à la division traditionnelle au niveau vidéo ou à la division aléatoire, le clustering basé sur la densité capture plus finement la similarité visuelle entre les cadres, tout en évitant l'hypothèse forcée de clusters sphériques
- Évaluation systématique de l'extraction de caractéristiques : Plutôt que de dépendre d'une seule méthode, fournit une comparaison complète des méthodes traditionnelles aux modernes, donnant à la méthode une meilleure adaptabilité
- Stratégie de réduction de dimensionnalité en deux étapes : Extraction d'abord de caractéristiques de haute dimension par des méthodes spécifiques, puis réduction uniforme à 256 dimensions via PaCMAP, préservant les informations sémantiques tout en améliorant l'efficacité du clustering
- Conception prête à l'emploi : En tant qu'étape de prétraitement d'ensemble de données, ne nécessite pas de modification du processus d'entraînement du modèle, avec bonne praticité d'ingénierie
- Source : ImageNet Large Scale Visual Recognition Challenge 2015 14
- Partie utilisée : Ensemble de validation
- Caractéristiques : Fournit des images annotées classées par synset d'objet, approprié pour évaluer les fuites d'information dans la détection d'objets
- Type d'annotation : Annotations de classe d'objet au niveau image
- Source : Ensemble de données vidéo d'actions humaines de 101 classes 15
- Partie utilisée : Toutes les partitions
- Caractéristiques : Contient des clips vidéo élagués, étiquettes au niveau vidéo
- Prétraitement : Extraction d'une image par seconde pour réduire la redondance visuelle, assurant que les cadres consécutifs ne sont pas presque identiques
- Défi : La variabilité temporelle augmente la difficulté du clustering
- Définition : Mesure la cohérence entre le clustering prédit et les étiquettes réelles, tout en corrigeant les facteurs aléatoires
- Plage de valeurs : 0, 1, 1 indiquant une correspondance parfaite
- Avantage : Considère la performance de base du clustering aléatoire
- Définition : Évalue le compromis entre l'homogénéité (homogeneity) et la complétude (completeness) du clustering
- Homogénéité : Degré auquel les échantillons dans chaque cluster proviennent d'une seule classe
- Complétude : Degré auquel les échantillons d'une même classe partagent le même cluster
- Plage de valeurs : 0, 1, 1 indiquant l'optimalité
- Calcul : Moyenne harmonique de l'homogénéité et de la complétude
Cet article compare les performances de clustering de 7 méthodes d'extraction de caractéristiques :
- SIFT + VLAD
- HOG (224×224)
- HOG (128×128)
- XFeat + VLAD
- CLIP (ViT-B/32)
- SigLIP (ViT-B/16)
- DINO-V3 (ViT-B/16)
Prétraitement d'images :
- XFeat, CLIP, DINO, SigLIP : Redimensionnement à 224×224
- HOG : 128×128 ou 224×224 (128×128 montrant une légère meilleure performance et une dimensionnalité plus faible)
Dimensions des caractéristiques :
- Vecteurs VLAD : Réduction à 1024 dimensions pour fournir une représentation uniforme
- Intégration PaCMAP : Projection à 256 dimensions (m=256)
Algorithme de clustering : HDBSCAN (les hyperparamètres spécifiques ne sont pas détaillés dans l'article)
Le Tableau I présente les performances de clustering utilisant différentes méthodes d'extraction de caractéristiques sur les ensembles de validation ImageNet-VID et UCF101 :
| Méthode d'Extraction | Ensemble de Données | V-measure | AMI |
|---|
| SIFT + VLAD | ImageNet-VID | 0,81 | 0,80 |
| UCF101 | 0,57 | 0,38 |
| HOG (224×224) | ImageNet-VID | 0,82 | 0,81 |
| UCF101 | 0,61 | 0,48 |
| HOG (128×128) | ImageNet-VID | 0,87 | 0,86 |
| UCF101 | 0,67 | 0,54 |
| XFeat + VLAD | ImageNet-VID | 0,90 | 0,89 |
| UCF101 | 0,72 | 0,58 |
| CLIP (ViT-B/32) | ImageNet-VID | 0,92 | 0,91 |
| UCF101 | 0,75 | 0,66 |
| SigLIP (ViT-B/16) | ImageNet-VID | 0,93 | 0,92 |
| UCF101 | 0,75 | 0,67 |
| DINO-V3 (ViT-B/16) | ImageNet-VID | 0,96 | 0,96 |
| UCF101 | 0,87 | 0,80 |
- Les modèles pré-entraînés profonds surpassent significativement les méthodes traditionnelles :
- DINO-V3 atteint les scores les plus élevés sur les deux ensembles de données
- Sur ImageNet-VID, DINO-V3 améliore de 18,5% par rapport à SIFT+VLAD (V-measure)
- Sur UCF101, l'amélioration est encore plus remarquable, atteignant 52,6%
- Différences de difficulté entre ensembles de données :
- Toutes les méthodes montrent des performances inférieures sur UCF101 par rapport à ImageNet-VID
- La variabilité temporelle d'UCF101 augmente la difficulté du clustering
- SIFT+VLAD montre la performance la plus faible sur UCF101 (AMI seulement 0,38)
- Gradient de performance des méthodes d'extraction de caractéristiques :
- Premier échelon : DINO-V3 > SigLIP ≈ CLIP
- Deuxième échelon : XFeat + VLAD
- Troisième échelon : HOG (128×128) > HOG (224×224)
- Quatrième échelon : SIFT + VLAD
- Potentiel des méthodes légères :
- XFeat + VLAD montre une amélioration évidente par rapport aux descripteurs traditionnels
- Atteint 0,90 de V-measure sur ImageNet-VID
- Fournit une option viable pour les scénarios avec ressources informatiques limitées
- Impact de la résolution d'image :
- HOG montre une meilleure performance à résolution 128×128 qu'à 224×224
- Une résolution plus faible produit des descripteurs de dimensionnalité plus faible tout en maintenant une meilleure performance
- Avantage des représentations sémantiques : Les modèles pré-entraînés profonds (en particulier DINO-V3) capturent efficacement les informations sémantiques de haut niveau, identifiant mieux la similarité visuelle, ce qui est crucial pour la détection de fuite d'information
- Efficacité de l'apprentissage auto-supervisé : DINO-V3, en tant que méthode auto-supervisée, montre la meilleure performance, démontrant que l'apprentissage de représentations adaptées aux tâches de clustering est possible sans supervision explicite
- Importance de l'agrégation de caractéristiques : L'agrégation VLAD des descripteurs locaux (SIFT, XFeat) améliore significativement la performance
- Universalité de la méthode : Le cadre montre une bonne performance sur les deux ensembles de données aux caractéristiques différentes, prouvant sa capacité de généralisation
- Botache et al. 1 : Étude de la complexité de la division de données de séquence, explorant les défis dans l'analyse vidéo et des séries temporelles
- Figueiredo & Mendes 2 : Analyse des fuites d'information dans les ensembles de données de détection d'objets vidéo, résolvant le problème en divisant les images en clusters avec forte corrélation spatio-temporelle
- Méthodes traditionnelles : SIFT 8,9, HOG 4 et autres caractéristiques conçues manuellement
- Méthodes d'apprentissage profond : Modèles pré-entraînés comme CLIP 3, SigLIP 10, DINO-V3 11
- Méthodes légères : XFeat 5 fournissant un équilibre entre efficacité et performance
- Clustering de densité : HDBSCAN 7 capable de découvrir des clusters de formes arbitraires
- Techniques de réduction de dimensionnalité : PaCMAP 6 fournissant une meilleure préservation de la structure globale comparé à t-SNE et UMAP
Comparé aux travaux existants, cet article :
- Fournit une comparaison plus systématique des méthodes d'extraction de caractéristiques
- Adopte le clustering de densité plus approprié aux caractéristiques des données vidéo
- Propose une solution complète de bout en bout
- Valide sur plusieurs ensembles de données de référence
- Efficacité de la méthode : La stratégie de sélection de cadres basée sur le clustering peut efficacement identifier et regrouper les cadres visuellement similaires, prévenant ainsi les fuites d'information
- Meilleures pratiques : L'intégration DINO-V3 atteint les meilleures performances de clustering sur les deux ensembles de données, constituant le choix préféré en pratique
- Valeur pratique : La méthode est simple, évolutive et peut s'intégrer sans problème dans les flux de travail existants de préparation d'ensembles de données
- Effet d'amélioration : En regroupant les cadres avant la division de l'ensemble de données, cette méthode améliore la diversité et fournit un environnement d'évaluation équitable, atténuant ainsi le surapprentissage des modèles de détection d'objets entraînés sur des ensembles de données vidéo
- Dépendance aux hyperparamètres : La méthode dépend du choix des hyperparamètres de HDBSCAN, différents paramètres pouvant affecter les résultats du clustering
- Coût computationnel : L'extraction de caractéristiques des modèles pré-entraînés profonds (comme DINO-V3) nécessite des ressources informatiques considérables
- Absence de vérification sur tâches aval : L'article ne fournit pas de comparaison de performance sur des tâches réelles de détection d'objets (avec vs sans cette méthode)
- Évaluation de la qualité du clustering : Utilise uniquement AMI et V-measure pour l'évaluation, manquant d'analyse quantitative du degré réel de fuite d'information
- Échelle d'ensemble de données : N'a pas validé l'évolutivité de la méthode sur des ensembles de données extrêmement volumineux
Les auteurs proposent explicitement les directions de recherche suivantes :
- Stratégies de clustering adaptatif : Explorer les méthodes de clustering capable d'ajuster automatiquement les hyperparamètres, réduisant la dépendance aux hyperparamètres de HDBSCAN
- Quantification de l'écart de performance : Entraîner des modèles de détection d'objets d'images avec/sans cette méthode, quantifiant l'impact réel de la fuite d'information sur la performance du modèle
- Évaluation inter-ensembles de données : Valider l'efficacité de la méthode sur plus d'ensembles de données aux caractéristiques différentes
- Optimisation de bout en bout : Explorer potentiellement des méthodes optimisant conjointement le clustering et l'entraînement du modèle
- Forte pertinence au problème : Aborde directement le point critique des ensembles de données dérivés de vidéos — la fuite d'information
- Solution élégante : Application ingénieuse de la technique de clustering à la division d'ensemble de données, avec logique claire et raisonnement solide
- Conception prête à l'emploi : Sans modification du flux d'entraînement, forte praticité d'ingénierie
- Méthodes d'extraction complètes : Couvre 7 méthodes allant des approches traditionnelles, légères aux modernes et profonds
- Sélection d'ensembles de données raisonnée : ImageNet-VID et UCF101 représentent différents types de données vidéo
- Métriques d'évaluation appropriées : AMI et V-measure sont des indicateurs standards d'évaluation de qualité de clustering
- Améliorations de performance significatives : DINO-V3 atteint des scores élevés de 0,80+ sur les deux ensembles de données
- Cohérence forte : Les méthodes profonds surpassent les méthodes traditionnelles sur les deux ensembles de données, conclusions robustes
- Données numériques détaillées : Fournit des données de comparaison complètes pour toutes les méthodes
- Structure claire : Logique organisationnelle forte du problème-méthode-expérience
- Expression précise : Descriptions techniques précises, utilisation normalisée des symboles mathématiques
- Visualisation efficace : La Figure 1 présente clairement le flux global
- Absence d'analyse théorique : Ne fournit pas d'explication théorique sur pourquoi DINO-V3 montre la meilleure performance
- Sensibilité aux hyperparamètres non explorée : Comment les hyperparamètres de HDBSCAN affectent les résultats n'a pas été étudié
- Contrôle du nombre de clusters : Comment contrôler le nombre de clusters pour équilibrer la taille des partitions n'a pas été discuté
- Expériences d'ablation manquantes :
- La réduction de dimensionnalité PaCMAP est-elle nécessaire ? Quel est l'effet du clustering direct en espace haute dimension ?
- La réduction à 256 dimensions est-elle optimale ?
- Comparaison avec d'autres algorithmes de clustering (K-Means, DBSCAN) ?
- Absence de vérification sur tâches aval : La question la plus critique — cette méthode améliore-t-elle réellement la généralisation du modèle — n'a pas été vérifiée
- Tests de signification statistique manquants : Pas de barres d'erreur ou tests de signification fournis
- Absence d'analyse des cas d'échec : Quels types de cadres sont difficiles à clustériser correctement ?
- Visualisations insuffisantes : Pas de visualisation t-SNE/UMAP des résultats du clustering
- Absence d'analyse de coût computationnel : Pas de rapport sur le temps d'exécution et la consommation mémoire de chaque méthode
- Absence d'analyse quantitative de fuite d'information : Pas de quantification du degré de fuite causé par les méthodes traditionnelles
- Ensembles de données limités : Seulement deux ensembles de données, manquant de validation plus diversifiée
- Tâche unique : Concentré uniquement sur la détection d'objets, n'explore pas l'effet sur d'autres tâches (reconnaissance d'actions, segmentation)
- Validation d'échelle insuffisante : N'a pas testé sur des ensembles de données à grande échelle de millions d'images
- Amélioration de la fiabilité de la recherche : Fournit une méthode de prétraitement standardisée pour l'utilisation d'ensembles de données dérivés de vidéos
- Contribution méthodologique : Souligne l'importance de la division d'ensemble de données pour l'évaluation du modèle
- Orientation pratique : Fournit aux praticiens des conseils de sélection de méthodes d'extraction de caractéristiques
- Élevée : La méthode est simple et facile à implémenter, applicable immédiatement aux projets réels
- Forte universalité : Applicable à tous les scénarios d'extraction de cadres à partir de vidéos
- Coût contrôlable : Coût de prétraitement unique, sans augmentation du coût d'entraînement
- Points forts :
- Description de méthode claire
- Utilise tous les outils et modèles publiquement disponibles
- Paramètres spécifiés clairement (taille d'image, dimension de réduction, etc.)
- Insuffisances :
- Pas de code ou détails d'implémentation fournis
- Les hyperparamètres spécifiques de HDBSCAN ne sont pas spécifiés
- La stratégie spécifique de division d'ensemble de données (par exemple 70/15/15) n'est pas clarifiée
- Court terme : Peut être cité et adopté par des articles liés à la construction d'ensembles de données
- Moyen terme : Peut devenir une étape de prétraitement standard pour la publication d'ensembles de données vidéo
- Long terme : Favorise des normes de contrôle de qualité d'ensemble de données plus strictes
- Détection d'objets vidéo : Scénario cible principal de l'article
- Reconnaissance d'actions : Classification à partir de cadres extraits de vidéos
- Segmentation d'instance vidéo : Tâches nécessitant des annotations au niveau cadre
- Analyse vidéo de surveillance : Contient généralement de nombreux cadres similaires
- Tâches de compréhension vidéo : Les tâches nécessitant la préservation d'informations temporelles peuvent ne pas être appropriées
- Ensembles de données petits : Le clustering peut être instable
- Vidéos hautement diversifiées : Si le contenu vidéo diffère extrêmement, le clustering peut être trop granulaire
- Ensembles de données d'images natives : Pas de problème de fuite d'information
- Tâches nécessitant la modélisation temporelle : Comme la prédiction vidéo, l'estimation du flux optique
- Applications en temps réel : L'extraction de caractéristiques profonds peut être trop lente
- 1 Botache et al., 2023 - Étude de la complexité de la division de données de séquence
- 2 Figueiredo & Mendes, 2024 - Analyse des fuites d'information dans les ensembles de données de détection d'objets vidéo (IEEE Access)
- 3 Radford et al., 2021 - CLIP : Apprentissage de modèles visuels transférables à partir de supervision en langage naturel (ICML)
- 7 McInnes et al., 2017 - HDBSCAN : Algorithme de clustering spatial basé sur la densité hiérarchique
- 11 Siméoni et al., 2025 - DINO-V3 : Vision Transformer auto-supervisée (préimpression arXiv)
- 14 Russakovsky et al., 2015 - Défi de reconnaissance visuelle à grande échelle ImageNet (IJCV)
Cet article propose une solution pratique au problème de fuite d'information dans les ensembles de données dérivés de vidéos. Les avantages principaux résident dans la simplicité et la praticité de la méthode — en assurant via le clustering que les cadres visuellement similaires sont assignés à la même partition de données, c'est une stratégie intuitive et efficace. Les résultats expérimentaux montrent que les modèles pré-entraînés profonds modernes (en particulier DINO-V3) surpassent significativement les méthodes traditionnelles dans l'identification de la similarité entre cadres.
Cependant, le défaut principal de l'article est l'absence de vérification sur tâches aval. Bien que la qualité du clustering soit élevée (AMI et V-measure atteignant 0,96), il reste à prouver si cela se traduit réellement par une meilleure généralisation du modèle. C'est une lacune critique, car la qualité du clustering n'est qu'un moyen, l'amélioration de l'évaluation du modèle est l'objectif final.
Néanmoins, ce travail fournit une contribution méthodologique importante à la construction d'ensembles de données vidéo, avec une valeur pratique considérable. Les travaux futurs recommandés sont :
- Priorité maximale : Vérifier l'effet de la méthode sur des tâches réelles de détection d'objets
- Explorer les stratégies de sélection de hyperparamètres adaptatifs
- Étendre à des ensembles de données plus volumineux et plus diversifiés
- Fournir une implémentation open-source pour favoriser l'adoption communautaire
Indice de Recommandation : ★★★★☆ (4/5)
- Problème important et pratique ✓
- Méthode simple et efficace ✓
- Expériences relativement complètes ✓
- Absence de vérification aval ✗
- Profondeur d'analyse améliorable ✗