We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.
- ID del Artículo: 2511.13944
- Título: Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
- Autores: Noam Glazner (Bar-Ilan University), Noam Tsfaty (Afeka College of Engineering), Sharon Shalev (Independent Researcher), Avishai Weizman (Ben-Gurion University of the Negev)
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Presentación: Enviado a arXiv el 17 de noviembre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2511.13944v1
Este artículo propone una estrategia de selección de fotogramas basada en agrupamiento para mitigar el problema de fuga de información en conjuntos de datos de fotogramas derivados de video. Al agrupar fotogramas visualmente similares antes de dividir los conjuntos de entrenamiento, validación y prueba, el método produce particiones de conjuntos de datos más representativas, equilibradas y confiables.
En la investigación de aprendizaje profundo, es una práctica común extraer fotogramas de datos de video para construir conjuntos de datos. Sin embargo, los métodos tradicionales de división aleatoria conducen a un grave problema de fuga de información: debido a la alta correlación espaciotemporal entre fotogramas consecutivos en video (por ejemplo, fondo idéntico, mismo objeto pero con posición ligeramente diferente), si estos fotogramas correlacionados se distribuyen entre los conjuntos de entrenamiento, validación y prueba, el modelo puede "memorizar" características de escena del conjunto de entrenamiento, resultando en evaluaciones de rendimiento artificialmente infladas en los conjuntos de validación y prueba.
- Distorsión de la Evaluación del Modelo: La fuga de información hace que el rendimiento del modelo en el conjunto de prueba no refleje verdaderamente su capacidad de generalización
- Riesgo de Sobreajuste: El modelo puede sobreajustarse a escenas específicas en lugar de aprender características genéricas
- Confiabilidad de la Investigación: Afecta la credibilidad de las conclusiones de investigación en tareas de visión por computadora como detección de objetos
- Brecha de Aplicación Práctica: Existe una gran discrepancia entre el rendimiento en laboratorio y el rendimiento en implementación real
- División Aleatoria: Ignora completamente la correlación espaciotemporal entre fotogramas
- División a Nivel de Video: Demasiado granular, puede resultar en distribuciones de datos desequilibradas
- División Manual: Intensiva en mano de obra y difícil de escalar a conjuntos de datos grandes
Este artículo tiene como objetivo proporcionar una solución simple, escalable e integrable en flujos de trabajo existentes de preparación de conjuntos de datos. Al agrupar inteligentemente fotogramas visualmente similares, se asegura que imágenes relacionadas permanezcan en la misma partición de datos, mejorando así la equidad de la división del conjunto de datos y la robustez de la evaluación del modelo.
- Propone un Método de División de Conjuntos de Datos Impulsado por Agrupamiento: Aplica sistemáticamente por primera vez técnicas de agrupamiento a la división de conjuntos de datos derivados de video, previniendo fugas de información al agrupar fotogramas visualmente similares en la misma partición
- Evaluación Integral de Extractores de Características: Compara sistemáticamente 7 métodos diferentes de extracción de características (desde SIFT y HOG tradicionales hasta CLIP y DINO-V3 modernos), proporcionando orientación para la selección de métodos a los profesionales
- Solución Plug-and-Play: Proporciona un pipeline de preprocesamiento de conjuntos de datos que no requiere modificación del proceso de entrenamiento, con buena escalabilidad y practicidad
- Verificación Empírica: Valida la efectividad del método en dos conjuntos de datos de referencia, ImageNet-VID y UCF101, logrando puntuaciones de V-measure y AMI de 0.96 con DINO-V3
Entrada: Un conjunto de videos sin etiquetar V={V1,V2,…,VK}, donde K es el número total de videos
Salida: Asignar todos los fotogramas extraídos a los conjuntos de entrenamiento, validación y prueba, asegurando que fotogramas visualmente similares (especialmente fotogramas del mismo video) se asignen a la misma partición
Restricciones:
- Minimizar la fuga de información entre particiones
- Mantener el equilibrio de distribución de datos en cada partición
- Asegurar que los resultados del agrupamiento sean altamente consistentes con la fuente de video
El proceso general incluye tres etapas principales (como se muestra en la Figura 1):
Cada video Vk se descompone en una secuencia de fotogramas {Ik,1,Ik,2,…,Ik,Nk}, donde Nk es el número de fotogramas extraídos del video Vk.
Se extrae un vector de características para cada fotograma Ik,i:
fk,i=Φfeat(Ik,i)
donde fk,i∈Rd es un vector de características de d dimensiones, y Φfeat(⋅) es la función de extracción de características.
Métodos de Extracción de Características Soportados:
- Descriptores Tradicionales:
- SIFT 8,9: Transformación de Características Invariantes a Escala, captura información de textura local
- HOG 4: Histograma de Gradientes Orientados, codifica patrones de dirección de gradiente
- Características de Aprendizaje Ligero:
- XFeat 5: Proporciona detección y descripción de puntos clave eficientes a través de arquitectura convolucional ligera
- Modelos Preentrenados Profundos:
- CLIP 3: Preentrenamiento de Contraste Lenguaje-Imagen, proporciona representaciones de imagen semántica
- SigLIP 10: Preentrenamiento de Lenguaje-Imagen con pérdida Sigmoid
- DINO-V3 11: Transformer de Visión Autosupervisado
- Métodos de Agregación:
- VLAD 12: Descriptor de Agregación Local Vectorial, aplicado a SIFT y XFeat, combina descriptores de puntos clave locales en un vector de características compacto de longitud fija (1024 dimensiones)
Reducción de Dimensionalidad: Utiliza PaCMAP (Proyección de Aproximación de Variedad Controlada por Pares) 6 para proyectar características de alta dimensión al espacio de incrustación de baja dimensión:
zk,i=PPaCMAP(fk,i)
donde zk,i∈Rm es una representación de incrustación de m dimensiones (en este artículo se establece m=256), y PPaCMAP(⋅) es el operador de proyección PaCMAP.
Agrupamiento: Utiliza el algoritmo HDBSCAN (Agrupamiento Espacial Jerárquico Basado en Densidad) 7 para agrupar representaciones incrustadas.
Razones para Seleccionar HDBSCAN:
- Puede descubrir agrupamientos de forma arbitraria
- Se adapta a distribuciones de datos de diferentes densidades
- Determina automáticamente el número de agrupamientos
- Puede identificar puntos de ruido
- Es más adecuado que métodos basados en puntos centrales como K-Means para la naturaleza continua y no uniforme de datos de video
Los resultados del agrupamiento Cj (que contienen características zk,i correspondientes a fotogramas Ik,i) se utilizan como unidades básicas de división. Cada agrupamiento Cj representa fotogramas relacionados visualmente, y todo el agrupamiento se asigna a la misma partición de datos (entrenamiento/validación/prueba), previniendo así fugas de datos.
- Aplicación de Agrupamiento por Densidad: Comparado con la división tradicional a nivel de video o división aleatoria, el agrupamiento basado en densidad puede capturar más finamente la similitud visual entre fotogramas, evitando al mismo tiempo suposiciones forzadas sobre agrupamientos esféricos
- Evaluación Sistemática de Extracción de Características: En lugar de depender de un único método de extracción de características, proporciona una comparación integral desde métodos tradicionales hasta modernos, proporcionando mejor adaptabilidad
- Estrategia de Reducción de Dimensionalidad de Dos Etapas: Primero extrae características de alta dimensión con métodos específicos, luego reduce uniformemente a 256 dimensiones con PaCMAP, preservando información semántica mientras mejora la eficiencia del agrupamiento
- Diseño Plug-and-Play: Como paso de preprocesamiento de datos, no requiere modificación del proceso de entrenamiento del modelo, con buena practicidad de ingeniería
- Fuente: Desafío de Reconocimiento Visual a Gran Escala de ImageNet 2015 14
- Parte Utilizada: Conjunto de validación
- Características: Proporciona imágenes anotadas clasificadas por synset de objeto, adecuado para evaluar fugas de información en detección de objetos
- Tipo de Anotación: Anotaciones de categoría de objeto a nivel de imagen
- Fuente: Conjunto de datos de video de acciones humanas de 101 clases 15
- Parte Utilizada: Todas las particiones
- Características: Contiene segmentos de video recortados, etiquetas a nivel de video
- Preprocesamiento: Extrae un fotograma por segundo para reducir redundancia visual, asegurando que fotogramas consecutivos no sean casi idénticos
- Desafío: La variabilidad temporal aumenta la dificultad del agrupamiento
- Definición: Mide la consistencia entre agrupamiento predicho y etiquetas verdaderas, mientras se corrige por factores aleatorios
- Rango de Valores: 0, 1, donde 1 indica coincidencia perfecta
- Ventaja: Considera el rendimiento de línea base del agrupamiento aleatorio
- Definición: Evalúa el equilibrio entre homogeneidad (homogeneity) y completitud (completeness) del agrupamiento
- Homogeneidad: Grado en que muestras en cada agrupamiento provienen de una única clase
- Completitud: Grado en que muestras de la misma clase comparten el mismo agrupamiento
- Rango de Valores: 0, 1, donde 1 es óptimo
- Cálculo: Media armónica de homogeneidad y completitud
Este artículo compara el rendimiento de agrupamiento de 7 métodos de extracción de características:
- SIFT + VLAD
- HOG (224×224)
- HOG (128×128)
- XFeat + VLAD
- CLIP (ViT-B/32)
- SigLIP (ViT-B/16)
- DINO-V3 (ViT-B/16)
Preprocesamiento de Imágenes:
- XFeat, CLIP, DINO, SigLIP: Redimensionadas a 224×224
- HOG: 128×128 o 224×224 (128×128 muestra rendimiento ligeramente mejor y dimensión más baja)
Dimensiones de Características:
- Vectores VLAD: Reducidos a 1024 dimensiones para proporcionar representación unificada
- Incrustación PaCMAP: Proyectada al espacio de 256 dimensiones (m=256)
Algoritmo de Agrupamiento: HDBSCAN (hiperparámetros específicos no detallados en el artículo)
La Tabla I muestra el rendimiento del agrupamiento usando diferentes métodos de extracción de características en los conjuntos de validación de ImageNet-VID y UCF101:
| Método de Extracción de Características | Conjunto de Datos | V-measure | AMI |
|---|
| SIFT + VLAD | ImageNet-VID | 0.81 | 0.80 |
| UCF101 | 0.57 | 0.38 |
| HOG (224×224) | ImageNet-VID | 0.82 | 0.81 |
| UCF101 | 0.61 | 0.48 |
| HOG (128×128) | ImageNet-VID | 0.87 | 0.86 |
| UCF101 | 0.67 | 0.54 |
| XFeat + VLAD | ImageNet-VID | 0.90 | 0.89 |
| UCF101 | 0.72 | 0.58 |
| CLIP (ViT-B/32) | ImageNet-VID | 0.92 | 0.91 |
| UCF101 | 0.75 | 0.66 |
| SigLIP (ViT-B/16) | ImageNet-VID | 0.93 | 0.92 |
| UCF101 | 0.75 | 0.67 |
| DINO-V3 (ViT-B/16) | ImageNet-VID | 0.96 | 0.96 |
| UCF101 | 0.87 | 0.80 |
- Modelos Preentrenados Profundos Significativamente Superiores a Métodos Tradicionales:
- DINO-V3 alcanza las puntuaciones más altas en ambos conjuntos de datos
- En ImageNet-VID, DINO-V3 mejora en 18.5% comparado con SIFT+VLAD (V-measure)
- En UCF101, la mejora es aún más significativa, alcanzando 52.6%
- Diferencia de Dificultad entre Conjuntos de Datos:
- El rendimiento de todos los métodos en UCF101 es inferior a ImageNet-VID
- La variabilidad temporal de UCF101 aumenta la dificultad del agrupamiento
- SIFT+VLAD muestra el rendimiento más débil en UCF101 (AMI solo 0.38)
- Gradiente de Rendimiento de Métodos de Extracción de Características:
- Primer Nivel: DINO-V3 > SigLIP ≈ CLIP
- Segundo Nivel: XFeat + VLAD
- Tercer Nivel: HOG (128×128) > HOG (224×224)
- Cuarto Nivel: SIFT + VLAD
- Potencial de Métodos Ligeros:
- XFeat + VLAD muestra mejora clara comparado con descriptores tradicionales
- Alcanza 0.90 de V-measure en ImageNet-VID
- Proporciona opción viable para escenarios con recursos computacionales limitados
- Impacto de la Resolución de Imagen:
- HOG muestra mejor rendimiento en resolución 128×128 que 224×224
- Resoluciones más bajas producen descriptores de dimensión más baja mientras mantienen mejor rendimiento
- Ventaja de Representaciones Semánticas: Los modelos preentrenados profundos (especialmente DINO-V3) pueden capturar información semántica de alto nivel, identificando mejor similitud visual, lo cual es crucial para detección de fugas de información
- Efectividad del Aprendizaje Autosupervisado: DINO-V3 como método autosupervisado muestra el mejor rendimiento, demostrando que se pueden aprender representaciones adecuadas para tareas de agrupamiento sin supervisión explícita
- Importancia de Agregación de Características: La agregación VLAD de descriptores locales (SIFT, XFeat) mejora significativamente el rendimiento
- Universalidad del Método: El marco muestra buen rendimiento en dos conjuntos de datos con características diferentes, probando su capacidad de generalización
- Botache et al. 1: Investiga la complejidad de dividir datos de secuencia, explorando desafíos en análisis de video y series temporales
- Figueiredo & Mendes 2: Analiza fugas de información en conjuntos de datos de detección de objetos en video, resolviendo el problema dividiendo imágenes en agrupamientos con alta correlación espaciotemporal
- Métodos Tradicionales: SIFT 8,9, HOG 4 y otros descriptores diseñados manualmente
- Métodos de Aprendizaje Profundo: CLIP 3, SigLIP 10, DINO-V3 11 y otros modelos preentrenados
- Métodos Ligeros: XFeat 5 proporciona equilibrio entre eficiencia y rendimiento
- Agrupamiento por Densidad: HDBSCAN 7 puede descubrir agrupamientos de forma arbitraria
- Técnicas de Reducción de Dimensionalidad: PaCMAP 6 proporciona mejor preservación de estructura global comparado con t-SNE y UMAP
Comparado con trabajo existente, este artículo:
- Proporciona comparación más sistemática de métodos de extracción de características
- Utiliza agrupamiento por densidad más adecuado para características de datos de video
- Propone solución completa de extremo a extremo
- Valida en múltiples conjuntos de datos de referencia
- Efectividad del Método: La estrategia de selección de fotogramas basada en agrupamiento puede identificar y agrupar efectivamente fotogramas visualmente similares, previniendo fugas de información
- Mejores Prácticas: La incrustación DINO-V3 alcanza el mejor rendimiento de agrupamiento en ambos conjuntos de datos, siendo el método preferido en práctica
- Valor Práctico: El método es simple, escalable, e integrable sin problemas en flujos de trabajo existentes de preparación de conjuntos de datos
- Efecto de Mejora: Al agrupar fotogramas antes de la división del conjunto de datos, el método mejora la diversidad y proporciona un ambiente de evaluación justo, mitigando así el sobreajuste de modelos de detección de objetos entrenados en conjuntos de datos de video
- Dependencia de Hiperparámetros: El método depende de la selección de hiperparámetros de HDBSCAN, donde diferentes configuraciones pueden afectar resultados de agrupamiento
- Costo Computacional: La extracción de características de modelos preentrenados profundos (como DINO-V3) requiere recursos computacionales significativos
- Falta de Verificación de Tareas Descendentes: El artículo no proporciona comparación de rendimiento en tareas reales de detección de objetos (con vs. sin este método)
- Evaluación de Calidad de Agrupamiento: Solo utiliza AMI y V-measure para evaluación, careciendo de análisis cuantitativo del grado real de fuga de información
- Escala de Conjunto de Datos: No verifica la escalabilidad del método en conjuntos de datos de escala ultra-grande
Los autores identifican explícitamente las siguientes direcciones de investigación:
- Estrategias de Agrupamiento Adaptativo: Explorar métodos de agrupamiento que puedan ajustar automáticamente hiperparámetros, reduciendo dependencia de hiperparámetros de HDBSCAN
- Cuantificación de Brecha de Rendimiento: Entrenar modelos de detección de objetos de imagen con/sin este método, cuantificando el impacto real de fugas de información en rendimiento del modelo
- Evaluación Transversal de Conjuntos de Datos: Validar efectividad del método en más conjuntos de datos con características diversas
- Optimización de Extremo a Extremo: Explorar posiblemente métodos que optimicen conjuntamente agrupamiento y entrenamiento de modelo
- Enfoque Fuerte al Problema: Aborda directamente el punto débil central de conjuntos de datos derivados de video — fugas de información
- Solución Elegante: Aplica ingeniosamente técnicas de agrupamiento a división de conjuntos de datos, con lógica clara y razonable
- Diseño Plug-and-Play: No requiere modificación de flujo de entrenamiento, con fuerte practicidad de ingeniería
- Métodos de Extracción de Características Integral: Cubre métodos tradicionales, ligeros y modernos profundos, totalizando 7 métodos
- Selección Razonable de Conjuntos de Datos: ImageNet-VID y UCF101 representan diferentes tipos de datos de video
- Métricas de Evaluación Apropiadas: AMI y V-measure son métricas de evaluación estándar para calidad de agrupamiento
- Mejora de Rendimiento Significativa: DINO-V3 alcanza puntuaciones altas de 0.80+ en ambos conjuntos de datos
- Consistencia Fuerte: Métodos profundos superan métodos tradicionales en ambos conjuntos de datos, conclusiones robustas
- Datos Numéricos Detallados: Proporciona datos de comparación completos para todos los métodos
- Estructura Clara: Organización lógica fuerte de problema-método-experimento
- Expresión Precisa: Descripción técnica precisa, uso de símbolos matemáticos normativo
- Visualización Efectiva: La Figura 1 presenta claramente el flujo general
- Falta de Análisis Teórico: No proporciona explicación teórica de por qué DINO-V3 muestra el mejor rendimiento
- Sensibilidad de Hiperparámetros No Explorada: Cómo los hiperparámetros de HDBSCAN afectan resultados no ha sido estudiado
- Control de Número de Agrupamientos: No se discute cómo controlar el número de agrupamientos para equilibrar tamaños de partición
- Falta de Experimentos de Ablación:
- ¿Es necesaria la reducción de dimensionalidad PaCMAP? ¿Cómo es el rendimiento del agrupamiento directo en espacio de alta dimensión?
- ¿Es 256 dimensiones óptimo para reducción?
- ¿Cómo se comparan otros algoritmos de agrupamiento (K-Means, DBSCAN)?
- Falta de Verificación de Tareas Descendentes: La pregunta más crítica — ¿este método realmente mejora la capacidad de generalización del modelo? — no ha sido verificada
- Falta de Pruebas de Significancia Estadística: No proporciona barras de error o pruebas de significancia
- Falta de Análisis de Casos de Fallo: ¿Qué tipos de fotogramas son difíciles de agrupar correctamente?
- Visualización Insuficiente: No muestra visualización de resultados de agrupamiento en t-SNE/UMAP
- Falta de Análisis de Costo Computacional: No reporta tiempo de ejecución y consumo de memoria de cada método
- Falta de Análisis Cuantitativo de Fuga de Información: No cuantifica el grado de fuga causado por métodos tradicionales
- Conjuntos de Datos Limitados: Solo dos conjuntos de datos, careciendo de validación más diversificada
- Tareas Únicas: Solo enfocado en detección de objetos, no explora efectos en otras tareas (reconocimiento de acciones, segmentación)
- Verificación de Escala Insuficiente: No prueba en conjuntos de datos de escala de millones
- Mejora de Confiabilidad de Investigación: Proporciona método de preprocesamiento estandarizado para uso de conjuntos de datos derivados de video
- Contribución Metodológica: Enfatiza la importancia de división de conjuntos de datos en evaluación de modelos
- Orientación Práctica: Proporciona a profesionales recomendaciones de selección de métodos de extracción de características
- Alto: El método es simple y fácil de implementar, aplicable inmediatamente a proyectos reales
- Universalidad Fuerte: Aplicable a todos los escenarios de extracción de fotogramas de video
- Costo Controlable: Costo de preprocesamiento único, sin aumentar costo de entrenamiento
- Fortalezas:
- Descripción clara del método
- Utiliza herramientas y modelos públicamente disponibles
- Configuración de hiperparámetros explícita (tamaño de imagen, dimensión de reducción, etc.)
- Insuficiencias:
- No proporciona código o detalles de implementación
- Hiperparámetros específicos de HDBSCAN no especificados
- Estrategia específica de división de conjuntos de datos (como 70/15/15) no clara
- Corto Plazo: Probablemente será citado y adoptado por artículos relacionados con construcción de conjuntos de datos
- Mediano Plazo: Puede convertirse en paso de preprocesamiento estándar para lanzamiento de conjuntos de datos de video
- Largo Plazo: Impulsa estándares de control de calidad de conjuntos de datos más estrictos
- Detección de Objetos en Video: Escenario objetivo principal del artículo
- Reconocimiento de Acciones: Extracción de fotogramas de video para clasificación
- Segmentación de Instancia en Video: Tareas que requieren anotaciones a nivel de fotograma
- Análisis de Video de Vigilancia: Típicamente contiene muchos fotogramas similares
- Tareas de Comprensión de Video: Tareas que requieren preservar información temporal pueden no ser adecuadas
- Conjuntos de Datos Pequeños: El agrupamiento puede ser inestable
- Videos Altamente Diversificados: Si el contenido de video difiere extremadamente, el agrupamiento puede ser demasiado granular
- Conjuntos de Datos de Imagen Nativa: No existe problema de fuga de información
- Tareas que Requieren Modelado Temporal: Como predicción de video, estimación de flujo óptico
- Aplicaciones en Tiempo Real: La extracción de características profundas puede ser demasiado lenta
- 1 Botache et al., 2023 - Investigación de complejidad de división de datos de secuencia
- 2 Figueiredo & Mendes, 2024 - Análisis de fugas de información en conjuntos de datos de detección de objetos en video (IEEE Access)
- 3 Radford et al., 2021 - CLIP: Aprendizaje de Modelos de Visión Transferibles desde Supervisión de Lenguaje Natural (ICML)
- 7 McInnes et al., 2017 - HDBSCAN: Algoritmo de Agrupamiento Jerárquico por Densidad
- 11 Siméoni et al., 2025 - DINO-V3: Transformer de Visión Autosupervisado (preimpresión de arXiv)
- 14 Russakovsky et al., 2015 - Desafío de Reconocimiento Visual a Gran Escala de ImageNet (IJCV)
Este artículo propone una solución práctica para el problema de fuga de información en conjuntos de datos derivados de video. La ventaja central radica en la simplicidad y practicidad del método — asegurar que fotogramas visualmente similares se asignen a la misma partición de datos a través de agrupamiento es una estrategia intuitiva y efectiva. Los resultados experimentales muestran que modelos preentrenados profundos modernos (especialmente DINO-V3) son significativamente superiores a métodos tradicionales en identificar similitud entre fotogramas.
Sin embargo, el defecto principal del artículo es la falta de verificación de tareas descendentes. Aunque la calidad del agrupamiento es alta (AMI y V-measure alcanzan 0.96), si esto realmente se traduce en mejor capacidad de generalización del modelo sigue sin probarse. Esta es una omisión crítica, porque la calidad del agrupamiento es solo un medio, mejorar la evaluación del modelo es el objetivo final.
A pesar de esto, este trabajo proporciona una contribución metodológica importante para la construcción de conjuntos de datos de video, con valor práctico significativo. Se recomienda que trabajo futuro:
- Prioridad Máxima: Verificar efectividad del método en tareas reales de detección de objetos
- Explorar estrategias de selección de hiperparámetros adaptativos
- Expandir a conjuntos de datos más grandes y diversificados
- Proporcionar implementación de código abierto para promover adopción comunitaria
Índice de Recomendación: ★★★★☆ (4/5)
- Problema importante y práctico ✓
- Método simple y efectivo ✓
- Experimento relativamente completo ✓
- Falta verificación descendente ✗
- Profundidad de análisis mejorable ✗