2025-11-25T21:10:18.097119

Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos

Gupta, Roy, Christensen et al.

The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE

academic

Aprendizaje Contrastivo Basado en Prototipos de Clase para la Clasificación de Videos Educativos Multiétiqueta y de Grano Fino

Información Básica

ID del Artículo: 2510.11204
Título: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
Autores: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.11204v1

Resumen

Con el rápido crecimiento del consumo de medios en línea por parte de niños, los educadores necesitan urgentemente herramientas basadas en datos para filtrar contenido educativo apropiado para estudiantes de educación inicial. Este artículo propone un método para detectar contenido educativo en videos en línea, enfocándose en dos categorías de contenido educativo ampliamente utilizadas: alfabetización y matemáticas. Se seleccionan códigos destacados (subcategorías) basados en los Estándares Comunes, como códigos de alfabetización que incluyen "nombres de letras" y "sonidos de letras", y códigos de matemáticas que incluyen "conteo" y "clasificación". Dado que los videos pueden contener múltiples tipos de contenido educativo y las categorías de contenido pueden ser visualmente similares, este trabajo lo modela como un problema de clasificación multiétiqueta de grano fino. Se propone un novedoso método de aprendizaje contrastivo supervisado basado en prototipos de clase que puede manejar muestras de grano fino asociadas con múltiples etiquetas. Al aprender prototipos de clase para cada categoría, se utiliza una función de pérdida para minimizar la distancia entre los prototipos de clase y las muestras de esa clase, mientras se maximiza la distancia con respecto a muestras de otras clases. Considerando la importancia de las pistas visuales y de audio para una comprensión efectiva, se adopta una red transformadora multimodal para capturar las interacciones entre pistas visuales y de audio en videos. La evaluación utiliza el conjunto de datos APPROVE, que contiene 193 horas de videos educativos de YouTube anotados por investigadores educativos, con 19 categorías.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Identificar y clasificar automáticamente contenido educativo en videos en línea, particularmente enfocándose en contenido de alfabetización y matemáticas para la etapa de educación inicial
Necesidad Práctica: El 89% de padres de niños menores de 11 años reportan que sus hijos ven videos de YouTube, con niños de 2-4 años viendo un promedio de 2.5 horas diarias y niños de 5-8 años viendo un promedio de 3.0 horas diarias
Valor Educativo: Ver videos educativos apropiados respalda el desarrollo infantil saludable y el aprendizaje, demostrándose que produce beneficios de aprendizaje significativos

Análisis de Desafíos

Discriminación de Grano Fino: Existe una alta similitud entre códigos educativos, como "nombres de letras" vs "sonidos de letras"
Naturaleza Multiétiqueta: Un solo video puede contener múltiples tipos de contenido educativo
Requisito Multimodal: La comprensión del contenido educativo requiere analizar simultáneamente pistas visuales y de audio
Escasez de Datos: Falta de conjuntos de datos de videos educativos de grano fino anotados por expertos

Limitaciones de Métodos Existentes

Aprendizaje Contrastivo Supervisado Estándar: Métodos como SupCon no pueden extenderse directamente a escenarios multiétiqueta
Métodos Unimodales: Depender únicamente de pistas visuales es insuficiente para distinguir contenido educativo de grano fino
Clasificación de Video Genérica: Conjuntos de datos existentes como UCF101 y Kinetics se enfocaban principalmente en reconocimiento de acciones, no siendo aplicables al análisis de contenido educativo

Contribuciones Principales

Conjunto de Datos APPROVE: Construcción del primer conjunto de datos de video educativo multiétiqueta de grano fino, que contiene 193 horas de videos anotados por expertos, 19 categorías, con un promedio de 3 etiquetas por video
Marco de Aprendizaje Contrastivo Basado en Prototipos de Clase: Propuesta de un método de aprendizaje contrastivo supervisado basado en prototipos de clase aplicable a clasificación multiétiqueta de grano fino
Arquitectura de Fusión Multimodal: Diseño de una red transformadora multimodal que fusiona efectivamente información visual y textual (transcripciones ASR)
Mejora de Rendimiento: Desempeño superior a métodos de línea base sólida en los conjuntos de datos APPROVE, YouTube-8M y COIN

Explicación Detallada del Método

Definición de la Tarea

Entrada: Video educativo $x$ , que contiene una secuencia de fotogramas visuales y pista de audio
Salida: Resultado de clasificación multiétiqueta, prediciendo categorías de contenido educativo contenidas en el video
Restricciones: Existe diferencia de grano fino entre categorías, un solo video puede contener múltiples etiquetas relacionadas

Arquitectura del Modelo

1. Aprendizaje Contrastivo Basado en Prototipos de Clase

El aprendizaje contrastivo supervisado tradicional (SupCon) aprende representaciones minimizando la distancia entre muestras de la misma clase y maximizando la distancia entre muestras de diferentes clases:

$L_{SupCon} = \sum_{i \in A} -\frac{1}{|P(i)|} \sum_{p \in P(i)} \log \frac{\exp(\text{sim}(z_i, z_p)/\tau)}{\sum_{a \in A\backslash i} \exp(\text{sim}(z_i, z_a)/\tau)}$

Sin embargo, en escenarios multiétiqueta, los pares de muestras no pueden dividirse simplemente en muestras positivas y negativas. Este artículo propone aprendizaje contrastivo basado en prototipos de clase:

$L_{mlc}(x) = -\frac{1}{|P_{ml}(x)|} \sum_{c_k^+ \in P_{ml}(x)} \left[ \log \frac{\exp(\text{sim}(z, cp_k)/\tau)}{\sum_{c_j^- \in C\backslash P_{ml}(x)} \exp(\text{sim}(z, cp_j)/\tau)} \right]$

Donde:

$P_{ml}(x)$ : Conjunto de etiquetas de clase positivas para la muestra $x$
$cp_k$ : Prototipo de la clase $k$
$z$ : Representación de la muestra

2. Aprendizaje de Prototipos de Clase

Los prototipos de clase se actualizan iterativamente de la siguiente manera: $Z_t = L \times CP_t + \varepsilon$ $CP_t^* \approx (L^T L)^{-1} L^T Z_t$ $CP_{t+1} = \beta \cdot CP_t + (1-\beta) \cdot CP_t^*$

Donde $L$ es la matriz de etiquetas y $\beta$ es el parámetro de decaimiento del promedio móvil exponencial.

3. Red Transformadora Multimodal

La red contiene tres componentes:

Codificador de Imagen: Utiliza ViT para procesar fotogramas de video, generando representación visual $z_v$
Codificador de Texto: Utiliza BERT para procesar texto de transcripción ASR, generando representación textual $z_t$
Codificador de Fusión: Fusiona información multimodal a través de mecanismo de atención cruzada, generando representación fusionada $z_f$

La representación final de la muestra es: $z = \{z_v, z_t, z_f\}$

Puntos de Innovación Técnica

Aprendizaje Contrastivo Multiétiqueta: Primera extensión del aprendizaje contrastivo a escenarios verdaderamente multiétiqueta, resolviendo el problema de etiquetas parcialmente superpuestas
Diseño de Prototipos de Clase: Aprendizaje de prototipos de clase como puntos de anclaje, evitando la dificultad de definir muestras positivas y negativas en escenarios multiétiqueta
Fusión Multimodal: Combinación efectiva de demostración visual y explicación de audio considerando las características del contenido educativo
Entrenamiento de Dos Etapas: Primero alineación unimodal, luego aprendizaje multimodal de extremo a extremo

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos APPROVE

Escala: 193 horas de video, 19 categorías (7 categorías de alfabetización + 11 categorías de matemáticas + 1 categoría de fondo)
Anotación: Anotado por investigadores educativos capacitados, siguiendo protocolo de validación estándar
Características: Promedio de 3 etiquetas por video, alta similitud visual entre categorías
Garantía de Calidad: Los anotadores deben alcanzar más del 90% de concordancia con expertos para participar en la anotación final

Conjuntos de Datos de Comparación

YT-46K: Subconjunto de YouTube-8M, 46K videos, 165 categorías
COIN: Conjunto de datos de video instructivo, 180 categorías

Métricas de Evaluación

R@80: Recuperación al 80% de precisión (métrica principal, apropiada para aplicaciones educativas de alta precisión)
AUPR: Área bajo la curva de precisión-recuperación
LRAP: Precisión promedio de clasificación de etiquetas, apropiada para evaluación multiétiqueta

Métodos de Comparación

Binary Cross-Entropy (BCE): Pérdida de clasificación multiétiqueta estándar
Focal Loss: Pérdida de entropía cruzada mejorada para muestras difíciles
Asymmetric Loss: Función de pérdida asimétrica para multiétiqueta

Detalles de Implementación

Optimizador: AdamW, tasa de aprendizaje 0.0005
Codificador de Imagen: ResNet50, ViT-B/32, ViT-B/16
Codificador de Texto: DistilBERT, T5-small
ASR: OpenAI Whisper
Aumento de Datos: RandAugment, reemplazo de sinónimos, traducción inversa, etc.

Resultados Experimentales

Resultados Principales

Resultados en Conjunto de Datos APPROVE

Modalidad	Método	AUPR	LRAP	R@80
V+T	BCE	84.3	88.4	76.3
V+T	Focal	86.1	89.1	82.2
V+T	Asim.	86.0	89.2	82.4
V+T	Nuestro	88.4	90.7	85.5

El método propuesto logra el mejor rendimiento en todas las métricas, con mejoras respecto a la línea base más sólida:

AUPR: +2.3%
LRAP: +1.5%
R@80: +3.1%

Resultados en Otros Conjuntos de Datos

YT-46K: Mejora de R@80 del 4.5% (49.1% vs 44.6%)
COIN: Mejora de precisión Top-1 del 1.4% (57.5% vs 56.1%)

Experimentos de Ablación

Estrategias de Inicialización de Prototipos de Clase

Método de Inicialización	APPROVE	COIN
Aleatorio	84.1	56.6
Ortogonal	84.8	57.0
Aprendido	85.5	57.5
Jerárquico	86.0	57.8

Análisis de Contribución de Modalidades

Solo Visual: R@80 = 19.6%
Solo Texto: R@80 = 75.4%
Visual + Texto: R@80 = 85.5%

La modalidad textual contribuye más, pero la fusión multimodal proporciona una mejora significativa.

Análisis de Casos

Categorías de Matemáticas: Rendimiento superior a categorías de alfabetización, indicando que las categorías de alfabetización son más difíciles de distinguir
Categorías Difíciles: "seguir palabras", "letras en palabras", "sonidos en palabras" son todas categorías de alfabetización
Ventaja Multimodal: Las habilidades que requieren conectar lenguaje y lo visual (como palabras de vista, numerales escritos) se benefician más de datos multimodales

Análisis de Robustez

Modalidad Faltante: Cuando falta el 10% de fotogramas de video, el rendimiento disminuye 5.4%; cuando falta el 30% de texto, disminuye 16.6%
Varianza Entre Ejecuciones: Varianza baja similar a métodos de línea base (±0.5%)
Inicialización CLIP: Proporciona mejora adicional de rendimiento en comparación con inicialización ImageNet

Trabajo Relacionado

Aprendizaje Contrastivo

Aprendizaje Contrastivo Autosupervisado: SimCLR, MoCo, etc. generan pares de muestras positivas mediante aumento de datos
Aprendizaje Contrastivo Supervisado: SupCon utiliza información de etiquetas para formar pares de muestras positivas y negativas, pero no puede extenderse directamente a multiétiqueta
Aprendizaje Contrastivo Basado en Prototipos: PCL utiliza prototipos generados por agrupamiento en configuración no supervisada

Aprendizaje Multimodal

Multimodal Débilmente Supervisado: CLIP utiliza pares texto-imagen obtenidos por web scraping para aprendizaje contrastivo
Multimodal Supervisado: Utiliza conjuntos de datos anotados manualmente como MS-COCO para aprendizaje supervisado
Comprensión de Video: Los conjuntos de datos existentes se enfocaban principalmente en reconocimiento de acciones, careciendo de análisis de contenido educativo

Clasificación de Video de Grano Fino

Video Deportivo: Multi-Sports, FineGym, etc. anotan acciones deportivas de grano fino
Video Instructivo: COIN contiene tareas instructivas diversas, pero con granularidad más gruesa
Video Educativo: Este trabajo propone por primera vez clasificación de contenido educativo de grano fino

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: El aprendizaje contrastivo basado en prototipos de clase resuelve exitosamente el problema de clasificación multiétiqueta de grano fino
Necesidad Multimodal: La combinación de pistas visuales y de audio es crucial para la comprensión del contenido educativo
Contribución del Conjunto de Datos: APPROVE proporciona un conjunto de datos de referencia valioso para análisis de video educativo
Valor Práctico: El método puede ayudar a educadores a filtrar contenido educativo apropiado

Limitaciones

Restricción de Dominio: Actualmente se enfoca solo en dos dominios: alfabetización y matemáticas
Rango de Edad: Principalmente dirigido a la etapa de educación inicial, la aplicabilidad a otros rangos de edad es desconocida
Dependencia del Lenguaje: La calidad de la transcripción ASR afecta el rendimiento, la aplicabilidad a contenido no inglés es limitada
Complejidad Computacional: El procesamiento multimodal y el aprendizaje de prototipos aumentan la carga computacional

Direcciones Futuras

Expansión de Dominios: Extender a otros dominios educativos como ciencias y estudios sociales
Soporte Multilingüe: Soportar análisis de contenido educativo multilingüe
Aplicación en Tiempo Real: Optimizar el modelo para soportar filtrado de contenido en tiempo real
Recomendación Personalizada: Combinar con el progreso de aprendizaje del niño para recomendación de contenido personalizada

Evaluación Profunda

Fortalezas

Importancia del Problema: Resuelve una necesidad práctica real en educación infantil, con valor social significativo
Innovación Técnica: Primera extensión efectiva del aprendizaje contrastivo a escenarios multiétiqueta de grano fino
Calidad del Conjunto de Datos: El conjunto de datos APPROVE tiene alta calidad de anotación, proporcionando recurso importante para desarrollo del campo
Experimentos Completos: Experimentos de ablación exhaustivos, validación en múltiples conjuntos de datos demuestra generalización del método
Método Genérico: El marco de aprendizaje contrastivo basado en prototipos es extensible a otras tareas de clasificación multiétiqueta

Insuficiencias

Análisis Teórico Limitado: Falta análisis teórico sobre convergencia del aprendizaje de prototipos de clase
Eficiencia Computacional: No se analiza en detalle la carga computacional del procesamiento multimodal y velocidad de inferencia
Análisis de Errores: Falta análisis profundo de errores de clasificación e investigación de interpretabilidad
Comparación de Líneas Base: Podría incluir más métodos recientes de clasificación multiétiqueta para comparación
Distribución de Cola Larga: No se discute suficientemente el impacto del desbalance de clases en el rendimiento

Impacto

Contribución Académica: Proporciona nueva solución para aprendizaje contrastivo multiétiqueta
Valor Práctico: Aplicable directamente al desarrollo de productos de tecnología educativa
Impacto del Conjunto de Datos: APPROVE se convertirá en referencia importante para análisis de video educativo
Reproducibilidad: Código y conjunto de datos públicos facilitan investigación posterior

Escenarios de Aplicación

Plataformas Educativas: Filtrado de contenido en plataformas como YouTube Kids
Educación en Línea: Anotación automática y recomendación de contenido de video educativo
Herramientas para Padres: Ayudar a padres a filtrar contenido educativo apropiado
Herramientas de Investigación: Análisis de contenido de video en investigación educativa

Referencias

El artículo cita 68 referencias relacionadas, incluyendo principalmente:

Artículos clásicos de aprendizaje contrastivo: SimCLR, MoCo, SupCon, etc.
Aprendizaje multimodal: CLIP, BLIP, Flamingo, etc.
Conjuntos de datos de análisis de video: UCF101, Kinetics, YouTube-8M, etc.
Literatura relacionada con Estándares Comunes

Evaluación General: Este es un artículo de alta calidad en visión por computadora que resuelve un problema importante en tecnología educativa. El método tiene fuerte innovación, diseño experimental razonable y resultados convincentes. La contribución del conjunto de datos APPROVE es particularmente destacada, proporcionando recurso valioso para investigación relacionada. El artículo logra buen equilibrio entre profundidad técnica y valor práctico, esperándose que tenga impacto importante en el campo del análisis de video educativo.