The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
- ID del Artículo: 2510.11204
- Título: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- Autores: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
- Clasificación: cs.CV (Visión por Computadora)
- Fecha de Publicación: 13 de octubre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.11204v1
Con el rápido crecimiento del consumo de medios en línea por parte de niños, los educadores necesitan urgentemente herramientas basadas en datos para filtrar contenido educativo apropiado para estudiantes de educación inicial. Este artículo propone un método para detectar contenido educativo en videos en línea, enfocándose en dos categorías de contenido educativo ampliamente utilizadas: alfabetización y matemáticas. Se seleccionan códigos destacados (subcategorías) basados en los Estándares Comunes, como códigos de alfabetización que incluyen "nombres de letras" y "sonidos de letras", y códigos de matemáticas que incluyen "conteo" y "clasificación". Dado que los videos pueden contener múltiples tipos de contenido educativo y las categorías de contenido pueden ser visualmente similares, este trabajo lo modela como un problema de clasificación multiétiqueta de grano fino. Se propone un novedoso método de aprendizaje contrastivo supervisado basado en prototipos de clase que puede manejar muestras de grano fino asociadas con múltiples etiquetas. Al aprender prototipos de clase para cada categoría, se utiliza una función de pérdida para minimizar la distancia entre los prototipos de clase y las muestras de esa clase, mientras se maximiza la distancia con respecto a muestras de otras clases. Considerando la importancia de las pistas visuales y de audio para una comprensión efectiva, se adopta una red transformadora multimodal para capturar las interacciones entre pistas visuales y de audio en videos. La evaluación utiliza el conjunto de datos APPROVE, que contiene 193 horas de videos educativos de YouTube anotados por investigadores educativos, con 19 categorías.
- Problema Central: Identificar y clasificar automáticamente contenido educativo en videos en línea, particularmente enfocándose en contenido de alfabetización y matemáticas para la etapa de educación inicial
- Necesidad Práctica: El 89% de padres de niños menores de 11 años reportan que sus hijos ven videos de YouTube, con niños de 2-4 años viendo un promedio de 2.5 horas diarias y niños de 5-8 años viendo un promedio de 3.0 horas diarias
- Valor Educativo: Ver videos educativos apropiados respalda el desarrollo infantil saludable y el aprendizaje, demostrándose que produce beneficios de aprendizaje significativos
- Discriminación de Grano Fino: Existe una alta similitud entre códigos educativos, como "nombres de letras" vs "sonidos de letras"
- Naturaleza Multiétiqueta: Un solo video puede contener múltiples tipos de contenido educativo
- Requisito Multimodal: La comprensión del contenido educativo requiere analizar simultáneamente pistas visuales y de audio
- Escasez de Datos: Falta de conjuntos de datos de videos educativos de grano fino anotados por expertos
- Aprendizaje Contrastivo Supervisado Estándar: Métodos como SupCon no pueden extenderse directamente a escenarios multiétiqueta
- Métodos Unimodales: Depender únicamente de pistas visuales es insuficiente para distinguir contenido educativo de grano fino
- Clasificación de Video Genérica: Conjuntos de datos existentes como UCF101 y Kinetics se enfocaban principalmente en reconocimiento de acciones, no siendo aplicables al análisis de contenido educativo
- Conjunto de Datos APPROVE: Construcción del primer conjunto de datos de video educativo multiétiqueta de grano fino, que contiene 193 horas de videos anotados por expertos, 19 categorías, con un promedio de 3 etiquetas por video
- Marco de Aprendizaje Contrastivo Basado en Prototipos de Clase: Propuesta de un método de aprendizaje contrastivo supervisado basado en prototipos de clase aplicable a clasificación multiétiqueta de grano fino
- Arquitectura de Fusión Multimodal: Diseño de una red transformadora multimodal que fusiona efectivamente información visual y textual (transcripciones ASR)
- Mejora de Rendimiento: Desempeño superior a métodos de línea base sólida en los conjuntos de datos APPROVE, YouTube-8M y COIN
- Entrada: Video educativo x, que contiene una secuencia de fotogramas visuales y pista de audio
- Salida: Resultado de clasificación multiétiqueta, prediciendo categorías de contenido educativo contenidas en el video
- Restricciones: Existe diferencia de grano fino entre categorías, un solo video puede contener múltiples etiquetas relacionadas
El aprendizaje contrastivo supervisado tradicional (SupCon) aprende representaciones minimizando la distancia entre muestras de la misma clase y maximizando la distancia entre muestras de diferentes clases:
LSupCon=∑i∈A−∣P(i)∣1∑p∈P(i)log∑a∈A\iexp(sim(zi,za)/τ)exp(sim(zi,zp)/τ)
Sin embargo, en escenarios multiétiqueta, los pares de muestras no pueden dividirse simplemente en muestras positivas y negativas. Este artículo propone aprendizaje contrastivo basado en prototipos de clase:
Lmlc(x)=−∣Pml(x)∣1∑ck+∈Pml(x)[log∑cj−∈C\Pml(x)exp(sim(z,cpj)/τ)exp(sim(z,cpk)/τ)]
Donde:
- Pml(x): Conjunto de etiquetas de clase positivas para la muestra x
- cpk: Prototipo de la clase k
- z: Representación de la muestra
Los prototipos de clase se actualizan iterativamente de la siguiente manera:
Zt=L×CPt+εCPt∗≈(LTL)−1LTZtCPt+1=β⋅CPt+(1−β)⋅CPt∗
Donde L es la matriz de etiquetas y β es el parámetro de decaimiento del promedio móvil exponencial.
La red contiene tres componentes:
- Codificador de Imagen: Utiliza ViT para procesar fotogramas de video, generando representación visual zv
- Codificador de Texto: Utiliza BERT para procesar texto de transcripción ASR, generando representación textual zt
- Codificador de Fusión: Fusiona información multimodal a través de mecanismo de atención cruzada, generando representación fusionada zf
La representación final de la muestra es: z={zv,zt,zf}
- Aprendizaje Contrastivo Multiétiqueta: Primera extensión del aprendizaje contrastivo a escenarios verdaderamente multiétiqueta, resolviendo el problema de etiquetas parcialmente superpuestas
- Diseño de Prototipos de Clase: Aprendizaje de prototipos de clase como puntos de anclaje, evitando la dificultad de definir muestras positivas y negativas en escenarios multiétiqueta
- Fusión Multimodal: Combinación efectiva de demostración visual y explicación de audio considerando las características del contenido educativo
- Entrenamiento de Dos Etapas: Primero alineación unimodal, luego aprendizaje multimodal de extremo a extremo
- Escala: 193 horas de video, 19 categorías (7 categorías de alfabetización + 11 categorías de matemáticas + 1 categoría de fondo)
- Anotación: Anotado por investigadores educativos capacitados, siguiendo protocolo de validación estándar
- Características: Promedio de 3 etiquetas por video, alta similitud visual entre categorías
- Garantía de Calidad: Los anotadores deben alcanzar más del 90% de concordancia con expertos para participar en la anotación final
- YT-46K: Subconjunto de YouTube-8M, 46K videos, 165 categorías
- COIN: Conjunto de datos de video instructivo, 180 categorías
- R@80: Recuperación al 80% de precisión (métrica principal, apropiada para aplicaciones educativas de alta precisión)
- AUPR: Área bajo la curva de precisión-recuperación
- LRAP: Precisión promedio de clasificación de etiquetas, apropiada para evaluación multiétiqueta
- Binary Cross-Entropy (BCE): Pérdida de clasificación multiétiqueta estándar
- Focal Loss: Pérdida de entropía cruzada mejorada para muestras difíciles
- Asymmetric Loss: Función de pérdida asimétrica para multiétiqueta
- Optimizador: AdamW, tasa de aprendizaje 0.0005
- Codificador de Imagen: ResNet50, ViT-B/32, ViT-B/16
- Codificador de Texto: DistilBERT, T5-small
- ASR: OpenAI Whisper
- Aumento de Datos: RandAugment, reemplazo de sinónimos, traducción inversa, etc.
| Modalidad | Método | AUPR | LRAP | R@80 |
|---|
| V+T | BCE | 84.3 | 88.4 | 76.3 |
| V+T | Focal | 86.1 | 89.1 | 82.2 |
| V+T | Asim. | 86.0 | 89.2 | 82.4 |
| V+T | Nuestro | 88.4 | 90.7 | 85.5 |
El método propuesto logra el mejor rendimiento en todas las métricas, con mejoras respecto a la línea base más sólida:
- AUPR: +2.3%
- LRAP: +1.5%
- R@80: +3.1%
- YT-46K: Mejora de R@80 del 4.5% (49.1% vs 44.6%)
- COIN: Mejora de precisión Top-1 del 1.4% (57.5% vs 56.1%)
| Método de Inicialización | APPROVE | COIN |
|---|
| Aleatorio | 84.1 | 56.6 |
| Ortogonal | 84.8 | 57.0 |
| Aprendido | 85.5 | 57.5 |
| Jerárquico | 86.0 | 57.8 |
- Solo Visual: R@80 = 19.6%
- Solo Texto: R@80 = 75.4%
- Visual + Texto: R@80 = 85.5%
La modalidad textual contribuye más, pero la fusión multimodal proporciona una mejora significativa.
- Categorías de Matemáticas: Rendimiento superior a categorías de alfabetización, indicando que las categorías de alfabetización son más difíciles de distinguir
- Categorías Difíciles: "seguir palabras", "letras en palabras", "sonidos en palabras" son todas categorías de alfabetización
- Ventaja Multimodal: Las habilidades que requieren conectar lenguaje y lo visual (como palabras de vista, numerales escritos) se benefician más de datos multimodales
- Modalidad Faltante: Cuando falta el 10% de fotogramas de video, el rendimiento disminuye 5.4%; cuando falta el 30% de texto, disminuye 16.6%
- Varianza Entre Ejecuciones: Varianza baja similar a métodos de línea base (±0.5%)
- Inicialización CLIP: Proporciona mejora adicional de rendimiento en comparación con inicialización ImageNet
- Aprendizaje Contrastivo Autosupervisado: SimCLR, MoCo, etc. generan pares de muestras positivas mediante aumento de datos
- Aprendizaje Contrastivo Supervisado: SupCon utiliza información de etiquetas para formar pares de muestras positivas y negativas, pero no puede extenderse directamente a multiétiqueta
- Aprendizaje Contrastivo Basado en Prototipos: PCL utiliza prototipos generados por agrupamiento en configuración no supervisada
- Multimodal Débilmente Supervisado: CLIP utiliza pares texto-imagen obtenidos por web scraping para aprendizaje contrastivo
- Multimodal Supervisado: Utiliza conjuntos de datos anotados manualmente como MS-COCO para aprendizaje supervisado
- Comprensión de Video: Los conjuntos de datos existentes se enfocaban principalmente en reconocimiento de acciones, careciendo de análisis de contenido educativo
- Video Deportivo: Multi-Sports, FineGym, etc. anotan acciones deportivas de grano fino
- Video Instructivo: COIN contiene tareas instructivas diversas, pero con granularidad más gruesa
- Video Educativo: Este trabajo propone por primera vez clasificación de contenido educativo de grano fino
- Efectividad del Método: El aprendizaje contrastivo basado en prototipos de clase resuelve exitosamente el problema de clasificación multiétiqueta de grano fino
- Necesidad Multimodal: La combinación de pistas visuales y de audio es crucial para la comprensión del contenido educativo
- Contribución del Conjunto de Datos: APPROVE proporciona un conjunto de datos de referencia valioso para análisis de video educativo
- Valor Práctico: El método puede ayudar a educadores a filtrar contenido educativo apropiado
- Restricción de Dominio: Actualmente se enfoca solo en dos dominios: alfabetización y matemáticas
- Rango de Edad: Principalmente dirigido a la etapa de educación inicial, la aplicabilidad a otros rangos de edad es desconocida
- Dependencia del Lenguaje: La calidad de la transcripción ASR afecta el rendimiento, la aplicabilidad a contenido no inglés es limitada
- Complejidad Computacional: El procesamiento multimodal y el aprendizaje de prototipos aumentan la carga computacional
- Expansión de Dominios: Extender a otros dominios educativos como ciencias y estudios sociales
- Soporte Multilingüe: Soportar análisis de contenido educativo multilingüe
- Aplicación en Tiempo Real: Optimizar el modelo para soportar filtrado de contenido en tiempo real
- Recomendación Personalizada: Combinar con el progreso de aprendizaje del niño para recomendación de contenido personalizada
- Importancia del Problema: Resuelve una necesidad práctica real en educación infantil, con valor social significativo
- Innovación Técnica: Primera extensión efectiva del aprendizaje contrastivo a escenarios multiétiqueta de grano fino
- Calidad del Conjunto de Datos: El conjunto de datos APPROVE tiene alta calidad de anotación, proporcionando recurso importante para desarrollo del campo
- Experimentos Completos: Experimentos de ablación exhaustivos, validación en múltiples conjuntos de datos demuestra generalización del método
- Método Genérico: El marco de aprendizaje contrastivo basado en prototipos es extensible a otras tareas de clasificación multiétiqueta
- Análisis Teórico Limitado: Falta análisis teórico sobre convergencia del aprendizaje de prototipos de clase
- Eficiencia Computacional: No se analiza en detalle la carga computacional del procesamiento multimodal y velocidad de inferencia
- Análisis de Errores: Falta análisis profundo de errores de clasificación e investigación de interpretabilidad
- Comparación de Líneas Base: Podría incluir más métodos recientes de clasificación multiétiqueta para comparación
- Distribución de Cola Larga: No se discute suficientemente el impacto del desbalance de clases en el rendimiento
- Contribución Académica: Proporciona nueva solución para aprendizaje contrastivo multiétiqueta
- Valor Práctico: Aplicable directamente al desarrollo de productos de tecnología educativa
- Impacto del Conjunto de Datos: APPROVE se convertirá en referencia importante para análisis de video educativo
- Reproducibilidad: Código y conjunto de datos públicos facilitan investigación posterior
- Plataformas Educativas: Filtrado de contenido en plataformas como YouTube Kids
- Educación en Línea: Anotación automática y recomendación de contenido de video educativo
- Herramientas para Padres: Ayudar a padres a filtrar contenido educativo apropiado
- Herramientas de Investigación: Análisis de contenido de video en investigación educativa
El artículo cita 68 referencias relacionadas, incluyendo principalmente:
- Artículos clásicos de aprendizaje contrastivo: SimCLR, MoCo, SupCon, etc.
- Aprendizaje multimodal: CLIP, BLIP, Flamingo, etc.
- Conjuntos de datos de análisis de video: UCF101, Kinetics, YouTube-8M, etc.
- Literatura relacionada con Estándares Comunes
Evaluación General: Este es un artículo de alta calidad en visión por computadora que resuelve un problema importante en tecnología educativa. El método tiene fuerte innovación, diseño experimental razonable y resultados convincentes. La contribución del conjunto de datos APPROVE es particularmente destacada, proporcionando recurso valioso para investigación relacionada. El artículo logra buen equilibrio entre profundidad técnica y valor práctico, esperándose que tenga impacto importante en el campo del análisis de video educativo.