The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
- ID Articolo: 2510.11204
- Titolo: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- Autori: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
- Categoria: cs.CV (Visione Artificiale)
- Data di Pubblicazione: 13 ottobre 2025
- Link Articolo: https://arxiv.org/abs/2510.11204v1
Con la rapida crescita del consumo di media online da parte dei bambini, gli educatori hanno un'urgente necessità di strumenti basati sui dati per filtrare i contenuti educativi appropriati per i giovani studenti. Questo articolo propone un metodo per rilevare contenuti educativi nei video online, concentrandosi su due categorie di contenuti educativi ampiamente utilizzate: alfabetizzazione e matematica. Sulla base degli Standard Common Core, vengono selezionati codici prominenti (sottocategorie), come i codici di alfabetizzazione che includono "nomi di lettere" e "suoni di lettere", e i codici matematici che includono "conteggio" e "classificazione". Poiché i video possono contenere molteplici contenuti educativi e le categorie di contenuti possono essere visivamente simili, questo articolo lo modella come un problema di classificazione multi-etichetta fine-grained. Viene proposto un nuovo metodo di apprendimento contrastivo supervisionato basato su prototipi di classe, in grado di gestire campioni fine-grained associati a più etichette. Imparando il prototipo di classe per ogni categoria, la funzione di perdita minimizza la distanza tra il prototipo di classe e i campioni di quella classe, massimizzando contemporaneamente la distanza dai campioni di altre classi. Considerando l'importanza dei segnali visivi e audio per una comprensione efficace, viene adottata una rete transformer multimodale per catturare l'interazione tra i segnali visivi e audio nei video. La valutazione utilizza il dataset APPROVE, contenente 193 ore di video educativi YouTube annotati da ricercatori educativi, con 19 categorie.
- Problema Centrale: Identificare e classificare automaticamente i contenuti educativi nei video online, in particolare per i contenuti di alfabetizzazione e matematica nella fase della scuola dell'infanzia
- Esigenza Pratica: L'89% dei genitori di bambini sotto gli 11 anni riferisce che i loro figli guardano video YouTube, con bambini di 2-4 anni che guardano in media 2,5 ore al giorno e bambini di 5-8 anni che guardano in media 3,0 ore al giorno
- Valore Educativo: La visione di video educativi appropriati supporta uno sviluppo sano dei bambini e l'apprendimento, dimostrato di produrre benefici di apprendimento significativi
- Distinzione Fine-Grained: Esiste un'elevata somiglianza tra i codici educativi, come "nomi di lettere" vs "suoni di lettere"
- Caratteristica Multi-Etichetta: Un singolo video può contenere molteplici tipi di contenuti educativi
- Esigenza Multimodale: La comprensione dei contenuti educativi richiede l'analisi simultanea di segnali visivi e audio
- Scarsità di Dati: Mancanza di dataset di video educativi fine-grained annotati da esperti
- Apprendimento Contrastivo Supervisionato Standard: Metodi come SupCon non possono estendersi direttamente a scenari multi-etichetta
- Metodi Unimodali: Affidarsi solo ai segnali visivi è insufficiente per distinguere i contenuti educativi fine-grained
- Classificazione Video Generica: Dataset esistenti come UCF101 e Kinetics si concentrano principalmente sul riconoscimento di azioni, non adatti all'analisi di contenuti educativi
- Dataset APPROVE: Costruzione del primo dataset di video educativi multi-etichetta fine-grained, contenente 193 ore di video annotati da esperti, 19 categorie, con una media di 3 etichette per video
- Framework di Apprendimento Contrastivo Basato su Prototipi di Classe: Proposta di un metodo di apprendimento contrastivo supervisionato basato su prototipi di classe applicabile alla classificazione multi-etichetta fine-grained
- Architettura di Fusione Multimodale: Progettazione di una rete transformer multimodale che fonde efficacemente informazioni visive e testuali (trascrizioni ASR)
- Miglioramento delle Prestazioni: Superamento dei metodi di base forti sui dataset APPROVE, YouTube-8M e COIN
- Input: Video educativo x, contenente sequenza di fotogrammi visivi e traccia audio
- Output: Risultato di classificazione multi-etichetta, previsione delle categorie di contenuti educativi contenute nel video
- Vincoli: Esistono differenze fine-grained tra le categorie, un singolo video può contenere più etichette correlate
L'apprendimento contrastivo supervisionato tradizionale (SupCon) apprende rappresentazioni minimizzando la distanza tra campioni della stessa classe e massimizzando la distanza tra campioni di classi diverse:
LSupCon=∑i∈A−∣P(i)∣1∑p∈P(i)log∑a∈A\iexp(sim(zi,za)/τ)exp(sim(zi,zp)/τ)
Tuttavia, nello scenario multi-etichetta, le coppie di campioni non possono essere semplicemente divise in campioni positivi e negativi. Questo articolo propone l'apprendimento contrastivo basato su prototipi di classe:
Lmlc(x)=−∣Pml(x)∣1∑ck+∈Pml(x)[log∑cj−∈C\Pml(x)exp(sim(z,cpj)/τ)exp(sim(z,cpk)/τ)]
Dove:
- Pml(x): insieme di etichette di classe positiva del campione x
- cpk: prototipo della classe k
- z: rappresentazione del campione
Il prototipo di classe viene aggiornato iterativamente nel seguente modo:
Zt=L×CPt+εCPt∗≈(LTL)−1LTZtCPt+1=β⋅CPt+(1−β)⋅CPt∗
Dove L è la matrice di etichette e β è il parametro di decadimento della media mobile esponenziale.
La rete contiene tre componenti:
- Codificatore di Immagini: Utilizza ViT per elaborare i fotogrammi video, generando rappresentazione visiva zv
- Codificatore di Testo: Utilizza BERT per elaborare il testo trascritto da ASR, generando rappresentazione testuale zt
- Codificatore di Fusione: Fonde le informazioni multimodali attraverso meccanismi di attenzione incrociata, generando rappresentazione fusa zf
La rappresentazione finale del campione è: z={zv,zt,zf}
- Apprendimento Contrastivo Multi-Etichetta: Prima estensione dell'apprendimento contrastivo a scenari veramente multi-etichetta, risolvendo il problema delle etichette parzialmente sovrapposte
- Progettazione del Prototipo di Classe: Attraverso l'apprendimento del prototipo di classe come punto di ancoraggio, evita le difficoltà nella definizione di campioni positivi e negativi nello scenario multi-etichetta
- Fusione Multimodale: In base alle caratteristiche dei contenuti educativi, combina efficacemente dimostrazioni visive e spiegazioni audio
- Addestramento in Due Fasi: Prima allineamento unimodale, poi apprendimento multimodale end-to-end
- Scala: 193 ore di video, 19 categorie (7 categorie di alfabetizzazione + 11 categorie di matematica + 1 categoria di sfondo)
- Annotazione: Annotato da ricercatori educativi addestrati, seguendo protocolli di validazione standard
- Caratteristiche: Media di 3 etichette per video, elevata somiglianza visiva tra categorie
- Garanzia di Qualità: Gli annotatori devono raggiungere una concordanza tra esperti superiore al 90% per partecipare all'annotazione finale
- YT-46K: Sottoinsieme di YouTube-8M, 46K video, 165 categorie
- COIN: Dataset di video didattici, 180 categorie
- R@80: Richiamo al 80% di precisione (metrica principale, appropriata per le esigenze di alta precisione nelle applicazioni educative)
- AUPR: Area sotto la curva precisione-richiamo
- LRAP: Precisione media di ranking delle etichette, appropriata per la valutazione multi-etichetta
- Binary Cross-Entropy (BCE): Perdita di classificazione multi-etichetta standard
- Focal Loss: Perdita di entropia incrociata migliorata per campioni difficili
- Asymmetric Loss: Funzione di perdita asimmetrica per multi-etichetta
- Ottimizzatore: AdamW, tasso di apprendimento 0,0005
- Codificatore di Immagini: ResNet50, ViT-B/32, ViT-B/16
- Codificatore di Testo: DistilBERT, T5-small
- ASR: OpenAI Whisper
- Aumento dei Dati: RandAugment, sostituzione di sinonimi, back-translation, ecc.
| Modalità | Metodo | AUPR | LRAP | R@80 |
|---|
| V+T | BCE | 84,3 | 88,4 | 76,3 |
| V+T | Focal | 86,1 | 89,1 | 82,2 |
| V+T | Asim. | 86,0 | 89,2 | 82,4 |
| V+T | Nostro | 88,4 | 90,7 | 85,5 |
Il metodo proposto raggiunge le migliori prestazioni su tutte le metriche, con miglioramenti rispetto al metodo di base più forte:
- AUPR: +2,3%
- LRAP: +1,5%
- R@80: +3,1%
- YT-46K: Miglioramento R@80 del 4,5% (49,1% vs 44,6%)
- COIN: Miglioramento della precisione Top-1 dell'1,4% (57,5% vs 56,1%)
| Metodo di Inizializzazione | APPROVE | COIN |
|---|
| Casuale | 84,1 | 56,6 |
| Ortogonale | 84,8 | 57,0 |
| Appreso | 85,5 | 57,5 |
| Gerarchico | 86,0 | 57,8 |
- Solo Visivo: R@80 = 19,6%
- Solo Testo: R@80 = 75,4%
- Visivo+Testo: R@80 = 85,5%
La modalità testuale contribuisce maggiormente, ma la fusione multimodale produce miglioramenti significativi.
- Categorie Matematiche: Prestazioni superiori alle categorie di alfabetizzazione, indicando che le categorie di alfabetizzazione sono più difficili da distinguere
- Categorie Difficili: "follow words", "letters in words", "sounds in words" sono tutte categorie di alfabetizzazione
- Vantaggio Multimodale: Le abilità che richiedono il collegamento del linguaggio e del visivo (come sight words, written numerals) traggono il massimo beneficio dai dati multimodali
- Modalità Mancante: Con il 10% di fotogrammi video mancanti, le prestazioni diminuiscono del 5,4%, con il 30% di testo mancante diminuiscono del 16,6%
- Varianza tra Esecuzioni: Varianza bassa simile ai metodi di base (±0,5%)
- Inizializzazione CLIP: Ulteriore miglioramento delle prestazioni rispetto all'inizializzazione ImageNet
- Apprendimento Contrastivo Auto-Supervisionato: SimCLR, MoCo, ecc. generano coppie di campioni positivi attraverso aumenti di dati
- Apprendimento Contrastivo Supervisionato: SupCon utilizza informazioni di etichetta per formare coppie di campioni positivi e negativi, ma non può estendersi direttamente a multi-etichetta
- Apprendimento Contrastivo Basato su Prototipi: PCL utilizza il clustering per generare prototipi in impostazioni non supervisionate
- Multimodale Debolmente Supervisionato: CLIP utilizza coppie testo-immagine estratte dal web per l'apprendimento contrastivo
- Multimodale Supervisionato: Utilizza dataset annotati manualmente come MS-COCO per l'apprendimento supervisionato
- Comprensione Video: I dataset esistenti si concentrano principalmente sul riconoscimento di azioni, mancando dell'analisi di contenuti educativi
- Video Sportivi: Multi-Sports, FineGym, ecc. annotano azioni sportive fine-grained
- Video Didattici: COIN contiene compiti didattici diversificati, ma con granularità più grossolana
- Video Educativi: Questo articolo propone per la prima volta la classificazione fine-grained di contenuti educativi
- Efficacia del Metodo: L'apprendimento contrastivo basato su prototipi di classe risolve con successo il problema della classificazione multi-etichetta fine-grained
- Necessità Multimodale: La combinazione di segnali visivi e audio è cruciale per la comprensione dei contenuti educativi
- Contributo del Dataset: APPROVE fornisce un dataset di benchmark prezioso per l'analisi di video educativi
- Valore Pratico: Il metodo può aiutare gli educatori a filtrare i contenuti educativi appropriati
- Limitazione del Dominio: Attualmente si concentra solo su due domini: alfabetizzazione e matematica
- Intervallo di Età: Principalmente rivolto alla fase della scuola dell'infanzia, l'applicabilità ad altri gruppi di età è sconosciuta
- Dipendenza Linguistica: La qualità della trascrizione ASR influisce sulle prestazioni, l'applicabilità ai contenuti non in inglese è limitata
- Complessità Computazionale: L'elaborazione multimodale e l'apprendimento del prototipo aumentano il carico computazionale
- Espansione del Dominio: Estensione ad altri domini educativi come scienze e studi sociali
- Supporto Multilingue: Supporto per l'analisi di contenuti educativi multilingue
- Applicazioni in Tempo Reale: Ottimizzazione del modello per supportare il filtraggio di contenuti in tempo reale
- Raccomandazione Personalizzata: Combinazione con il progresso di apprendimento dei bambini per raccomandazioni di contenuti personalizzate
- Importanza del Problema: Risolve esigenze pratiche nell'educazione dei bambini, con significativo valore sociale
- Innovazione Tecnica: Prima estensione efficace dell'apprendimento contrastivo a scenari multi-etichetta fine-grained
- Qualità del Dataset: Il dataset APPROVE è annotato con alta qualità, fornendo una risorsa importante per lo sviluppo del settore
- Esperimenti Completi: Esperimenti di ablazione completi, validazione su più dataset per verificare la generalizzabilità del metodo
- Metodo Generico: Il framework di apprendimento contrastivo basato su prototipi è estensibile ad altri compiti di classificazione multi-etichetta
- Analisi Teorica Insufficiente: Mancanza di analisi teorica sulla convergenza dell'apprendimento del prototipo di classe
- Efficienza Computazionale: Mancanza di analisi dettagliata del carico computazionale dell'elaborazione multimodale e della velocità di inferenza
- Analisi degli Errori: Mancanza di analisi approfondita degli errori di classificazione e ricerca di interpretabilità
- Confronto di Base: Potrebbe includere più metodi di classificazione multi-etichetta recenti per il confronto
- Distribuzione Lunga: Discussione insufficiente sull'impatto dello squilibrio di classe sulle prestazioni
- Contributo Accademico: Fornisce una nuova soluzione per l'apprendimento contrastivo multi-etichetta
- Valore Pratico: Può essere direttamente applicato allo sviluppo di prodotti di tecnologia educativa
- Impatto del Dataset: APPROVE diventerà un benchmark importante per l'analisi di video educativi
- Riproducibilità: Codice e dataset pubblici, facilitando la ricerca successiva
- Piattaforme Educative: Filtraggio di contenuti su piattaforme come YouTube Kids per bambini
- Educazione Online: Annotazione automatica e raccomandazione di contenuti video educativi
- Strumenti per Genitori: Aiutare i genitori a filtrare i contenuti educativi appropriati
- Strumenti di Ricerca: Analisi di contenuti video nella ricerca educativa
L'articolo cita 68 articoli correlati, principalmente includenti:
- Articoli classici sull'apprendimento contrastivo: SimCLR, MoCo, SupCon, ecc.
- Apprendimento multimodale: CLIP, BLIP, Flamingo, ecc.
- Dataset di analisi video: UCF101, Kinetics, YouTube-8M, ecc.
- Letteratura correlata agli Standard Common Core
Valutazione Complessiva: Questo è un articolo di alta qualità nel campo della visione artificiale che risolve un problema importante nella tecnologia educativa. Il metodo è altamente innovativo, la progettazione sperimentale è razionale e i risultati sono convincenti. Il contributo del dataset APPROVE è particolarmente notevole, fornendo una risorsa preziosa per la ricerca correlata. L'articolo raggiunge un buon equilibrio tra profondità tecnica e valore pratico, e si prevede che avrà un impatto importante nel campo dell'analisi di video educativi.