The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
- Paper-ID: 2510.11204
- Titel: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- Autoren: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
- Kategorie: cs.CV (Computervision)
- Veröffentlichungsdatum: 13. Oktober 2025
- Paper-Link: https://arxiv.org/abs/2510.11204v1
Mit dem rasanten Wachstum des Online-Medienkonsums von Kindern benötigen Pädagogen dringend datengestützte Werkzeuge zur Filterung von Bildungsinhalten, die für junge Lernende geeignet sind. Dieses Paper präsentiert eine Methode zur Erkennung von Bildungsinhalten in Online-Videos mit Fokus auf zwei weit verbreitete Bildungskategorien: Lese- und Schreibfähigkeiten sowie Mathematik. Basierend auf den Common Core Standards werden prominente Codes (Unterkategorien) ausgewählt, wie beispielsweise Buchstabennamen und Buchstabenlautierung für Lese- und Schreibfähigkeiten sowie Zählen und Klassifizierung für Mathematik. Da Videos mehrere Arten von Bildungsinhalten enthalten können und Inhaltskategorien visuell ähnlich sein können, wird dies als feingranulares Mehrklassen-Klassifizierungsproblem modelliert. Ein neuartiges, auf Klassenprototypen basierendes überwachtes kontrastives Lernverfahren wird vorgeschlagen, das feingranulare Stichproben verarbeiten kann, die mit mehreren Etiketten verbunden sind. Durch das Erlernen von Klassenprototypen für jede Kategorie wird eine Verlustfunktion minimiert, die den Abstand zwischen Klassenprototypen und Stichproben dieser Klasse minimiert und gleichzeitig den Abstand zu Stichproben anderer Klassen maximiert. Angesichts der Bedeutung visueller und akustischer Hinweise für effektives Verständnis wird ein Multimodal-Transformer-Netzwerk eingesetzt, um die Interaktion visueller und akustischer Hinweise in Videos zu erfassen. Die Evaluierung verwendet den APPROVE-Datensatz mit 193 Stunden von Bildungsforschern annotierten YouTube-Bildungsvideos über 19 Kategorien hinweg.
- Kernproblem: Automatische Erkennung und Klassifizierung von Bildungsinhalten in Online-Videos, insbesondere für Lese- und Schreibfähigkeiten sowie Mathematikinhalte im Kindergartenalter
- Praktischer Bedarf: 89% der Eltern von Kindern unter 11 Jahren berichten, dass ihre Kinder YouTube-Videos ansehen; Kinder im Alter von 2-4 Jahren sehen durchschnittlich 2,5 Stunden pro Tag, Kinder im Alter von 5-8 Jahren durchschnittlich 3,0 Stunden pro Tag
- Pädagogischer Wert: Das Ansehen angemessener Bildungsvideos unterstützt die gesunde Entwicklung und das Lernen von Kindern und hat sich als bedeutsam für Lerngewinne erwiesen
- Feingranulare Unterscheidung: Hohe Ähnlichkeit zwischen Bildungscodes, wie beispielsweise „Buchstabennamen" versus „Buchstabenlautierung"
- Mehrklassen-Charakteristik: Ein einzelnes Video kann mehrere Arten von Bildungsinhalten enthalten
- Multimodale Anforderungen: Das Verständnis von Bildungsinhalten erfordert die gleichzeitige Analyse visueller und akustischer Hinweise
- Datenmangel: Mangel an von Experten annotierten feingranularen Bildungsvideodatensätzen
- Standard-überwachtes kontrastives Lernen: Methoden wie SupCon können nicht direkt auf Mehrklassen-Szenarien erweitert werden
- Unimodale Methoden: Alleinige Abhängigkeit von visuellen Hinweisen ist unzureichend zur Unterscheidung feingranularer Bildungsinhalte
- Allgemeine Videoclassifizierung: Bestehende Datensätze wie UCF101 und Kinetics konzentrieren sich hauptsächlich auf Aktionserkennung und sind nicht für die Analyse von Bildungsinhalten geeignet
- APPROVE-Datensatz: Konstruktion des ersten feingranularen Mehrklassen-Bildungsvideodatensatzes mit 193 Stunden von Experten annotierten Videos, 19 Kategorien und durchschnittlich 3 Etiketten pro Video
- Klassenprototypen-Kontrastlernrahmen: Vorschlag einer auf Klassenprototypen basierenden überwachten Kontrastlernmethode, die für feingranulare Mehrklassen-Klassifizierung geeignet ist
- Multimodale Fusionsarchitektur: Entwurf eines Multimodal-Transformer-Netzwerks, das visuell und textliche (ASR-Transkription) Informationen effektiv fusioniert
- Leistungsverbesserung: Überlegene Leistung gegenüber starken Baselines auf den Datensätzen APPROVE, YouTube-8M und COIN
- Eingabe: Bildungsvideo x, bestehend aus einer Sequenz visueller Frames und einer Audiospur
- Ausgabe: Mehrklassen-Klassifizierungsergebnis, das die Bildungsinhaltkategorien vorhersagt, die das Video enthält
- Einschränkungen: Kategorien weisen feingranulare Unterschiede auf; ein einzelnes Video kann mehrere verwandte Etiketten enthalten
Das traditionelle überwachte Kontrastlernen (SupCon) lernt Darstellungen durch Minimierung des Abstands zwischen Stichproben derselben Klasse und Maximierung des Abstands zwischen Stichproben verschiedener Klassen:
LSupCon=∑i∈A−∣P(i)∣1∑p∈P(i)log∑a∈A\iexp(sim(zi,za)/τ)exp(sim(zi,zp)/τ)
Im Mehrklassen-Szenario können Stichprobenpaare jedoch nicht einfach in positive und negative Stichproben unterteilt werden. Dieses Paper schlägt klassenprototypen-basiertes Kontrastlernen vor:
Lmlc(x)=−∣Pml(x)∣1∑ck+∈Pml(x)[log∑cj−∈C\Pml(x)exp(sim(z,cpj)/τ)exp(sim(z,cpk)/τ)]
Wobei:
- Pml(x): Menge der positiven Klassenetiketten für Stichprobe x
- cpk: Klassenprototyp der k-ten Klasse
- z: Stichprobendarstellung
Klassenprototypen werden iterativ wie folgt aktualisiert:
Zt=L×CPt+εCPt∗≈(LTL)−1LTZtCPt+1=β⋅CPt+(1−β)⋅CPt∗
Wobei L die Etikettenmatrix ist und β der Zerfallsparameter des exponentiellen gleitenden Durchschnitts ist.
Das Netzwerk besteht aus drei Komponenten:
- Bildencoder: Verwendet ViT zur Verarbeitung von Videoframes und generiert visuelle Darstellung zv
- Textencoder: Verwendet BERT zur Verarbeitung von ASR-Transkriptionstexten und generiert Textdarstellung zt
- Fusionsencoder: Fusioniert Multimodal-Informationen durch Cross-Attention-Mechanismen und generiert fusionierte Darstellung zf
Die endgültige Stichprobendarstellung ist: z={zv,zt,zf}
- Mehrklassen-Kontrastlernen: Erstmalige Erweiterung des Kontrastlernens auf echte Mehrklassen-Szenarien, Lösung des Problems teilweise überlappender Etiketten
- Klassenprototyp-Design: Vermeidung der Schwierigkeit der Definitions positiver und negativer Stichproben in Mehrklassen-Szenarien durch Erlernen von Klassenprototypen als Ankerpunkte
- Multimodale Fusion: Effektive Kombination visueller Demonstrationen und akustischer Erklärungen unter Berücksichtigung der Merkmale von Bildungsinhalten
- Zweistufiges Training: Zunächst unimodale Ausrichtung, dann End-to-End-Multimodal-Lernen
- Umfang: 193 Stunden Videos, 19 Kategorien (7 Lese- und Schreibfähigkeitskategorien + 11 Mathematikkategorien + 1 Hintergrundkategorie)
- Annotation: Annotiert von geschulten Bildungsforschern nach standardisierten Validierungsprotokollen
- Merkmale: Durchschnittlich 3 Etiketten pro Video, hohe visuelle Ähnlichkeit zwischen Kategorien
- Qualitätssicherung: Annotatoren müssen eine Übereinstimmung mit Experten von über 90% erreichen, um an der endgültigen Annotation teilnehmen zu können
- YT-46K: Teilmenge von YouTube-8M, 46K Videos, 165 Kategorien
- COIN: Anleitungsvideodatensatz, 180 Kategorien
- R@80: Rückrufquote bei 80% Genauigkeit (Hauptmetrik, geeignet für hohe Genauigkeitsanforderungen in Bildungsanwendungen)
- AUPR: Fläche unter der Genauigkeits-Rückruf-Kurve
- LRAP: Durchschnittliche Genauigkeit der Etikettenrangfolge, geeignet für Mehrklassen-Bewertung
- Binary Cross-Entropy (BCE): Standard-Mehrklassen-Klassifizierungsverlust
- Focal Loss: Verbesserter Cross-Entropy-Verlust für schwierige Stichproben
- Asymmetric Loss: Asymmetrische Verlustfunktion für Mehrklassen
- Optimierer: AdamW, Lernrate 0,0005
- Bildencoder: ResNet50, ViT-B/32, ViT-B/16
- Textencoder: DistilBERT, T5-small
- ASR: OpenAI Whisper
- Datenerweiterung: RandAugment, Synonymersetzung, Rückübersetzung usw.
| Modalität | Methode | AUPR | LRAP | R@80 |
|---|
| V+T | BCE | 84,3 | 88,4 | 76,3 |
| V+T | Focal | 86,1 | 89,1 | 82,2 |
| V+T | Asym. | 86,0 | 89,2 | 82,4 |
| V+T | Unsere Methode | 88,4 | 90,7 | 85,5 |
Die Methode erreicht die beste Leistung bei allen Metriken mit Verbesserungen gegenüber der stärksten Baseline:
- AUPR: +2,3%
- LRAP: +1,5%
- R@80: +3,1%
- YT-46K: R@80-Verbesserung um 4,5% (49,1% vs. 44,6%)
- COIN: Top-1-Genauigkeitsverbesserung um 1,4% (57,5% vs. 56,1%)
| Initialisierungsmethode | APPROVE | COIN |
|---|
| Zufällig | 84,1 | 56,6 |
| Orthogonal | 84,8 | 57,0 |
| Gelernt | 85,5 | 57,5 |
| Hierarchisch | 86,0 | 57,8 |
- Nur visuell: R@80 = 19,6%
- Nur Text: R@80 = 75,4%
- Visuell + Text: R@80 = 85,5%
Die Textmodalität trägt mehr bei, aber die Multimodal-Fusion bringt signifikante Verbesserungen.
- Mathematikkategorien: Bessere Leistung als Lese- und Schreibfähigkeitskategorien, was darauf hindeutet, dass Lese- und Schreibfähigkeitskategorien schwieriger zu unterscheiden sind
- Schwierige Kategorien: „Wörter folgen", „Buchstaben in Wörtern", „Laute in Wörtern" sind alle Lese- und Schreibfähigkeitskategorien
- Multimodale Vorteile: Fähigkeiten, die die Verbindung von Sprache und visuellen Elementen erfordern (wie Sichtwörter, geschriebene Ziffern), profitieren am meisten von Multimodal-Daten
- Fehlende Modalität: Leistungsabfall um 5,4% bei 10% fehlenden Videoframes, Abfall um 16,6% bei 30% fehlenden Text
- Laufzeitvarianz: Ähnlich niedrige Varianz wie Baseline-Methoden (±0,5%)
- CLIP-Initialisierung: Weitere Leistungsverbesserung im Vergleich zur ImageNet-Initialisierung
- Selbstüberwachtes Kontrastlernen: SimCLR, MoCo usw. generieren positive Stichprobenpaare durch Datenerweiterung
- Überwachtes Kontrastlernen: SupCon nutzt Etiketteninformationen zur Bildung positiver und negativer Stichprobenpaare, kann aber nicht direkt auf Mehrklassen erweitert werden
- Prototypen-Kontrastlernen: PCL verwendet Clustering zur Generierung von Prototypen in unüberwachten Einstellungen
- Schwach überwachtes Multimodal: CLIP nutzt im Web abgerufene Text-Bild-Paare für Kontrastlernen
- Überwachtes Multimodal: Nutzung von manuell annotierten Datensätzen wie MS-COCO für überwachtes Lernen
- Videoverständnis: Bestehende Datensätze konzentrieren sich hauptsächlich auf Aktionserkennung und fehlen bei der Analyse von Bildungsinhalten
- Sportvideo: Multi-Sports, FineGym usw. annotieren feingranulare Sportbewegungen
- Anleitungsvideo: COIN enthält vielfältige Anleitungsaufgaben, aber mit gröberer Granularität
- Bildungsvideo: Dieses Paper präsentiert erstmals feingranulare Bildungsinhaltsklassifizierung
- Methodeneffektivität: Klassenprototypen-Kontrastlernen löst erfolgreich das Problem der feingranularen Mehrklassen-Klassifizierung
- Multimodale Notwendigkeit: Die Kombination visueller und akustischer Hinweise ist für das Verständnis von Bildungsinhalten entscheidend
- Datensatzbeitrag: APPROVE bietet einen wertvollen Benchmark-Datensatz für die Analyse von Bildungsvideos
- Praktischer Wert: Die Methode kann Pädagogen bei der Filterung geeigneter Bildungsinhalte unterstützen
- Domänenbeschränkung: Derzeit konzentriert sich auf nur zwei Domänen: Lese- und Schreibfähigkeiten sowie Mathematik
- Altersbereich: Hauptsächlich auf Kindergartenalter ausgerichtet; Anwendbarkeit auf andere Altersgruppen ist unbekannt
- Sprachabhängigkeit: ASR-Transkriptionsqualität beeinflusst die Leistung; Anwendbarkeit auf nicht-englische Inhalte ist begrenzt
- Rechenkomplexität: Multimodale Verarbeitung und Prototyp-Lernen erhöhen den Rechenaufwand
- Domänenerweiterung: Erweiterung auf andere Bildungsbereiche wie Naturwissenschaften und Sozialwissenschaften
- Mehrsprachige Unterstützung: Unterstützung der Analyse von Bildungsinhalten in mehreren Sprachen
- Echtzeitanwendung: Optimierung des Modells zur Unterstützung von Echtzeit-Inhaltsfilterung
- Personalisierte Empfehlung: Personalisierte Inhaltsempfehlung basierend auf Lernfortschritt von Kindern
- Problemrelevanz: Löst praktische Anforderungen in der Kinderbildung mit wichtigem gesellschaftlichem Wert
- Technische Innovation: Erstmalige effektive Erweiterung des Kontrastlernens auf feingranulare Mehrklassen-Szenarien
- Datensatzqualität: APPROVE-Datensatz mit hoher Annotationsqualität bietet wichtige Ressourcen für die Domänenentwicklung
- Umfassende Experimente: Vollständige Ablationsstudien und Validierung über mehrere Datensätze demonstrieren Generalisierbarkeit der Methode
- Methodenallgemeingültigkeit: Der Klassenprototypen-Kontrastlernrahmen ist auf andere Mehrklassen-Klassifizierungsaufgaben erweiterbar
- Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Konvergenz des Klassenprototyp-Lernens
- Rechneneffizienz: Keine detaillierte Analyse des Rechenaufwands und der Inferenzgeschwindigkeit der Multimodal-Verarbeitung
- Fehleranalyse: Mangel an tiefgreifender Analyse von Klassifizierungsfehlern und Interpretierbarkeitsforschung
- Baseline-Vergleich: Könnte mehr aktuelle Mehrklassen-Klassifizierungsmethoden zum Vergleich einbeziehen
- Langverteilte Verteilung: Unzureichende Diskussion der Auswirkungen von Klassenunausgeglichenheit auf die Leistung
- Akademischer Beitrag: Bietet neue Lösungen für Mehrklassen-Kontrastlernen
- Praktischer Wert: Kann direkt auf die Entwicklung von Bildungstechnologieprodukten angewendet werden
- Datensatzauswirkungen: APPROVE wird zu einem wichtigen Benchmark für die Analyse von Bildungsvideos
- Reproduzierbarkeit: Öffentlich verfügbare Codes und Datensätze erleichtern nachfolgende Forschung
- Bildungsplattformen: Inhaltsfilterung für Kinderplattformen wie YouTube Kids
- Online-Bildung: Automatische Annotation und Empfehlung von Bildungsvideoinhalten
- Elternwerkzeuge: Unterstützung von Eltern bei der Filterung geeigneter Bildungsinhalte
- Forschungswerkzeuge: Videoinhaltanalyse in der Bildungsforschung
Das Paper zitiert 68 verwandte Arbeiten, hauptsächlich einschließlich:
- Klassische Kontrastlernarbeiten: SimCLR, MoCo, SupCon usw.
- Multimodales Lernen: CLIP, BLIP, Flamingo usw.
- Videoanalysedatensätze: UCF101, Kinetics, YouTube-8M usw.
- Bildungsstandards: Literatur zu Common Core Standards
Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Paper, das ein wichtiges Problem in der Bildungstechnologie löst. Die Methode ist innovativ, das Experimentdesign ist rational und die Ergebnisse sind überzeugend. Der Beitrag des APPROVE-Datensatzes ist besonders hervorragend und bietet wertvolle Ressourcen für verwandte Forschung. Das Paper erreicht ein gutes Gleichgewicht zwischen technischer Tiefe und praktischem Wert und wird voraussichtlich einen wichtigen Einfluss auf das Feld der Bildungsvideoanlyse haben.