2025-11-25T21:10:18.097119

Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos

Gupta, Roy, Christensen et al.

The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE

academic

कक्षा प्रोटोटाइप आधारित विपरीतात्मक शिक्षा द्वारा बहु-लेबल और सूक्ष्म-दानेदार शैक्षणिक वीडियो का वर्गीकरण

मूल जानकारी

पेपर ID: 2510.11204
शीर्षक: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
लेखक: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशन तिथि: 13 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.11204v1

सारांश

बाल ऑनलाइन मीडिया खपत के तीव्र वृद्धि के साथ, शिक्षकों को छोटे बच्चों के लिए उपयुक्त शैक्षणिक सामग्री को फ़िल्टर करने के लिए डेटा-संचालित उपकरणों की तत्काल आवश्यकता है। यह पेपर ऑनलाइन वीडियो में शैक्षणिक सामग्री का पता लगाने की एक विधि प्रस्तावित करता है, जो दो व्यापक रूप से उपयोग की जाने वाली शैक्षणिक सामग्री श्रेणियों पर केंद्रित है: साक्षरता और गणित। Common Core Standards के आधार पर प्रमुख कोड (उप-श्रेणियां) का चयन किया गया है, जैसे साक्षरता कोड में "अक्षर नाम", "अक्षर ध्वनि" शामिल हैं, और गणित कोड में "गिनती", "वर्गीकरण" आदि शामिल हैं। चूंकि वीडियो में कई शैक्षणिक सामग्रियां हो सकती हैं और सामग्री श्रेणियां दृश्य रूप से समान हो सकती हैं, इसे सूक्ष्म-दानेदार बहु-लेबल वर्गीकरण समस्या के रूप में मॉडल किया गया है। एक नई कक्षा प्रोटोटाइप-आधारित पर्यवेक्षित विपरीतात्मक शिक्षा विधि प्रस्तावित की गई है, जो कई लेबल से जुड़े सूक्ष्म-दानेदार नमूनों को संभाल सकती है। प्रत्येक वर्ग के लिए कक्षा प्रोटोटाइप सीखकर, हानि फ़ंक्शन का उपयोग करके कक्षा प्रोटोटाइप और उस वर्ग के नमूनों के बीच की दूरी को कम किया जाता है, जबकि अन्य वर्ग के नमूनों के साथ दूरी को अधिकतम किया जाता है। दृश्य और ऑडियो संकेतों के प्रभावी समझ के लिए महत्व को ध्यान में रखते हुए, बहु-मोडल ट्रांसफॉर्मर नेटवर्क का उपयोग वीडियो में दृश्य और ऑडियो संकेतों की परस्पर क्रिया को कैप्चर करने के लिए किया गया है। मूल्यांकन APPROVE डेटासेट का उपयोग करके किया गया था, जिसमें शैक्षणिक शोधकर्ताओं द्वारा 193 घंटे की YouTube शैक्षणिक वीडियो और 19 श्रेणियां शामिल हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मूल समस्या: ऑनलाइन वीडियो में शैक्षणिक सामग्री को स्वचालित रूप से पहचानना और वर्गीकृत करना, विशेष रूप से बालवाड़ी चरण के साक्षरता और गणित सामग्री के लिए
वास्तविक आवश्यकता: 89% 11 वर्ष से कम उम्र के बच्चों के माता-पिता रिपोर्ट करते हैं कि उनके बच्चे YouTube वीडियो देखते हैं, 2-4 वर्ष के बच्चे औसतन प्रतिदिन 2.5 घंटे देखते हैं, 5-8 वर्ष के बच्चे औसतन प्रतिदिन 3.0 घंटे देखते हैं
शैक्षणिक मूल्य: उपयुक्त शैक्षणिक वीडियो देखना स्वस्थ बाल विकास और सीखने का समर्थन करता है, और सार्थक सीखने के लाभ प्रदान करने के लिए सिद्ध हुआ है

चुनौती विश्लेषण

सूक्ष्म-दानेदार भेदभाव: शैक्षणिक कोड के बीच उच्च समानता है, जैसे "अक्षर नाम" बनाम "अक्षर ध्वनि"
बहु-लेबल विशेषता: एक एकल वीडियो में कई शैक्षणिक सामग्री प्रकार हो सकते हैं
बहु-मोडल आवश्यकता: शैक्षणिक सामग्री समझ के लिए दृश्य और ऑडियो संकेतों का एक साथ विश्लेषण आवश्यक है
डेटा की कमी: विशेषज्ञ-लेबल किए गए सूक्ष्म-दानेदार शैक्षणिक वीडियो डेटासेट की कमी

मौजूदा विधियों की सीमाएं

मानक पर्यवेक्षित विपरीतात्मक शिक्षा: SupCon जैसी विधियां बहु-लेबल परिदृश्य तक सीधे विस्तारित नहीं हो सकती हैं
एकल-मोडल विधियां: केवल दृश्य संकेतों पर निर्भरता सूक्ष्म-दानेदार शैक्षणिक सामग्री को अलग करने के लिए अपर्याप्त है
सामान्य वीडियो वर्गीकरण: UCF101, Kinetics जैसे मौजूदा डेटासेट मुख्य रूप से क्रिया पहचान पर केंद्रित हैं, शैक्षणिक सामग्री विश्लेषण के लिए उपयुक्त नहीं हैं

मूल योगदान

APPROVE डेटासेट: पहला सूक्ष्म-दानेदार बहु-लेबल शैक्षणिक वीडियो डेटासेट बनाया गया, जिसमें 193 घंटे की विशेषज्ञ-लेबल की गई वीडियां, 19 श्रेणियां, और प्रति वीडियो औसतन 3 लेबल हैं
कक्षा प्रोटोटाइप विपरीतात्मक शिक्षा ढांचा: बहु-लेबल सूक्ष्म-दानेदार वर्गीकरण के लिए उपयुक्त कक्षा प्रोटोटाइप पर्यवेक्षित विपरीतात्मक शिक्षा विधि प्रस्तावित की गई है
बहु-मोडल संलयन आर्किटेक्चर: दृश्य और पाठ (ASR प्रतिलेख) जानकारी को प्रभावी ढंग से संलयित करने के लिए बहु-मोडल ट्रांसफॉर्मर नेटवर्क डिज़ाइन किया गया है
प्रदर्शन सुधार: APPROVE, YouTube-8M और COIN डेटासेट पर सभी मजबूत आधारभूत विधियों से बेहतर प्रदर्शन

विधि विस्तार

कार्य परिभाषा

इनपुट: शैक्षणिक वीडियो $x$ , जिसमें दृश्य फ्रेम अनुक्रम और ऑडियो ट्रैक शामिल हैं
आउटपुट: बहु-लेबल वर्गीकरण परिणाम, वीडियो में शामिल शैक्षणिक सामग्री श्रेणियों की भविष्यवाणी करना
बाधा: श्रेणियों के बीच सूक्ष्म-दानेदार अंतर मौजूद हैं, एक एकल वीडियो में कई संबंधित लेबल हो सकते हैं

मॉडल आर्किटेक्चर

1. कक्षा प्रोटोटाइप विपरीतात्मक शिक्षा

पारंपरिक पर्यवेक्षित विपरीतात्मक शिक्षा (SupCon) समान वर्ग के नमूनों के बीच दूरी को कम करके और विभिन्न वर्ग के नमूनों के बीच दूरी को अधिकतम करके प्रतिनिधित्व सीखता है:

$L_{SupCon} = \sum_{i \in A} -\frac{1}{|P(i)|} \sum_{p \in P(i)} \log \frac{\exp(\text{sim}(z_i, z_p)/\tau)}{\sum_{a \in A\backslash i} \exp(\text{sim}(z_i, z_a)/\tau)}$

लेकिन बहु-लेबल परिदृश्य में, नमूना जोड़ी को सकारात्मक और नकारात्मक नमूनों में सरलता से विभाजित नहीं किया जा सकता है। यह पेपर कक्षा प्रोटोटाइप-आधारित विपरीतात्मक शिक्षा प्रस्तावित करता है:

$L_{mlc}(x) = -\frac{1}{|P_{ml}(x)|} \sum_{c_k^+ \in P_{ml}(x)} \left[ \log \frac{\exp(\text{sim}(z, cp_k)/\tau)}{\sum_{c_j^- \in C\backslash P_{ml}(x)} \exp(\text{sim}(z, cp_j)/\tau)} \right]$

जहां:

$P_{ml}(x)$ : नमूना $x$ के सकारात्मक वर्ग लेबल का समुच्चय
$cp_k$ : $k$ -वीं कक्षा का कक्षा प्रोटोटाइप
$z$ : नमूना प्रतिनिधित्व

2. कक्षा प्रोटोटाइप शिक्षा

कक्षा प्रोटोटाइप निम्नलिखित तरीके से पुनरावृत्त रूप से अपडेट किए जाते हैं: $Z_t = L \times CP_t + \varepsilon$ $CP_t^* \approx (L^T L)^{-1} L^T Z_t$ $CP_{t+1} = \beta \cdot CP_t + (1-\beta) \cdot CP_t^*$

जहां $L$ लेबल मैट्रिक्स है, $\beta$ घातीय गतिशील औसत का क्षय पैरामीटर है।

3. बहु-मोडल ट्रांसफॉर्मर नेटवर्क

नेटवर्क में तीन घटक शामिल हैं:

छवि एनकोडर: दृश्य प्रतिनिधित्व $z_v$ उत्पन्न करने के लिए वीडियो फ्रेम को संसाधित करने के लिए ViT का उपयोग करता है
पाठ एनकोडर: पाठ प्रतिनिधित्व $z_t$ उत्पन्न करने के लिए ASR प्रतिलेख पाठ को संसाधित करने के लिए BERT का उपयोग करता है
संलयन एनकोडर: संलयन प्रतिनिधित्व $z_f$ उत्पन्न करने के लिए क्रॉस-ध्यान तंत्र के माध्यम से बहु-मोडल जानकारी को संलयित करता है

अंतिम नमूना प्रतिनिधित्व है: $z = \{z_v, z_t, z_f\}$

तकनीकी नवाचार बिंदु

बहु-लेबल विपरीतात्मक शिक्षा: पहली बार विपरीतात्मक शिक्षा को वास्तविक बहु-लेबल परिदृश्य तक विस्तारित किया गया है, आंशिक रूप से अतिव्यापी लेबल की समस्या को हल किया गया है
कक्षा प्रोटोटाइप डिज़ाइन: कक्षा प्रोटोटाइप को एंकर बिंदु के रूप में सीखकर, बहु-लेबल परिदृश्य में सकारात्मक और नकारात्मक नमूनों की परिभाषा की कठिनाई से बचा गया है
बहु-मोडल संलयन: शैक्षणिक सामग्री की विशेषताओं के लिए, दृश्य प्रदर्शन और ऑडियो व्याख्या को प्रभावी ढंग से जोड़ा गया है
दो-चरणीय प्रशिक्षण: पहले एकल-मोडल संरेखण किया जाता है, फिर अंत-से-अंत बहु-मोडल शिक्षा की जाती है

प्रायोगिक सेटअप

डेटासेट

APPROVE डेटासेट

आकार: 193 घंटे वीडियो, 19 श्रेणियां (7 साक्षरता श्रेणियां + 11 गणित श्रेणियां + 1 पृष्ठभूमि श्रेणी)
लेबलिंग: प्रशिक्षित शैक्षणिक शोधकर्ताओं द्वारा लेबल किया गया, मानक सत्यापन प्रोटोकॉल का पालन करते हुए
विशेषता: प्रति वीडियो औसतन 3 लेबल, श्रेणियों के बीच उच्च दृश्य समानता
गुणवत्ता आश्वासन: लेबलर्स को अंतिम लेबलिंग में भाग लेने के लिए 90% से अधिक विशेषज्ञ सहमति प्राप्त करनी चाहिए

तुलनात्मक डेटासेट

YT-46K: YouTube-8M का उप-समुच्चय, 46K वीडियो, 165 श्रेणियां
COIN: निर्देशात्मक वीडियो डेटासेट, 180 श्रेणियां

मूल्यांकन मेट्रिक्स

R@80: 80% सटीकता पर पुनः प्राप्ति दर (मुख्य मेट्रिक, शैक्षणिक अनुप्रयोगों की उच्च सटीकता आवश्यकता के लिए उपयुक्त)
AUPR: सटीकता-पुनः प्राप्ति वक्र के तहत क्षेत्र
LRAP: लेबल रैंकिंग औसत सटीकता, बहु-लेबल मूल्यांकन के लिए उपयुक्त

तुलनात्मक विधियां

Binary Cross-Entropy (BCE): मानक बहु-लेबल वर्गीकरण हानि
Focal Loss: कठिन नमूनों के लिए सुधारी गई क्रॉस-एन्ट्रॉपी हानि
Asymmetric Loss: बहु-लेबल के लिए असमान हानि फ़ंक्शन

कार्यान्वयन विवरण

अनुकूलक: AdamW, सीखने की दर 0.0005
छवि एनकोडर: ResNet50, ViT-B/32, ViT-B/16
पाठ एनकोडर: DistilBERT, T5-small
ASR: OpenAI Whisper
डेटा वृद्धि: RandAugment, पर्यायवाची प्रतिस्थापन, पिछला अनुवाद आदि

प्रायोगिक परिणाम

मुख्य परिणाम

APPROVE डेटासेट परिणाम

मोडलिटी	विधि	AUPR	LRAP	R@80
V+T	BCE	84.3	88.4	76.3
V+T	Focal	86.1	89.1	82.2
V+T	Asym.	86.0	89.2	82.4
V+T	हमारी विधि	88.4	90.7	85.5

यह विधि सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करती है, सबसे मजबूत आधारभूत विधि की तुलना में सुधार:

AUPR: +2.3%
LRAP: +1.5%
R@80: +3.1%

अन्य डेटासेट परिणाम

YT-46K: R@80 में 4.5% सुधार (49.1% बनाम 44.6%)
COIN: Top-1 सटीकता में 1.4% सुधार (57.5% बनाम 56.1%)

विलोपन प्रयोग

कक्षा प्रोटोटाइप आरंभीकरण रणनीति

आरंभीकरण विधि	APPROVE	COIN
Random	84.1	56.6
Orthogonal	84.8	57.0
Learned	85.5	57.5
Hierarchical	86.0	57.8

मोडलिटी योगदान विश्लेषण

केवल दृश्य: R@80 = 19.6%
केवल पाठ: R@80 = 75.4%
दृश्य + पाठ: R@80 = 85.5%

पाठ मोडलिटी अधिक योगदान देती है, लेकिन बहु-मोडल संलयन महत्वपूर्ण सुधार लाता है।

केस विश्लेषण

गणित श्रेणियां: साक्षरता श्रेणियों से बेहतर प्रदर्शन, यह दर्शाता है कि साक्षरता श्रेणियां अधिक कठिन हैं
कठिन श्रेणियां: "follow words", "letters in words", "sounds in words" सभी साक्षरता श्रेणियां हैं
बहु-मोडल लाभ: भाषा और दृश्य को जोड़ने की आवश्यकता वाले कौशल (जैसे sight words, written numerals) बहु-मोडल डेटा से सबसे अधिक लाभान्वित होते हैं

मजबूती विश्लेषण

लापता मोडलिटी: 10% वीडियो फ्रेम लापता होने पर प्रदर्शन में 5.4% की गिरावट, 30% पाठ लापता होने पर 16.6% की गिरावट
रन-टू-रन विचरण: आधारभूत विधि के समान कम विचरण (±0.5%)
CLIP आरंभीकरण: ImageNet आरंभीकरण की तुलना में आगे का प्रदर्शन सुधार

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: कक्षा प्रोटोटाइप विपरीतात्मक शिक्षा बहु-लेबल सूक्ष्म-दानेदार वर्गीकरण समस्या को सफलतापूर्वक हल करती है
बहु-मोडल आवश्यकता: दृश्य और ऑडियो संकेतों का संयोजन शैक्षणिक सामग्री समझ के लिए महत्वपूर्ण है
डेटासेट योगदान: APPROVE शैक्षणिक वीडियो विश्लेषण के लिए एक मूल्यवान बेंचमार्क डेटासेट प्रदान करता है
व्यावहारिक मूल्य: विधि शिक्षकों को उपयुक्त शैक्षणिक सामग्री फ़िल्टर करने में मदद कर सकती है

सीमाएं

डोमेन सीमा: वर्तमान में केवल साक्षरता और गणित दो क्षेत्रों पर केंद्रित है
आयु सीमा: मुख्य रूप से बालवाड़ी चरण के लिए, अन्य आयु समूहों के लिए प्रयोज्यता अज्ञात है
भाषा निर्भरता: ASR प्रतिलेख की गुणवत्ता प्रदर्शन को प्रभावित करती है, गैर-अंग्रेजी सामग्री के लिए प्रयोज्यता सीमित है
कम्प्यूटेशनल जटिलता: बहु-मोडल प्रसंस्करण और प्रोटोटाइप शिक्षा कम्प्यूटेशनल ओवरहेड को बढ़ाती है

भविष्य की दिशाएं

डोमेन विस्तार: विज्ञान, सामाजिक अध्ययन आदि अन्य शैक्षणिक क्षेत्रों तक विस्तार
बहुभाषी समर्थन: बहुभाषी शैक्षणिक सामग्री विश्लेषण का समर्थन
वास्तविक समय अनुप्रयोग: वास्तविक समय सामग्री फ़िल्टरिंग का समर्थन करने के लिए मॉडल को अनुकूलित करना
व्यक्तिगत सिफारिशें: बाल सीखने की प्रगति के साथ व्यक्तिगत सामग्री सिफारिशें

गहन मूल्यांकन

शक्तियां

समस्या महत्व: शैक्षणिक तकनीक में एक वास्तविक आवश्यकता को हल करता है, महत्वपूर्ण सामाजिक मूल्य रखता है
तकनीकी नवाचार: पहली बार विपरीतात्मक शिक्षा को बहु-लेबल सूक्ष्म-दानेदार परिदृश्य तक प्रभावी ढंग से विस्तारित किया गया है
डेटासेट गुणवत्ता: APPROVE डेटासेट उच्च लेबलिंग गुणवत्ता है, क्षेत्र विकास के लिए मूल्यवान संसाधन प्रदान करता है
व्यापक प्रयोग: विलोपन प्रयोग व्यापक हैं, बहु-डेटासेट सत्यापन विधि सामान्यीकरण को दर्शाता है
विधि सामान्यता: प्रोटोटाइप विपरीतात्मक शिक्षा ढांचा अन्य बहु-लेबल वर्गीकरण कार्यों तक विस्तारित हो सकता है

कमियां

सैद्धांतिक विश्लेषण की कमी: कक्षा प्रोटोटाइप शिक्षा के अभिसरण पर सैद्धांतिक विश्लेषण की कमी है
कम्प्यूटेशनल दक्षता: बहु-मोडल प्रसंस्करण की कम्प्यूटेशनल ओवरहेड और अनुमान गति का विस्तृत विश्लेषण नहीं है
त्रुटि विश्लेषण: वर्गीकरण त्रुटियों का गहन विश्लेषण और व्याख्यात्मकता अनुसंधान की कमी है
आधारभूत तुलना: अधिक हाल की बहु-लेबल वर्गीकरण विधियों को शामिल किया जा सकता है
लंबी-पूंछ वितरण: श्रेणी असंतुलन के प्रदर्शन प्रभाव पर पर्याप्त चर्चा नहीं है

प्रभाव

शैक्षणिक योगदान: बहु-लेबल विपरीतात्मक शिक्षा के लिए एक नया समाधान प्रदान करता है
व्यावहारिक मूल्य: शैक्षणिक तकनीक उत्पाद विकास में सीधे लागू किया जा सकता है
डेटासेट प्रभाव: APPROVE शैक्षणिक वीडियो विश्लेषण का एक महत्वपूर्ण बेंचमार्क बन जाएगा
पुनरुत्पादनशीलता: कोड और डेटासेट सार्वजनिक हैं, बाद के अनुसंधान को सुविधाजनक बनाते हैं

प्रयोज्य परिदृश्य

शैक्षणिक मंच: YouTube Kids जैसे बाल सामग्री मंचों के लिए सामग्री फ़िल्टरिंग
ऑनलाइन शिक्षा: शैक्षणिक वीडियो सामग्री को स्वचालित रूप से लेबल और सिफारिश करना
माता-पिता उपकरण: माता-पिता को उपयुक्त शैक्षणिक सामग्री फ़िल्टर करने में मदद करना
अनुसंधान उपकरण: शैक्षणिक अनुसंधान में वीडियो सामग्री विश्लेषण

संदर्भ

पेपर में 68 संबंधित संदर्भ शामिल हैं, मुख्य रूप से:

विपरीतात्मक शिक्षा क्लासिक पेपर: SimCLR, MoCo, SupCon आदि
बहु-मोडल शिक्षा: CLIP, BLIP, Flamingo आदि
वीडियो विश्लेषण डेटासेट: UCF101, Kinetics, YouTube-8M आदि
शैक्षणिक मानक: Common Core Standards संबंधित साहित्य

समग्र मूल्यांकन: यह कंप्यूटर विजन का एक उच्च गुणवत्ता वाला पेपर है, जो शैक्षणिक तकनीक में एक महत्वपूर्ण समस्या को हल करता है। विधि में मजबूत नवाचार है, प्रयोग डिज़ाइन तर्कसंगत है, और परिणाम विश्वास्पद हैं। APPROVE डेटासेट का योगदान विशेष रूप से उल्लेखनीय है, संबंधित अनुसंधान के लिए मूल्यवान संसाधन प्रदान करता है। पेपर तकनीकी गहराई और व्यावहारिक मूल्य के बीच एक अच्छा संतुलन प्राप्त करता है, और शैक्षणिक वीडियो विश्लेषण क्षेत्र पर महत्वपूर्ण प्रभाव डालने की अपेक्षा की जाती है।