The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
- معرّف الورقة: 2510.11204
- العنوان: التعلم التباعدي القائم على نماذج الفئات لتصنيف مقاطع الفيديو التعليمية متعددة العلامات والدقيقة الحبيبة
- المؤلفون: روهيت جوبتا، أنيربان روي، كلير كريستنسن، سوجيونج كيم، سارة جيرار، مادلين سينسبو، أجاي ديفاكاران، تود جريندال، مبارك شاه
- التصنيف: cs.CV (رؤية الحاسوب)
- تاريخ النشر: 13 أكتوبر 2025
- رابط الورقة: https://arxiv.org/abs/2510.11204v1
مع النمو السريع لاستهلاك الأطفال للوسائط الرقمية، يحتاج المعلمون بشكل عاجل إلى أدوات تعتمد على البيانات لفحص محتوى تعليمي مناسب للمتعلمين الصغار. تقترح هذه الورقة طريقة لكشف المحتوى التعليمي في مقاطع الفيديو عبر الإنترنت، مع التركيز على فئتين من المحتوى التعليمي الشائع الاستخدام: محو الأمية والرياضيات. تم اختيار الرموز البارزة (الفئات الفرعية) بناءً على معايير Common Core، حيث تشمل رموز محو الأمية "أسماء الحروف" و"نطق الحروف"، وتشمل رموز الرياضيات "العد" و"التصنيف" وغيرها. نظراً لأن مقاطع الفيديو قد تحتوي على أنواع متعددة من المحتوى التعليمي وقد تكون فئات المحتوى متشابهة بصرياً، تم نمذجة هذا كمشكلة تصنيف متعددة العلامات دقيقة الحبيبة. تقترح الورقة طريقة جديدة للتعلم التباعدي الخاضع للإشراف القائم على نماذج الفئات، والتي يمكنها التعامل مع العينات الدقيقة الحبيبة المرتبطة بعلامات متعددة. من خلال تعلم نموذج الفئة لكل فئة، يتم استخدام دالة خسارة لتقليل المسافة بين نموذج الفئة وعينات تلك الفئة، مع تعظيم المسافة من عينات الفئات الأخرى. مع الأخذ في الاعتبار أهمية الإشارات البصرية والصوتية للفهم الفعال، تم استخدام شبكة محول متعددة الأنماط لالتقاط التفاعل بين الإشارات البصرية والصوتية في الفيديو. تم التقييم باستخدام مجموعة بيانات APPROVE، التي تحتوي على 193 ساعة من مقاطع فيديو YouTube التعليمية المشروحة من قبل باحثين تعليميين، مع 19 فئة.
- المشكلة الأساسية: التعرف التلقائي على المحتوى التعليمي في مقاطع الفيديو عبر الإنترنت وتصنيفه، خاصة بالنسبة لمحتوى محو الأمية والرياضيات في مرحلة الروضة
- الاحتياجات الواقعية: أفاد 89% من آباء الأطفال الذين تقل أعمارهم عن 11 سنة أن أطفالهم يشاهدون مقاطع فيديو على YouTube، حيث يشاهد الأطفال الذين تتراوح أعمارهم بين 2-4 سنوات بمعدل 2.5 ساعة يومياً، والأطفال الذين تتراوح أعمارهم بين 5-8 سنوات بمعدل 3.0 ساعات يومياً
- القيمة التعليمية: ثبت أن مشاهدة مقاطع فيديو تعليمية مناسبة تدعم النمو الصحي للأطفال والتعلم، وتنتج فوائد تعليمية ذات مغزى
- التمييز الدقيق الحبيبة: وجود تشابه عالي بين الرموز التعليمية، مثل "أسماء الحروف" مقابل "نطق الحروف"
- الطبيعة متعددة العلامات: قد يحتوي مقطع فيديو واحد على أنواع متعددة من المحتوى التعليمي
- الاحتياجات متعددة الأنماط: يتطلب فهم المحتوى التعليمي تحليل الإشارات البصرية والصوتية في نفس الوقت
- ندرة البيانات: نقص مجموعات بيانات مقاطع فيديو تعليمية دقيقة الحبيبة مشروحة من قبل خبراء
- التعلم التباعدي الخاضع للإشراف القياسي: لا يمكن توسيع طرق مثل SupCon بشكل مباشر إلى السيناريوهات متعددة العلامات
- الطرق أحادية الأنماط: الاعتماد على الإشارات البصرية فقط غير كافٍ للتمييز بين المحتوى التعليمي الدقيق الحبيبة
- تصنيف الفيديو العام: مجموعات البيانات الموجودة مثل UCF101 و Kinetics تركز بشكل أساسي على التعرف على الحركات، وغير مناسبة لتحليل المحتوى التعليمي
- مجموعة بيانات APPROVE: بناء أول مجموعة بيانات فيديو تعليمية متعددة العلامات دقيقة الحبيبة، تحتوي على 193 ساعة من مقاطع الفيديو المشروحة من قبل الخبراء، مع 19 فئة، وبمعدل 3 علامات لكل فيديو
- إطار عمل التعلم التباعدي القائم على نماذج الفئات: اقتراح طريقة التعلم التباعدي الخاضع للإشراف القائم على نماذج الفئات المناسبة لتصنيف متعددة العلامات دقيقة الحبيبة
- معمارية الدمج متعددة الأنماط: تصميم شبكة محول متعددة الأنماط، تدمج بشكل فعال المعلومات البصرية والنصية (نصوص ASR)
- تحسن الأداء: تحقيق أداء أفضل من طرق الأساس القوية على مجموعات بيانات APPROVE و YouTube-8M و COIN
- الإدخال: فيديو تعليمي x، يحتوي على سلسلة إطارات بصرية ومسار صوتي
- الإخراج: نتيجة تصنيف متعددة العلامات، التنبؤ بفئات المحتوى التعليمي الموجودة في الفيديو
- القيود: وجود اختلافات دقيقة الحبيبة بين الفئات، قد يحتوي مقطع فيديو واحد على عدة علامات ذات صلة
يقوم التعلم التباعدي الخاضع للإشراف التقليدي (SupCon) بتعلم التمثيلات من خلال تقليل المسافة بين عينات من نفس الفئة وتعظيم المسافة بين عينات من فئات مختلفة:
LSupCon=∑i∈A−∣P(i)∣1∑p∈P(i)log∑a∈A\iexp(sim(zi,za)/τ)exp(sim(zi,zp)/τ)
ولكن في السيناريوهات متعددة العلامات، لا يمكن تقسيم أزواج العينات ببساطة إلى عينات موجبة وسالبة. تقترح الورقة التعلم التباعدي القائم على نماذج الفئات:
Lmlc(x)=−∣Pml(x)∣1∑ck+∈Pml(x)[log∑cj−∈C\Pml(x)exp(sim(z,cpj)/τ)exp(sim(z,cpk)/τ)]
حيث:
- Pml(x): مجموعة علامات الفئات الموجبة للعينة x
- cpk: نموذج الفئة k
- z: تمثيل العينة
يتم تحديث نموذج الفئة بشكل متكرر من خلال:
Zt=L×CPt+εCPt∗≈(LTL)−1LTZtCPt+1=β⋅CPt+(1−β)⋅CPt∗
حيث L هي مصفوفة العلامات، و β هي معامل التحلل للمتوسط المتحرك الأسي.
تحتوي الشبكة على ثلاثة مكونات:
- مشفر الصور: استخدام ViT لمعالجة إطارات الفيديو، وإنتاج تمثيل بصري zv
- مشفر النصوص: استخدام BERT لمعالجة نصوص ASR المنسوخة، وإنتاج تمثيل نصي zt
- مشفر الدمج: دمج المعلومات متعددة الأنماط من خلال آلية الانتباه المتقاطع، وإنتاج تمثيل مدمج zf
تمثيل العينة النهائي هو: z={zv,zt,zf}
- التعلم التباعدي متعدد العلامات: توسيع التعلم التباعدي لأول مرة إلى سيناريو متعدد العلامات حقيقي، مما يحل مشكلة العلامات المتداخلة جزئياً
- تصميم نموذج الفئة: تعلم نموذج الفئة كنقطة ارتكاز، مما يتجنب صعوبة تعريف العينات الموجبة والسالبة في السيناريوهات متعددة العلامات
- دمج متعدد الأنماط: دمج فعال للإشارات البصرية والصوتية بناءً على خصائص المحتوى التعليمي
- التدريب على مرحلتين: محاذاة أحادية الأنماط أولاً، ثم التعلم متعدد الأنماط من طرف إلى طرف
- الحجم: 193 ساعة فيديو، 19 فئة (7 فئات محو أمية + 11 فئة رياضيات + 1 فئة خلفية)
- التشريح: مشروح من قبل باحثين تعليميين مدربين، يتبع بروتوكول التحقق القياسي
- الخصائص: بمعدل 3 علامات لكل فيديو، تشابه بصري عالي بين الفئات
- ضمان الجودة: يجب على المشروحين تحقيق اتساق خبير بنسبة 90% أو أعلى للمشاركة في التشريح النهائي
- YT-46K: مجموعة فرعية من YouTube-8M، 46K فيديو، 165 فئة
- COIN: مجموعة بيانات الفيديو الإرشادي، 180 فئة
- R@80: الاستدعاء عند دقة 80% (المقياس الرئيسي، مناسب لاحتياجات الدقة العالية في التطبيقات التعليمية)
- AUPR: المساحة تحت منحنى الدقة والاستدعاء
- LRAP: متوسط الدقة لترتيب العلامات، مناسب لتقييم متعدد العلامات
- Binary Cross-Entropy (BCE): دالة خسارة تصنيف متعددة العلامات القياسية
- Focal Loss: دالة خسارة محسّنة للعينات الصعبة
- Asymmetric Loss: دالة خسارة غير متماثلة لتصنيف متعدد العلامات
- المحسّن: AdamW، معدل التعلم 0.0005
- مشفر الصور: ResNet50, ViT-B/32, ViT-B/16
- مشفر النصوص: DistilBERT, T5-small
- ASR: OpenAI Whisper
- تعزيز البيانات: RandAugment، استبدال المرادفات، الترجمة العكسية وغيرها
| الأنماط | الطريقة | AUPR | LRAP | R@80 |
|---|
| V+T | BCE | 84.3 | 88.4 | 76.3 |
| V+T | Focal | 86.1 | 89.1 | 82.2 |
| V+T | Asym. | 86.0 | 89.2 | 82.4 |
| V+T | طريقتنا | 88.4 | 90.7 | 85.5 |
حققت الطريقة أفضل أداء على جميع المقاييس، مع تحسن مقارنة بأقوى خط أساس:
- AUPR: +2.3%
- LRAP: +1.5%
- R@80: +3.1%
- YT-46K: تحسن R@80 بنسبة 4.5% (49.1% مقابل 44.6%)
- COIN: تحسن دقة Top-1 بنسبة 1.4% (57.5% مقابل 56.1%)
| طريقة التهيئة | APPROVE | COIN |
|---|
| عشوائية | 84.1 | 56.6 |
| متعامدة | 84.8 | 57.0 |
| مكتسبة | 85.5 | 57.5 |
| هرمية | 86.0 | 57.8 |
- البصري فقط: R@80 = 19.6%
- النصي فقط: R@80 = 75.4%
- البصري + النصي: R@80 = 85.5%
يساهم النمط النصي بشكل أكبر، لكن دمج متعدد الأنماط يحقق تحسناً كبيراً.
- فئات الرياضيات: أداء أفضل من فئات محو الأمية، مما يشير إلى أن فئات محو الأمية أكثر صعوبة في التمييز
- الفئات الصعبة: "متابعة الكلمات"، "الحروف في الكلمات"، "الأصوات في الكلمات" كلها فئات محو أمية
- ميزة متعددة الأنماط: المهارات التي تتطلب ربط اللغة والبصريات (مثل الكلمات المرئية، الأرقام المكتوبة) تستفيد بشكل أكبر من البيانات متعددة الأنماط
- الأنماط المفقودة: انخفاض الأداء بنسبة 5.4% عند فقدان 10% من إطارات الفيديو، وانخفاض بنسبة 16.6% عند فقدان 30% من النصوص
- التباين بين التشغيلات: تباين منخفض مماثل لطرق الأساس (±0.5%)
- تهيئة CLIP: تحسن إضافي في الأداء مقارنة بتهيئة ImageNet
- التعلم التباعدي ذاتي الإشراف: SimCLR و MoCo وغيرها تولد أزواج عينات موجبة من خلال تعزيز البيانات
- التعلم التباعدي الخاضع للإشراف: SupCon يستخدم معلومات العلامات لتشكيل أزواج عينات موجبة وسالبة، لكن لا يمكن توسيعها مباشرة إلى متعدد العلامات
- التعلم التباعدي القائم على النماذج: PCL يستخدم النماذج المولدة من التجميع في الإعدادات غير الخاضعة للإشراف
- التعلم متعدد الأنماط الضعيف الإشراف: CLIP يستخدم أزواج نصوص-صور مجرفة من الويب للتعلم التباعدي
- التعلم متعدد الأنماط الخاضع للإشراف: استخدام مجموعات بيانات مشروحة يدوياً مثل MS-COCO
- فهم الفيديو: تركز مجموعات البيانات الموجودة بشكل أساسي على التعرف على الحركات، مع نقص تحليل المحتوى التعليمي
- مقاطع الفيديو الرياضية: Multi-Sports و FineGym وغيرها تشرح حركات رياضية دقيقة الحبيبة
- مقاطع الفيديو الإرشادية: COIN يحتوي على مهام إرشادية متنوعة، لكن بحبيبة أقل دقة
- مقاطع الفيديو التعليمية: تقترح الورقة لأول مرة تصنيف محتوى تعليمي دقيق الحبيبة
- فعالية الطريقة: نجح التعلم التباعدي القائم على نماذج الفئات في حل مشكلة التصنيف متعدد العلامات الدقيق الحبيبة
- ضرورة متعددة الأنماط: دمج الإشارات البصرية والصوتية ضروري لفهم المحتوى التعليمي
- مساهمة مجموعة البيانات: توفر APPROVE مجموعة بيانات معيارية قيمة لتحليل الفيديو التعليمي
- القيمة العملية: يمكن للطريقة أن تساعد المعلمين على فحص المحتوى التعليمي المناسب
- تقييد المجال: يركز حالياً فقط على مجالي محو الأمية والرياضيات
- نطاق العمر: موجه بشكل أساسي لمرحلة الروضة، مع عدم معرفة التطبيق على مراحل عمرية أخرى
- الاعتماد على اللغة: تؤثر جودة نسخ ASR على الأداء، مع قابلية تطبيق محدودة على المحتوى غير الإنجليزي
- التعقيد الحسابي: يزيد المعالجة متعددة الأنماط وتعلم النموذج من الحمل الحسابي
- توسيع المجالات: التوسع إلى مجالات تعليمية أخرى مثل العلوم والدراسات الاجتماعية
- دعم متعدد اللغات: دعم تحليل المحتوى التعليمي متعدد اللغات
- التطبيقات في الوقت الفعلي: تحسين النموذج لدعم فحص المحتوى في الوقت الفعلي
- التوصيات الشخصية: دمج تقدم تعلم الأطفال لتقديم توصيات محتوى شخصية
- أهمية المشكلة: حل احتياجات فعلية في التعليم الطفولي، مع قيمة اجتماعية مهمة
- الابتكار التقني: أول توسيع فعال للتعلم التباعدي إلى سيناريو متعدد العلامات دقيق الحبيبة
- جودة مجموعة البيانات: مجموعة بيانات APPROVE عالية الجودة، توفر مورداً مهماً لتطور المجال
- التجارب الشاملة: تجارب استئصال شاملة، التحقق من التعميم على مجموعات بيانات متعددة
- الطريقة العامة: إطار عمل التعلم التباعدي القائم على النماذج قابل للتوسع إلى مهام تصنيف متعددة العلامات أخرى
- نقص التحليل النظري: غياب تحليل نظري لتقارب تعلم نموذج الفئة
- كفاءة الحساب: عدم تحليل تفصيلي للحمل الحسابي والسرعة الاستدلالية للمعالجة متعددة الأنماط
- تحليل الأخطاء: نقص تحليل عميق لأخطاء التصنيف والبحث عن القابلية للتفسير
- مقارنة خطوط الأساس: يمكن تضمين المزيد من طرق التصنيف متعددة العلامات الحديثة للمقارنة
- التوزيع طويل الذيل: عدم مناقشة كافية لتأثير عدم توازن الفئات على الأداء
- المساهمة الأكاديمية: توفير حل جديد للتعلم التباعدي متعدد العلامات
- القيمة العملية: التطبيق المباشر في تطوير منتجات تكنولوجيا التعليم
- تأثير مجموعة البيانات: ستصبح APPROVE معياراً مهماً لتحليل الفيديو التعليمي
- إمكانية التكرار: الكود ومجموعة البيانات مفتوحة، مما يسهل البحث اللاحق
- منصات التعليم: فحص المحتوى على منصات مثل YouTube Kids
- التعليم عبر الإنترنت: التشريح التلقائي والتوصية بمحتوى الفيديو التعليمي
- أدوات الوالدين: مساعدة الآباء على فحص المحتوى التعليمي المناسب
- أدوات البحث: تحليل محتوى الفيديو في البحث التعليمي
تستشهد الورقة بـ 68 مرجعاً ذا صلة، تشمل بشكل أساسي:
- أوراق التعلم التباعدي الكلاسيكية: SimCLR و MoCo و SupCon وغيرها
- التعلم متعدد الأنماط: CLIP و BLIP و Flamingo وغيرها
- مجموعات بيانات تحليل الفيديو: UCF101 و Kinetics و YouTube-8M وغيرها
- الأدب المتعلق بمعايير Common Core
التقييم الشامل: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تحل مشكلة مهمة في تكنولوجيا التعليم. الطريقة مبتكرة بقوة، والتصميم التجريبي معقول، والنتائج مقنعة. مساهمة مجموعة بيانات APPROVE بارزة بشكل خاص، حيث توفر موارد قيمة للبحث ذي الصلة. حققت الورقة توازناً جيداً بين العمق التقني والقيمة العملية، ومن المتوقع أن تحدث تأثيراً مهماً على مجال تحليل الفيديو التعليمي.