The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
- 論文ID: 2510.11204
- タイトル: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- 著者: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
- 分類: cs.CV(コンピュータビジョン)
- 発表日: 2025年10月13日
- 論文リンク: https://arxiv.org/abs/2510.11204v1
子どもたちのオンラインメディア消費の急速な増加に伴い、教育者は幼児学習者に適した教育コンテンツをスクリーニングするためのデータ駆動型ツールを必要としています。本論文は、オンライン動画における教育コンテンツの検出方法を提案し、広く使用されている2つの教育コンテンツカテゴリー、すなわち識字能力と数学に焦点を当てています。Common Core Standardsに基づいて選定された顕著なコード(サブカテゴリー)として、識字能力コードには「文字名」「文字音」が、数学コードには「数え」「分類」などが含まれます。動画は複数の教育コンテンツを含む可能性があり、コンテンツカテゴリーは視覚的に類似している可能性があるため、本論文はこれを細粒度多ラベル分類問題としてモデル化しています。複数のラベルに関連付けられた細粒度サンプルを処理できる、新規なクラスプロトタイプベースの教師あり対比学習方法を提案しています。各カテゴリーのクラスプロトタイプを学習することにより、損失関数を使用してクラスプロトタイプとそのクラスのサンプル間の距離を最小化しながら、他のクラスのサンプルとの距離を最大化します。視覚的および音声的手がかりの重要性を考慮して、マルチモーダルトランスフォーマーネットワークを採用し、動画内の視覚的および音声的手がかりの相互作用をキャプチャしています。評価にはAPPROVEデータセットを使用しており、教育研究者によって注釈付けされたYouTube教育動画193時間、19カテゴリーを含んでいます。
- 中核的課題: オンライン動画における教育コンテンツの自動識別と分類、特に幼稚園段階の識字能力と数学コンテンツに対応
- 現実的ニーズ: 11歳以下の子どもの親の89%が子どもがYouTube動画を視聴していると報告しており、2~4歳の子どもは平均して1日2.5時間、5~8歳の子どもは平均して1日3.0時間視聴しています
- 教育的価値: 適切な教育動画の視聴は健全な子どもの発達と学習を支援し、意味のある学習成果をもたらすことが証明されています
- 細粒度区別: 教育コード間に高度な類似性が存在します。例えば「文字名」対「文字音」
- 多ラベル特性: 単一の動画は複数の教育コンテンツタイプを含む可能性があります
- マルチモーダル要件: 教育コンテンツの理解には視覚的および音声的手がかりの同時分析が必要です
- データ不足: 専門家による注釈付けの細粒度教育動画データセットが不足しています
- 標準教師あり対比学習: SupConなどの方法は多ラベルシナリオに直接拡張できません
- 単一モーダル方法: 視覚的手がかりのみに依存することは細粒度教育コンテンツの区別には不十分です
- 汎用動画分類: UCF101やKineticsなどの既存データセットは主にアクション認識に焦点を当てており、教育コンテンツ分析には適していません
- APPROVEデータセット: 専門家による注釈付けの193時間の動画、19カテゴリー、動画あたり平均3ラベルを含む、初の細粒度多ラベル教育動画データセットを構築しました
- クラスプロトタイプ対比学習フレームワーク: 多ラベル細粒度分類に適用可能なクラスプロトタイプ教師あり対比学習方法を提案しました
- マルチモーダル融合アーキテクチャ: 視覚情報とテキスト(ASR転写)情報を効果的に融合するマルチモーダルトランスフォーマーネットワークを設計しました
- 性能向上: APPROVE、YouTube-8M、COINデータセット上で強力なベースライン方法を上回りました
- 入力: 教育動画 x、視覚フレームシーケンスと音声トラックを含む
- 出力: 多ラベル分類結果、動画が含む教育コンテンツカテゴリーの予測
- 制約: カテゴリー間に細粒度差異が存在し、単一の動画は複数の関連ラベルを含む可能性があります
従来の教師あり対比学習(SupCon)は、同じクラスのサンプル間の距離を最小化し、異なるクラスのサンプル間の距離を最大化することで表現を学習します:
LSupCon=∑i∈A−∣P(i)∣1∑p∈P(i)log∑a∈A\iexp(sim(zi,za)/τ)exp(sim(zi,zp)/τ)
しかし多ラベルシナリオでは、サンプルペアを単純に正と負に分けることはできません。本論文はクラスプロトタイプベースの対比学習を提案しています:
Lmlc(x)=−∣Pml(x)∣1∑ck+∈Pml(x)[log∑cj−∈C\Pml(x)exp(sim(z,cpj)/τ)exp(sim(z,cpk)/τ)]
ここで:
- Pml(x): サンプルxの正のクラスラベルセット
- cpk: 第kクラスのクラスプロトタイプ
- z: サンプル表現
クラスプロトタイプは以下の方法で反復的に更新されます:
Zt=L×CPt+εCPt∗≈(LTL)−1LTZtCPt+1=β⋅CPt+(1−β)⋅CPt∗
ここでLはラベル行列、βは指数移動平均の減衰パラメータです。
ネットワークは3つのコンポーネントで構成されています:
- 画像エンコーダー: ViTを使用して動画フレームを処理し、視覚表現zvを生成
- テキストエンコーダー: BERTを使用してASR転写テキストを処理し、テキスト表現ztを生成
- 融合エンコーダー: クロスアテンション機構を通じてマルチモーダル情報を融合し、融合表現zfを生成
最終的なサンプル表現は:z={zv,zt,zf}
- 多ラベル対比学習: 対比学習を真の多ラベルシナリオに初めて拡張し、部分的に重複するラベルの問題を解決しました
- クラスプロトタイプ設計: クラスプロトタイプを学習アンカーポイントとして使用することで、多ラベルシナリオにおける正と負のサンプル定義の困難さを回避しました
- マルチモーダル融合: 教育コンテンツの特性に対応して、視覚的デモンストレーションと音声説明を効果的に結合しました
- 2段階トレーニング: 最初に単一モーダルアライメントを実行し、その後エンドツーエンドのマルチモーダル学習を実行します
- 規模: 193時間の動画、19カテゴリー(7つの識字能力カテゴリー + 11の数学カテゴリー + 1つの背景カテゴリー)
- 注釈: 訓練を受けた教育研究者による注釈、標準検証プロトコルに従う
- 特性: 動画あたり平均3ラベル、カテゴリー間の視覚的類似度が高い
- 品質保証: 注釈者は最終注釈に参加する前に90%以上の専門家一致性を達成する必要があります
- YT-46K: YouTube-8Mのサブセット、46K動画、165カテゴリー
- COIN: 指導動画データセット、180カテゴリー
- R@80: 80%精度での再現率(主要指標、教育応用の高精度要件に適しています)
- AUPR: 精度-再現率曲線下の面積
- LRAP: ラベルランキング平均精度、多ラベル評価に適しています
- Binary Cross-Entropy (BCE): 標準的な多ラベル分類損失
- Focal Loss: 難しいサンプルに対応した改善された交差エントロピー損失
- Asymmetric Loss: 多ラベル用の非対称損失関数
- オプティマイザー: AdamW、学習率0.0005
- 画像エンコーダー: ResNet50、ViT-B/32、ViT-B/16
- テキストエンコーダー: DistilBERT、T5-small
- ASR: OpenAI Whisper
- データ拡張: RandAugment、同義語置換、逆翻訳など
| モーダル | 方法 | AUPR | LRAP | R@80 |
|---|
| V+T | BCE | 84.3 | 88.4 | 76.3 |
| V+T | Focal | 86.1 | 89.1 | 82.2 |
| V+T | Asym. | 86.0 | 89.2 | 82.4 |
| V+T | 本手法 | 88.4 | 90.7 | 85.5 |
本手法はすべての指標で最高性能を達成し、最強ベースラインと比較して:
- AUPR: +2.3%
- LRAP: +1.5%
- R@80: +3.1%
- YT-46K: R@80で4.5%向上(49.1% vs 44.6%)
- COIN: Top-1精度で1.4%向上(57.5% vs 56.1%)
| 初期化方法 | APPROVE | COIN |
|---|
| ランダム | 84.1 | 56.6 |
| 直交 | 84.8 | 57.0 |
| 学習済み | 85.5 | 57.5 |
| 階層的 | 86.0 | 57.8 |
- 視覚のみ: R@80 = 19.6%
- テキストのみ: R@80 = 75.4%
- 視覚+テキスト: R@80 = 85.5%
テキストモーダルがより大きく貢献していますが、マルチモーダル融合は顕著な向上をもたらします。
- 数学カテゴリー: 識字能力カテゴリーより性能が優れており、識字能力カテゴリーの区別がより困難であることを示しています
- 困難なカテゴリー: 「単語を追う」「単語内の文字」「単語内の音」はすべて識字能力カテゴリーです
- マルチモーダルの利点: 言語と視覚を結びつける必要があるスキル(例えば、サイトワード、書かれた数字)はマルチモーダルデータから最大の利益を得ます
- 欠落モーダル: 10%のビデオフレームが欠落している場合、性能は5.4%低下し、30%のテキストが欠落している場合は16.6%低下します
- 実行間分散: ベースライン方法と同様の低分散(±0.5%)
- CLIP初期化: ImageNet初期化と比較してさらに性能が向上します
- 自己教師あり対比学習: SimCLR、MoCo等はデータ拡張を通じて正のサンプルペアを生成
- 教師あり対比学習: SupConはラベル情報を利用して正と負のサンプルペアを形成しますが、多ラベルに直接拡張できません
- プロトタイプ対比学習: PCLは無教師設定でクラスタリングを使用してプロトタイプを生成
- 弱教師あり多モーダル: CLIPなどはウェブスクレイピングされたテキスト-画像ペアを使用した対比学習を利用
- 教師あり多モーダル: MS-COCOなどの人工注釈データセットを使用した教師あり学習を利用
- 動画理解: 既存のデータセットは主にアクション認識に焦点を当てており、教育コンテンツ分析が不足しています
- スポーツ動画: Multi-Sports、FineGymなどは細粒度スポーツアクションに注釈を付けます
- 指導動画: COINは多様な指導タスクを含みますが、粒度がより粗いです
- 教育動画: 本論文は細粒度教育コンテンツ分類を初めて提案しています
- 方法の有効性: クラスプロトタイプ対比学習は多ラベル細粒度分類問題を成功裏に解決しました
- マルチモーダルの必要性: 視覚的および音声的手がかりの結合は教育コンテンツの理解に不可欠です
- データセット貢献: APPROVEは教育動画分析のための貴重なベンチマークデータセットを提供します
- 実用的価値: この方法は教育者が適切な教育コンテンツをスクリーニングするのに役立つ可能性があります
- 領域の限定: 現在は識字能力と数学の2つの領域のみに焦点を当てています
- 年齢範囲: 主に幼稚園段階を対象としており、他の年齢層への適用可能性は不明です
- 言語依存: ASR転写品質が性能に影響し、非英語コンテンツへの適用可能性が限定されます
- 計算複雑性: マルチモーダル処理とプロトタイプ学習は計算オーバーヘッドを増加させます
- 領域の拡張: 科学、社会研究など他の教育領域への拡張
- 多言語対応: 多言語教育コンテンツ分析への対応
- リアルタイム応用: リアルタイムコンテンツスクリーニングをサポートするためのモデル最適化
- 個性化推奨: 子どもの学習進度に基づいた個性化コンテンツ推奨
- 問題の重要性: 子どもの教育における実際のニーズを解決し、重要な社会的価値を持っています
- 技術的革新: 対比学習を多ラベル細粒度シナリオに初めて効果的に拡張しました
- データセット品質: APPROVEデータセットは高い注釈品質を持ち、領域発展のための重要なリソースを提供します
- 十分な実験: アブレーション実験が包括的で、複数のデータセット検証により方法の汎化性を示しています
- 方法の汎用性: プロトタイプ対比学習フレームワークは他の多ラベル分類タスクに拡張可能です
- 理論分析の不足: クラスプロトタイプ学習の収束性に関する理論分析が不足しています
- 計算効率: マルチモーダル処理の計算オーバーヘッドと推論速度の詳細な分析が不足しています
- エラー分析: 分類エラーの深い分析と解釈可能性研究が不足しています
- ベースライン比較: より多くの最新の多ラベル分類方法との比較を含めることができます
- 長尾分布: クラス不均衡が性能に与える影響について十分に議論されていません
- 学術的貢献: 多ラベル対比学習に新しい解決策を提供しました
- 実用的価値: 教育技術製品開発に直接適用可能です
- データセット影響: APPROVEは教育動画分析の重要なベンチマークとなります
- 再現性: コードとデータセットが公開されており、後続研究が容易です
- 教育プラットフォーム: YouTube Kidsなどの子ども向けコンテンツプラットフォームのコンテンツスクリーニング
- オンライン教育: 教育動画コンテンツの自動注釈と推奨
- 保護者向けツール: 保護者が適切な教育コンテンツをスクリーニングするのに役立つ
- 研究ツール: 教育研究における動画コンテンツ分析
論文は68の関連文献を引用しており、主に以下を含みます:
- 対比学習の古典的論文:SimCLR、MoCo、SupConなど
- マルチモーダル学習:CLIP、BLIP、Flamingoなど
- 動画分析データセット:UCF101、Kinetics、YouTube-8Mなど
- 教育標準:Common Core Standards関連文献
総合評価: これはコンピュータビジョン分野の高品質な論文であり、教育技術における重要な問題を解決しています。方法の革新性が強く、実験設計が合理的で、結果は説得力があります。APPROVEデータセットの貢献は特に顕著であり、関連研究に貴重なリソースを提供しています。論文は技術的深さと実用的価値のバランスを良好に取っており、教育動画分析領域に重要な影響を与えることが予想されます。