The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- 论文ID: 2510.11204
- 标题: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- 作者: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
- 分类: cs.CV (Computer Vision)
- 发表时间: 2025年10月13日
- 论文链接: https://arxiv.org/abs/2510.11204v1
随着儿童在线媒体消费的快速增长,教育工作者迫切需要数据驱动的工具来筛选适合幼儿学习者的教育内容。本文提出了一种检测在线视频中教育内容的方法,专注于两个广泛使用的教育内容类别:读写能力和数学。基于Common Core Standards选择突出的代码(子类别),如读写能力代码包括"字母名称"、"字母发音",数学代码包括"计数"、"分类"等。由于视频可能包含多种教育内容且内容类别在视觉上可能相似,本文将其建模为细粒度多标签分类问题。提出了一种新颖的基于类原型的监督对比学习方法,能够处理与多个标签相关联的细粒度样本。通过学习每个类别的类原型,使用损失函数最小化类原型与该类样本之间的距离,同时最大化与其他类样本的距离。考虑到视觉和音频线索对有效理解的重要性,采用多模态变换器网络捕获视频中视觉和音频线索的交互。评估使用了APPROVE数据集,包含193小时由教育研究人员标注的YouTube教育视频,共19个类别。
- 核心问题: 自动识别和分类在线视频中的教育内容,特别是针对幼儿园阶段的读写能力和数学内容
- 现实需求: 89%的11岁以下儿童家长报告其孩子观看YouTube视频,2-4岁儿童平均每天观看2.5小时,5-8岁儿童平均每天观看3.0小时
- 教育价值: 观看适当的教育视频支持健康的儿童发展和学习,已被证明能产生有意义的学习收益
- 细粒度区分: 教育代码之间存在高度相似性,如"字母名称"vs"字母发音"
- 多标签特性: 单个视频可能包含多种教育内容类型
- 多模态需求: 教育内容理解需要同时分析视觉和音频线索
- 数据稀缺: 缺乏专家标注的细粒度教育视频数据集
- 标准监督对比学习: SupCon等方法无法直接扩展到多标签场景
- 单模态方法: 仅依赖视觉线索不足以区分细粒度教育内容
- 通用视频分类: 现有数据集如UCF101、Kinetics等主要关注动作识别,不适用于教育内容分析
- APPROVE数据集: 构建了首个细粒度多标签教育视频数据集,包含193小时专家标注的视频,19个类别,平均每个视频3个标签
- 类原型对比学习框架: 提出了适用于多标签细粒度分类的类原型监督对比学习方法
- 多模态融合架构: 设计了多模态变换器网络,有效融合视觉和文本(ASR转录)信息
- 性能提升: 在APPROVE、YouTube-8M和COIN数据集上均优于强基线方法
- 输入: 教育视频 x,包含视觉帧序列和音频轨道
- 输出: 多标签分类结果,预测视频包含的教育内容类别
- 约束: 类别间存在细粒度差异,单个视频可能包含多个相关标签
传统监督对比学习(SupCon)通过最小化同类样本间距离、最大化异类样本间距离来学习表征:
LSupCon=∑i∈A−∣P(i)∣1∑p∈P(i)log∑a∈A\iexp(sim(zi,za)/τ)exp(sim(zi,zp)/τ)
但在多标签场景中,样本对无法简单分为正负样本。本文提出基于类原型的对比学习:
Lmlc(x)=−∣Pml(x)∣1∑ck+∈Pml(x)[log∑cj−∈C\Pml(x)exp(sim(z,cpj)/τ)exp(sim(z,cpk)/τ)]
其中:
- Pml(x): 样本x的正类标签集合
- cpk: 第k类的类原型
- z: 样本表征
类原型通过以下方式迭代更新:
Zt=L×CPt+εCPt∗≈(LTL)−1LTZtCPt+1=β⋅CPt+(1−β)⋅CPt∗
其中L是标签矩阵,β是指数移动平均的衰减参数。
网络包含三个组件:
- 图像编码器: 使用ViT处理视频帧,生成视觉表征zv
- 文本编码器: 使用BERT处理ASR转录文本,生成文本表征zt
- 融合编码器: 通过交叉注意力机制融合多模态信息,生成融合表征zf
最终样本表征为:z={zv,zt,zf}
- 多标签对比学习: 首次将对比学习扩展到真正的多标签场景,解决了部分重叠标签的问题
- 类原型设计: 通过学习类原型作为锚点,避免了多标签场景下正负样本定义的困难
- 多模态融合: 针对教育内容的特点,有效结合视觉演示和音频解释
- 两阶段训练: 先进行单模态对齐,再进行端到端多模态学习
- 规模: 193小时视频,19个类别(7个读写能力类别 + 11个数学类别 + 1个背景类别)
- 标注: 由训练有素的教育研究人员标注,遵循标准验证协议
- 特点: 平均每个视频3个标签,类别间视觉相似度高
- 质量保证: 标注者需达到90%以上专家一致性才能参与最终标注
- YT-46K: YouTube-8M的子集,46K视频,165个类别
- COIN: 指导性视频数据集,180个类别
- R@80: 80%精确率下的召回率(主要指标,适合教育应用的高精度需求)
- AUPR: 精确率-召回率曲线下面积
- LRAP: 标签排序平均精确率,适合多标签评估
- Binary Cross-Entropy (BCE): 标准多标签分类损失
- Focal Loss: 针对难样本的改进交叉熵损失
- Asymmetric Loss: 针对多标签的不对称损失函数
- 优化器: AdamW,学习率0.0005
- 图像编码器: ResNet50, ViT-B/32, ViT-B/16
- 文本编码器: DistilBERT, T5-small
- ASR: OpenAI Whisper
- 数据增强: RandAugment, 同义词替换, 回译等
| 模态 | 方法 | AUPR | LRAP | R@80 |
|---|
| V+T | BCE | 84.3 | 88.4 | 76.3 |
| V+T | Focal | 86.1 | 89.1 | 82.2 |
| V+T | Asym. | 86.0 | 89.2 | 82.4 |
| V+T | Ours | 88.4 | 90.7 | 85.5 |
本方法在所有指标上均取得最佳性能,相比最强基线提升:
- AUPR: +2.3%
- LRAP: +1.5%
- R@80: +3.1%
- YT-46K: R@80提升4.5%(49.1% vs 44.6%)
- COIN: Top-1准确率提升1.4%(57.5% vs 56.1%)
| 初始化方法 | APPROVE | COIN |
|---|
| Random | 84.1 | 56.6 |
| Orthogonal | 84.8 | 57.0 |
| Learned | 85.5 | 57.5 |
| Hierarchical | 86.0 | 57.8 |
- 仅视觉: R@80 = 19.6%
- 仅文本: R@80 = 75.4%
- 视觉+文本: R@80 = 85.5%
文本模态贡献更大,但多模态融合带来显著提升。
- 数学类别: 性能优于读写能力类别,表明读写能力类别区分更困难
- 困难类别: "follow words", "letters in words", "sounds in words"均为读写能力类别
- 多模态优势: 需要连接语言和视觉的技能(如sight words, written numerals)从多模态数据中受益最大
- 缺失模态: 10%视频帧缺失时性能下降5.4%,30%文本缺失时下降16.6%
- 运行间方差: 与基线方法相似的低方差(±0.5%)
- CLIP初始化: 相比ImageNet初始化进一步提升性能
- 自监督对比学习: SimCLR, MoCo等通过数据增强生成正样本对
- 监督对比学习: SupCon利用标签信息形成正负样本对,但无法直接扩展到多标签
- 原型对比学习: PCL在无监督设置中使用聚类生成原型
- 弱监督多模态: CLIP等利用网络爬取的文本-图像对进行对比学习
- 监督多模态: 利用人工标注的数据集如MS-COCO进行监督学习
- 视频理解: 现有数据集主要关注动作识别,缺乏教育内容分析
- 体育视频: Multi-Sports, FineGym等标注细粒度体育动作
- 指导视频: COIN包含多样化的指导任务,但粒度较粗
- 教育视频: 本文首次提出细粒度教育内容分类
- 方法有效性: 类原型对比学习成功解决了多标签细粒度分类问题
- 多模态必要性: 视觉和音频线索的结合对教育内容理解至关重要
- 数据集贡献: APPROVE为教育视频分析提供了宝贵的基准数据集
- 实用价值: 方法可帮助教育工作者筛选适合的教育内容
- 领域限制: 当前仅关注读写能力和数学两个领域
- 年龄范围: 主要针对幼儿园阶段,其他年龄段适用性未知
- 语言依赖: ASR转录质量影响性能,对非英语内容适用性有限
- 计算复杂度: 多模态处理和原型学习增加了计算开销
- 扩展领域: 扩展到科学、社会研究等其他教育领域
- 多语言支持: 支持多语言教育内容分析
- 实时应用: 优化模型以支持实时内容筛选
- 个性化推荐: 结合儿童学习进度进行个性化内容推荐
- 问题重要性: 解决了儿童教育中的实际需求,具有重要社会价值
- 技术创新: 首次将对比学习有效扩展到多标签细粒度场景
- 数据集质量: APPROVE数据集标注质量高,为领域发展提供重要资源
- 实验充分: 消融实验全面,多数据集验证方法泛化性
- 方法通用: 原型对比学习框架可扩展到其他多标签分类任务
- 理论分析不足: 缺乏对类原型学习收敛性的理论分析
- 计算效率: 未详细分析多模态处理的计算开销和推理速度
- 错误分析: 缺乏对分类错误的深入分析和可解释性研究
- 基线对比: 可以包含更多最新的多标签分类方法进行对比
- 长尾分布: 未充分讨论类别不平衡对性能的影响
- 学术贡献: 为多标签对比学习提供了新的解决方案
- 实用价值: 可直接应用于教育技术产品开发
- 数据集影响: APPROVE将成为教育视频分析的重要基准
- 可复现性: 代码和数据集公开,便于后续研究
- 教育平台: YouTube Kids等儿童内容平台的内容筛选
- 在线教育: 自动标注和推荐教育视频内容
- 家长工具: 帮助家长筛选适合的教育内容
- 研究工具: 教育研究中的视频内容分析
论文引用了68篇相关文献,主要包括:
- 对比学习经典论文:SimCLR, MoCo, SupCon等
- 多模态学习:CLIP, BLIP, Flamingo等
- 视频分析数据集:UCF101, Kinetics, YouTube-8M等
- 教育标准:Common Core Standards相关文献
总体评价: 这是一篇高质量的计算机视觉论文,解决了教育技术中的重要问题。方法创新性强,实验设计合理,结果令人信服。APPROVE数据集的贡献尤其突出,为相关研究提供了宝贵资源。论文在技术深度和实用价值之间取得了良好平衡,预期将对教育视频分析领域产生重要影响。