2025-11-25T21:10:18.097119

Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos

Gupta, Roy, Christensen et al.

The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE

academic

Контрастивное обучение на основе прототипов классов для классификации многоэтикеточных и мелкозернистых образовательных видео

Основная информация

ID статьи: 2510.11204
Название: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
Авторы: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah
Категория: cs.CV (Компьютерное зрение)
Дата публикации: 13 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.11204v1

Аннотация

В связи с быстрым ростом потребления онлайн-медиа детьми, педагогам срочно требуются инструменты, основанные на данных, для фильтрации образовательного контента, подходящего для юных учащихся. В данной работе предложен метод обнаружения образовательного контента в онлайн-видео, сосредоточенный на двух широко используемых категориях образовательного контента: грамотность и математика. На основе Common Core Standards выбраны выдающиеся коды (подкатегории), такие как коды грамотности, включающие "названия букв", "звуки букв", и коды математики, включающие "счет", "классификацию" и т.д. Поскольку видео могут содержать несколько типов образовательного контента, а категории контента могут быть визуально похожи, задача моделируется как проблема мелкозернистой многоэтикеточной классификации. Предложен новый метод контрастивного обучения на основе прототипов классов, способный обрабатывать мелкозернистые образцы, связанные с несколькими метками. Путем изучения прототипов каждого класса используется функция потерь для минимизации расстояния между прототипом класса и образцами этого класса, одновременно максимизируя расстояние до образцов других классов. Учитывая важность визуальных и аудиосигналов для эффективного понимания, применяется многомодальная сеть трансформеров для захвата взаимодействия визуальных и аудиосигналов в видео. Оценка проводилась на наборе данных APPROVE, содержащем 193 часа видео YouTube, аннотированных исследователями в области образования, с 19 категориями.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Автоматическое выявление и классификация образовательного контента в онлайн-видео, особенно для содержания грамотности и математики на уровне детского сада
Практическая потребность: 89% родителей детей в возрасте до 11 лет сообщают, что их дети смотрят видео YouTube; дети в возрасте 2-4 лет смотрят в среднем 2,5 часа в день, дети в возрасте 5-8 лет смотрят в среднем 3,0 часа в день
Образовательная ценность: Просмотр надлежащего образовательного видеоконтента поддерживает здоровое развитие и обучение детей, что доказано приносит значительные результаты в обучении

Анализ вызовов

Мелкозернистое различие: Высокая степень сходства между образовательными кодами, например "названия букв" vs "звуки букв"
Многоэтикеточность: Одно видео может содержать несколько типов образовательного контента
Многомодальные требования: Понимание образовательного контента требует одновременного анализа визуальных и аудиосигналов
Нехватка данных: Отсутствие наборов данных мелкозернистых образовательных видео с экспертной аннотацией

Ограничения существующих методов

Стандартное контрастивное обучение: Методы типа SupCon не могут быть напрямую расширены на многоэтикеточные сценарии
Одномодальные методы: Полагаться только на визуальные сигналы недостаточно для различения мелкозернистого образовательного контента
Универсальная классификация видео: Существующие наборы данных, такие как UCF101, Kinetics, в основном сосредоточены на распознавании действий и не подходят для анализа образовательного контента

Основные вклады

Набор данных APPROVE: Создан первый мелкозернистый многоэтикеточный набор данных образовательных видео, содержащий 193 часа видео с экспертной аннотацией, 19 категорий, в среднем 3 метки на видео
Структура контрастивного обучения на основе прототипов классов: Предложен метод контрастивного обучения на основе прототипов классов, применимый к многоэтикеточной мелкозернистой классификации
Многомодальная архитектура слияния: Разработана многомодальная сеть трансформеров, эффективно объединяющая визуальную и текстовую (ASR-транскрипция) информацию
Повышение производительности: Превосходит сильные базовые методы на наборах данных APPROVE, YouTube-8M и COIN

Подробное описание метода

Определение задачи

Входные данные: Образовательное видео $x$ , содержащее последовательность визуальных кадров и аудиодорожку
Выходные данные: Результаты многоэтикеточной классификации, прогнозирующие категории образовательного контента в видео
Ограничения: Между категориями существуют мелкозернистые различия, одно видео может содержать несколько связанных меток

Архитектура модели

1. Контрастивное обучение на основе прототипов классов

Традиционное контрастивное обучение с учителем (SupCon) изучает представления путем минимизации расстояния между образцами одного класса и максимизации расстояния между образцами разных классов:

$L_{SupCon} = \sum_{i \in A} -\frac{1}{|P(i)|} \sum_{p \in P(i)} \log \frac{\exp(\text{sim}(z_i, z_p)/\tau)}{\sum_{a \in A\backslash i} \exp(\text{sim}(z_i, z_a)/\tau)}$

Однако в многоэтикеточном сценарии пары образцов не могут быть просто разделены на положительные и отрицательные. В данной работе предложено контрастивное обучение на основе прототипов классов:

$L_{mlc}(x) = -\frac{1}{|P_{ml}(x)|} \sum_{c_k^+ \in P_{ml}(x)} \left[ \log \frac{\exp(\text{sim}(z, cp_k)/\tau)}{\sum_{c_j^- \in C\backslash P_{ml}(x)} \exp(\text{sim}(z, cp_j)/\tau)} \right]$

где:

$P_{ml}(x)$ : набор положительных меток класса для образца $x$
$cp_k$ : прототип $k$ -го класса
$z$ : представление образца

2. Обучение прототипам классов

Прототипы классов обновляются итеративно: $Z_t = L \times CP_t + \varepsilon$ $CP_t^* \approx (L^T L)^{-1} L^T Z_t$ $CP_{t+1} = \beta \cdot CP_t + (1-\beta) \cdot CP_t^*$

где $L$ — матрица меток, $\beta$ — параметр затухания экспоненциального скользящего среднего.

3. Многомодальная сеть трансформеров

Сеть состоит из трех компонентов:

Кодировщик изображений: Использует ViT для обработки видеокадров, генерирует визуальное представление $z_v$
Текстовый кодировщик: Использует BERT для обработки текста ASR-транскрипции, генерирует текстовое представление $z_t$
Кодировщик слияния: Объединяет многомодальную информацию через механизм перекрестного внимания, генерирует объединенное представление $z_f$

Окончательное представление образца: $z = \{z_v, z_t, z_f\}$

Технические инновации

Многоэтикеточное контрастивное обучение: Впервые расширено контрастивное обучение на истинный многоэтикеточный сценарий, решена проблема частично перекрывающихся меток
Проектирование прототипов классов: Путем изучения прототипов классов в качестве опорных точек избегаются трудности определения положительных и отрицательных образцов в многоэтикеточном сценарии
Многомодальное слияние: Учитывая характеристики образовательного контента, эффективно объединяет визуальные демонстрации и аудиообъяснения
Двухэтапное обучение: Сначала проводится одномодальное выравнивание, затем сквозное многомодальное обучение

Экспериментальная установка

Наборы данных

Набор данных APPROVE

Масштаб: 193 часа видео, 19 категорий (7 категорий грамотности + 11 категорий математики + 1 категория фона)
Аннотация: Аннотирована обученными исследователями в области образования, следует стандартному протоколу валидации
Характеристики: В среднем 3 метки на видео, высокое визуальное сходство между категориями
Контроль качества: Аннотаторы должны достичь согласованности с экспертами выше 90%, чтобы участвовать в окончательной аннотации

Сравнительные наборы данных

YT-46K: Подмножество YouTube-8M, 46K видео, 165 категорий
COIN: Набор данных видео с инструкциями, 180 категорий

Метрики оценки

R@80: Полнота при 80% точности (основная метрика, подходит для высокоточных требований образовательных приложений)
AUPR: Площадь под кривой точность-полнота
LRAP: Средняя точность ранжирования меток, подходит для многоэтикеточной оценки

Сравнительные методы

Binary Cross-Entropy (BCE): Стандартная функция потерь многоэтикеточной классификации
Focal Loss: Улучшенная кросс-энтропия для сложных образцов
Asymmetric Loss: Асимметричная функция потерь для многоэтикеточной классификации

Детали реализации

Оптимизатор: AdamW, скорость обучения 0.0005
Кодировщик изображений: ResNet50, ViT-B/32, ViT-B/16
Текстовый кодировщик: DistilBERT, T5-small
ASR: OpenAI Whisper
Увеличение данных: RandAugment, замена синонимов, обратный перевод и т.д.

Результаты экспериментов

Основные результаты

Результаты на наборе данных APPROVE

Модальность	Метод	AUPR	LRAP	R@80
V+T	BCE	84.3	88.4	76.3
V+T	Focal	86.1	89.1	82.2
V+T	Asym.	86.0	89.2	82.4
V+T	Наш метод	88.4	90.7	85.5

Предложенный метод достигает лучшей производительности по всем метрикам, улучшение по сравнению с самым сильным базовым методом:

AUPR: +2.3%
LRAP: +1.5%
R@80: +3.1%

Результаты на других наборах данных

YT-46K: Улучшение R@80 на 4.5% (49.1% vs 44.6%)
COIN: Улучшение точности Top-1 на 1.4% (57.5% vs 56.1%)

Абляционные исследования

Стратегии инициализации прототипов классов

Метод инициализации	APPROVE	COIN
Случайная	84.1	56.6
Ортогональная	84.8	57.0
Обучаемая	85.5	57.5
Иерархическая	86.0	57.8

Анализ вклада модальностей

Только визуальная: R@80 = 19.6%
Только текстовая: R@80 = 75.4%
Визуальная+текстовая: R@80 = 85.5%

Текстовая модальность вносит больший вклад, но многомодальное слияние приносит значительное улучшение.

Анализ случаев

Категории математики: Производительность выше, чем категории грамотности, что указывает на большую сложность различения категорий грамотности
Сложные категории: "follow words", "letters in words", "sounds in words" — все категории грамотности
Преимущество многомодальности: Навыки, требующие связи языка и визуального восприятия (например, sight words, written numerals), получают наибольшую пользу от многомодальных данных

Анализ робастности

Отсутствие модальности: При отсутствии 10% видеокадров производительность снижается на 5.4%, при отсутствии 30% текста снижается на 16.6%
Дисперсия между запусками: Низкая дисперсия, аналогичная базовым методам (±0.5%)
Инициализация CLIP: Дальнейшее улучшение производительности по сравнению с инициализацией ImageNet

Связанные работы

Контрастивное обучение

Самоконтролируемое контрастивное обучение: SimCLR, MoCo и др. генерируют положительные пары образцов через увеличение данных
Контрастивное обучение с учителем: SupCon использует информацию о метках для формирования положительных и отрицательных пар образцов, но не может быть напрямую расширено на многоэтикеточные сценарии
Контрастивное обучение на основе прототипов: PCL использует кластеризацию для генерации прототипов в неконтролируемых условиях

Многомодальное обучение

Слабо контролируемое многомодальное обучение: CLIP использует текстово-изображенные пары, полученные из веб-сайтов, для контрастивного обучения
Контролируемое многомодальное обучение: Использует наборы данных с человеческой аннотацией, такие как MS-COCO
Понимание видео: Существующие наборы данных в основном сосредоточены на распознавании действий, не хватает анализа образовательного контента

Мелкозернистая классификация видео

Спортивные видео: Multi-Sports, FineGym и др. аннотируют мелкозернистые спортивные действия
Видео с инструкциями: COIN содержит разнообразные задачи с инструкциями, но с более грубой зернистостью
Образовательные видео: Данная работа впервые предлагает мелкозернистую классификацию образовательного контента

Заключение и обсуждение

Основные выводы

Эффективность метода: Контрастивное обучение на основе прототипов классов успешно решает проблему многоэтикеточной мелкозернистой классификации
Необходимость многомодальности: Комбинация визуальных и аудиосигналов критична для понимания образовательного контента
Вклад набора данных: APPROVE предоставляет ценный эталонный набор данных для анализа образовательных видео
Практическая ценность: Метод может помочь педагогам отбирать подходящий образовательный контент

Ограничения

Ограничение области: Текущая работа сосредоточена только на двух областях: грамотность и математика
Возрастной диапазон: В основном ориентирована на уровень детского сада, применимость к другим возрастным группам неизвестна
Зависимость от языка: Качество ASR-транскрипции влияет на производительность, применимость к неанглийскому контенту ограничена
Вычислительная сложность: Многомодальная обработка и обучение прототипам увеличивают вычислительные затраты

Будущие направления

Расширение области: Расширение на другие образовательные области, такие как естественные науки, обществознание
Многоязычная поддержка: Поддержка анализа образовательного контента на нескольких языках
Приложения в реальном времени: Оптимизация модели для поддержки фильтрации контента в реальном времени
Персонализованные рекомендации: Интеграция с прогрессом обучения ребенка для персонализированных рекомендаций контента

Глубокая оценка

Преимущества

Важность проблемы: Решает реальные потребности в детском образовании с важной социальной ценностью
Техническая инновация: Впервые эффективно расширяет контрастивное обучение на многоэтикеточный мелкозернистый сценарий
Качество набора данных: Набор данных APPROVE имеет высокое качество аннотации и предоставляет важный ресурс для развития области
Полные эксперименты: Комплексные абляционные исследования, проверка обобщаемости метода на нескольких наборах данных
Универсальность метода: Структура контрастивного обучения на основе прототипов может быть расширена на другие задачи многоэтикеточной классификации

Недостатки

Недостаток теоретического анализа: Отсутствует теоретический анализ сходимости обучения прототипам классов
Вычислительная эффективность: Отсутствует подробный анализ вычислительных затрат многомодальной обработки и скорости вывода
Анализ ошибок: Недостаточный анализ ошибок классификации и исследования интерпретируемости
Сравнение базовых методов: Можно включить больше современных методов многоэтикеточной классификации для сравнения
Распределение с длинным хвостом: Недостаточное обсуждение влияния дисбаланса классов на производительность

Влияние

Академический вклад: Предоставляет новое решение для многоэтикеточного контрастивного обучения
Практическая ценность: Может быть напрямую применено в разработке образовательных технологических продуктов
Влияние набора данных: APPROVE станет важным эталоном для анализа образовательных видео
Воспроизводимость: Открытые коды и наборы данных облегчают последующие исследования

Применимые сценарии

Образовательные платформы: Фильтрация контента на платформах YouTube Kids и подобных сервисах для детей
Онлайн-образование: Автоматическая аннотация и рекомендация образовательного видеоконтента
Инструменты для родителей: Помощь родителям в отборе подходящего образовательного контента
Исследовательские инструменты: Анализ видеоконтента в образовательных исследованиях

Библиография

Статья цитирует 68 связанных работ, в основном включая:

Классические работы по контрастивному обучению: SimCLR, MoCo, SupCon и др.
Многомодальное обучение: CLIP, BLIP, Flamingo и др.
Наборы данных анализа видео: UCF101, Kinetics, YouTube-8M и др.
Литература по образовательным стандартам: работы, связанные с Common Core Standards

Общая оценка: Это высококачественная статья в области компьютерного зрения, решающая важную проблему в образовательных технологиях. Метод отличается высокой инновационностью, экспериментальный дизайн обоснован, результаты убедительны. Вклад набора данных APPROVE особенно выдающийся, предоставляя ценный ресурс для связанных исследований. Статья достигает хорошего баланса между технической глубиной и практической ценностью, ожидается, что окажет значительное влияние на область анализа образовательных видео.