2025-11-17T08:34:13.390930

Open Vocabulary Multi-Label Video Classification

Gupta, Rizve, Unnikrishnan et al.

Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.

academic

Классификация видео с открытым словарём и множественными метками

Основная информация

ID статьи: 2407.09073
Название: Open Vocabulary Multi-Label Video Classification
Авторы: Rohit Gupta, Mamshad Nayeem Rizve, Jayakrishnan Unnikrishnan, Ashish Tawari, Son Tran, Mubarak Shah, Benjamin Yao, Trishul Chilimbi
Категория: cs.CV
Дата публикации: arXiv:2407.09073v2 cs.CV 13 Oct 2025
Ссылка на статью: https://arxiv.org/abs/2407.09073

Аннотация

Предварительно обученные визуально-языковые модели (VLM) достигли значительного прогресса в задачах компьютерного зрения с открытым словарём, таких как классификация изображений, обнаружение объектов и сегментация изображений. Некоторые недавние работы сосредоточены на расширении VLM на классификацию действий с открытым словарём и одной меткой в видео. Однако предыдущие методы недостаточны для комплексного понимания видео и не могут одновременно распознавать несколько действий и сущностей (например, объектов) в условиях открытого словаря. В данной работе эта задача определяется как классификация видео с открытым словарём и множественными метками, и предлагается метод адаптации предварительно обученной VLM (такой как CLIP) для решения этой задачи. Мы используем большие языковые модели (LLM) для предоставления семантического руководства VLM относительно меток классов, повышая производительность открытого словаря посредством двух ключевых вкладов. Во-первых, предлагается полностью обучаемая архитектура, которая учится подсказывать LLM для генерации мягких атрибутов для текстового кодировщика CLIP, позволяя ему распознавать новые классы. Во-вторых, модуль временного моделирования интегрируется в визуальный кодировщик CLIP для эффективного моделирования пространственно-временной динамики видеоконцепций, и предлагается новая техника регуляризации при тонкой настройке, обеспечивающая сохранение надёжной производительности классификации с открытым словарём в видеодомене.

Исследовательский контекст и мотивация

Определение проблемы

Традиционные методы классификации видео имеют следующие ограничения:

Ограничение словаря: Классические методы требуют предварительного знания всех возможных классов, модель может обучаться только под контролем на помеченных наборах данных
Высокие затраты на аннотирование: Процесс ручного аннотирования является трудоёмким, что приводит к тому, что наборы видеоданных обычно ограничиваются конкретными областями (например, конкретные виды спорта или простые действия)
Распознавание единственной концепции: Существующие методы открытого словаря в основном сосредоточены на классификации с одной меткой и не могут одновременно распознавать несколько концепций в видео

Исследовательская мотивация

С широким распространением видеоприложений необходимо разработать видеомодели, способные распознавать широкий спектр концепций. Основная мотивация данной работы заключается в:

Использовании преимуществ предварительного обучения VLM на крупномасштабных парах изображение-текст
Объединении богатого мирового знания LLM для улучшения семантического понимания
Реализации одновременного распознавания нескольких видеоконцепций (действий, объектов, сцен и т.д.) в условиях открытого словаря

Технические вызовы

Проблема оценки сходства в условиях множественных меток: Диапазоны оценок сходства VLM для различных типов концепций (например, действий, объектов) различаются
Временное моделирование: Модели предварительного обучения изображение-язык не обладают способностью моделировать временную динамику видео
Сохранение производительности открытого словаря: При тонкой настройке на видеоданных легко происходит переобучение, что приводит к потере способности к обобщению

Основные вклады

Полностью обучаемый кодировщик меток: Предлагается метод обучения подсказыванию LLM для генерации мягких атрибутов для текстового кодировщика VLM, реализующий классификацию видео с открытым словарём и множественными метками
Визуальный кодировщик с временным улучшением: Интеграция возможностей временного моделирования в предварительно обученный визуальный кодировщик VLM при сохранении сильной производительности открытого словаря
Новый эталонный набор данных: Определение эталонов классификации видео с открытым словарём и множественными метками на 5 наборах данных с сравнением 6 сильных базовых методов
Значительное улучшение производительности: Значительное превосходство над базовыми методами на нескольких эталонных наборах данных

Подробное описание метода

Определение задачи

Входные данные: Последовательность видео и набор меток классов из открытого словаря Выходные данные: Вероятность присутствия каждой метки в видео Ограничения: Модель должна обрабатывать новые классы, не встречавшиеся во время обучения, при выводе

Архитектура модели

Общая структура

Модель содержит три основных этапа:

Этап обучения: Одновременное обучение кодировщика меток и видеокодировщика на закрытом наборе обучающих меток
Этап расширения словаря классификатора: Вычисление вложений для новых меток классов и сохранение в базе данных вложений меток
Этап вывода: Вычисление характеристик видео и сопоставление с базой данных вложений меток

1. Кодирование меток с семантическим улучшением LLM

Метод фиксированной подсказки:

Разработка шаблона подсказки для запроса LLM генерировать полезные характеристики для визуального различения классов
Вывод LLM анализируется как список атрибутов, который вместе с названием класса подсказывается текстовому кодировщику CLIP
Вложение текста, улучшенное атрибутами, генерируется посредством усреднения пула

Полностью обучаемая подсказка LLM: Для решения проблемы необучаемости метода фиксированной подсказки предлагается следующая архитектура:

Обучаемый префикс: N d-мерных обучаемых векторов в качестве префикса подсказки LLM
Трансформатор подсказки: Отображение выходного семантического пространства LLM в семантическое пространство входа CLIP
Генерация мягких атрибутов: Запуск K_L итераций декодирования для каждого префикса, генерирующих K подпоследовательностей из L токенов в качестве мягких атрибутов

Математическое представление:

Входная последовательность: I ∈ R^(M×d)
Конкатенация префикса P_i с шаблоном подсказки: [P_i; I] ∈ R^((1+M)×d)
Окончательное вложение метки: f_t(ℓ) = MeanPool(Normalize(CLIP_text([soft_prompt; tokenize(ℓ)])))

2. Регуляризованное параллельное временное моделирование

Ветвь временного моделирования:

Добавление параллельной ветви временного моделирования в последние T слоёв визуального кодировщика CLIP
Замораживание визуальной ветви CLIP, обучение только новым временным слоям
Каждый временной блок содержит:
- Слой пространственного внимания, инициализированный из весов CLIP
- Слой временного внимания со случайной инициализацией

Стратегия регуляризации весов: Для сохранения нулевой производительности выборки используется регуляризация случайных весов для слоёв пространственного внимания:

θ = αθ_ft + (1-α)θ_frozen, где α ~ U(0, λ)

Генерация вложения видео: Общее вложение видео генерируется посредством усреднения пула окончательного временного токена (TMP) и токенов CLS каждого кадра.

Цель обучения

Используется взвешенная потеря двоичной кроссэнтропии:

L(B) = -∑_{v∈B} [∑_{ℓ∈P(v)} log p(ℓ,v) + w∑_{ℓ∈N(v)} log(1-p(ℓ,v))]

Где:

p(ℓ,v) = σ(s(ℓ,v)/τ)
s(ℓ,v) = (f_t(ℓ))^T f_v(v)
τ — параметр температуры, w — гиперпараметр веса

Экспериментальная установка

Наборы данных

Наборы данных обучения:

YouTube-8M: Главным образом помеченные сущности, после удаления названий игр сохранено 2429 классов
Kinetics-400: Высококачественные ручные проверенные метки действий, 400 классов

Наборы данных оценки:

TAO (Tracking Any Object): Набор данных открытого словаря, сосредоточенный на объектах
ActivityNet: Набор данных, сосредоточенный на действиях
RareAct: Набор данных, содержащий объекты, действия и их редкие комбинации

Метрики оценки

AUPR (Area Under Precision-Recall curve): Суммирует производительность классификации по всей кривой точность-полнота
Peak F1-Score: Оценка F1, достигнутая при оптимальном пороге

Методы сравнения

CoOp: Лёгкий метод адаптации для обучения подсказкам текстового кодировщика CLIP
DualCoOp: Расширение CoOp для множественных меток, обучение положительным и отрицательным подсказкам
LLM + CLIP (Frozen): Базовый метод фиксированной подсказки LLM
ViFi-CLIP: Тонкая настройка визуального и текстового кодировщиков CLIP на наборе обучающих данных

Результаты экспериментов

Основные результаты

Сравнение производительности AUPR:

Метод	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (подсказка названия класса)	6.3	26.2	43.8	44.2	9.5
Фиксированная подсказка LLM	6.9	30.6	50.2	46.8	11.5
DualCoOp	8.3	23.9	47.1	33.0	7.6
Предложенный метод	16.7	43.2	65.5	50.2	13.2

Сравнение производительности Peak F1:

Метод	YouTube-8M	Kinetics	TAO	ActivityNet	RareAct
CLIP (подсказка названия класса)	14.9	34.2	44.6	47.1	17.6
Фиксированная подсказка LLM	21.6	37.3	50.2	51.4	19.8
DualCoOp	16.2	33.2	49.0	40.5	15.0
Предложенный метод	32.7	46.6	56.6	53.8	25.1

Абляционные эксперименты

Анализ компонента временного моделирования:

Количество временных блоков: 4 блока достигают оптимальной производительности
Регуляризация весов: Значительно предотвращает переобучение, сохраняя производительность открытого словаря
Замораживание основной части CLIP: Избегает серьёзного переобучения

Анализ компонента кодировщика меток:

Комбинация LLM + обучаемая подсказка + трансформатор подсказки достигает оптимальной производительности
Удаление текстового кодировщика CLIP приводит к значительному снижению производительности
Обучаемая подсказка превосходит фиксированную подсказку

Анализ калибровки оценок

Предложенный метод достигает лучшей калибровки оценок между различными типами концепций, позволяя единому порогу достичь хорошей производительности на множественных концепциях, что имеет решающее значение для практических приложений.

Связанные работы

Обучение визуально-языковым представлениям

Успех крупномасштабных моделей изображение-язык, таких как CLIP
Предварительное обучение видео-язык обычно основано на адаптации предварительно обученных моделей изображение-язык

Классификация с открытым словарём

Регуляризованная тонкая настройка и обучение подсказкам являются основными методами
Существующие работы в основном сосредоточены на задачах с одной меткой или распознавании изображений

Применение LLM в компьютерном зрении

LLM используются для генерации дескрипторов классов для улучшения классификации
Мультимодальные модели выравнивают визуальные представления с входным пространством LLM

Заключение и обсуждение

Основные выводы

Предложен первый метод классификации видео с открытым словарём и множественными метками
Полностью обучаемая архитектура, управляемая LLM, значительно повышает производительность
Техники временного моделирования и регуляризации успешно балансируют производительность тонкой настройки и способность открытого словаря

Ограничения

Зависимость от качества предварительно обученных VLM и LLM
Охват концепций в наборе обучающих данных всё ещё ограничен
Вычислительные затраты увеличиваются по сравнению с базовой моделью CLIP

Будущие направления

Исследование более эффективных архитектур временного моделирования
Изучение лучших методов выравнивания LLM-VLM
Расширение на дополнительные задачи понимания видео

Глубокая оценка

Преимущества

Инновативное определение проблемы: Первое систематическое определение и решение задачи классификации видео с открытым словарём и множественными метками
Полная техническая схема: Одновременное решение двух основных вызовов — кодирования меток и временного моделирования видео
Полные эксперименты: Комплексная оценка на нескольких наборах данных, включая подробные абляционные эксперименты
Высокая практическая ценность: Метод обладает хорошей масштабируемостью, поддерживает динамическое добавление новых классов при выводе

Недостатки

Вычислительная сложность: Увеличение вычислительных затрат по сравнению с базовыми методами
Зависимость от данных: Производительность по-прежнему зависит от качества и разнообразия обучающих данных
Способность к обобщению: Производительность на экстремальных внедоменных данных требует дальнейшей проверки

Влияние

Академический вклад: Предоставляет новое направление исследований и эталоны для области понимания видео
Практическая ценность: Предоставляет осуществимое техническое решение для практических видеоприложений
Воспроизводимость: Предоставляет подробные детали реализации и экспериментальные установки

Применимые сценарии

Анализ и аннотирование видеоконтента
Системы поиска и рекомендации видео
Распознавание нескольких объектов в видеонаблюдении
Автоматическая классификация образовательных видео

Библиография

Статья цитирует 68 связанных работ, охватывающих несколько смежных областей, включая обучение визуально-языковым представлениям, классификацию с открытым словарём и применение больших языковых моделей, обеспечивая прочную теоретическую основу для данного исследования.