Pre-trained vision-language models (VLMs) have enabled significant progress in open vocabulary computer vision tasks such as image classification, object detection and image segmentation. Some recent works have focused on extending VLMs to open vocabulary single label action classification in videos. However, previous methods fall short in holistic video understanding which requires the ability to simultaneously recognize multiple actions and entities e.g., objects in the video in an open vocabulary setting. We formulate this problem as open vocabulary multilabel video classification and propose a method to adapt a pre-trained VLM such as CLIP to solve this task. We leverage large language models (LLMs) to provide semantic guidance to the VLM about class labels to improve its open vocabulary performance with two key contributions. First, we propose an end-to-end trainable architecture that learns to prompt an LLM to generate soft attributes for the CLIP text-encoder to enable it to recognize novel classes. Second, we integrate a temporal modeling module into CLIP's vision encoder to effectively model the spatio-temporal dynamics of video concepts as well as propose a novel regularized finetuning technique to ensure strong open vocabulary classification performance in the video domain. Our extensive experimentation showcases the efficacy of our approach on multiple benchmark datasets.
academic
Классификация видео с открытым словарём и множественными метками
Предварительно обученные визуально-языковые модели (VLM) достигли значительного прогресса в задачах компьютерного зрения с открытым словарём, таких как классификация изображений, обнаружение объектов и сегментация изображений. Некоторые недавние работы сосредоточены на расширении VLM на классификацию действий с открытым словарём и одной меткой в видео. Однако предыдущие методы недостаточны для комплексного понимания видео и не могут одновременно распознавать несколько действий и сущностей (например, объектов) в условиях открытого словаря. В данной работе эта задача определяется как классификация видео с открытым словарём и множественными метками, и предлагается метод адаптации предварительно обученной VLM (такой как CLIP) для решения этой задачи. Мы используем большие языковые модели (LLM) для предоставления семантического руководства VLM относительно меток классов, повышая производительность открытого словаря посредством двух ключевых вкладов. Во-первых, предлагается полностью обучаемая архитектура, которая учится подсказывать LLM для генерации мягких атрибутов для текстового кодировщика CLIP, позволяя ему распознавать новые классы. Во-вторых, модуль временного моделирования интегрируется в визуальный кодировщик CLIP для эффективного моделирования пространственно-временной динамики видеоконцепций, и предлагается новая техника регуляризации при тонкой настройке, обеспечивающая сохранение надёжной производительности классификации с открытым словарём в видеодомене.
Традиционные методы классификации видео имеют следующие ограничения:
Ограничение словаря: Классические методы требуют предварительного знания всех возможных классов, модель может обучаться только под контролем на помеченных наборах данных
Высокие затраты на аннотирование: Процесс ручного аннотирования является трудоёмким, что приводит к тому, что наборы видеоданных обычно ограничиваются конкретными областями (например, конкретные виды спорта или простые действия)
Распознавание единственной концепции: Существующие методы открытого словаря в основном сосредоточены на классификации с одной меткой и не могут одновременно распознавать несколько концепций в видео
С широким распространением видеоприложений необходимо разработать видеомодели, способные распознавать широкий спектр концепций. Основная мотивация данной работы заключается в:
Использовании преимуществ предварительного обучения VLM на крупномасштабных парах изображение-текст
Объединении богатого мирового знания LLM для улучшения семантического понимания
Реализации одновременного распознавания нескольких видеоконцепций (действий, объектов, сцен и т.д.) в условиях открытого словаря
Проблема оценки сходства в условиях множественных меток: Диапазоны оценок сходства VLM для различных типов концепций (например, действий, объектов) различаются
Временное моделирование: Модели предварительного обучения изображение-язык не обладают способностью моделировать временную динамику видео
Сохранение производительности открытого словаря: При тонкой настройке на видеоданных легко происходит переобучение, что приводит к потере способности к обобщению
Полностью обучаемый кодировщик меток: Предлагается метод обучения подсказыванию LLM для генерации мягких атрибутов для текстового кодировщика VLM, реализующий классификацию видео с открытым словарём и множественными метками
Визуальный кодировщик с временным улучшением: Интеграция возможностей временного моделирования в предварительно обученный визуальный кодировщик VLM при сохранении сильной производительности открытого словаря
Новый эталонный набор данных: Определение эталонов классификации видео с открытым словарём и множественными метками на 5 наборах данных с сравнением 6 сильных базовых методов
Значительное улучшение производительности: Значительное превосходство над базовыми методами на нескольких эталонных наборах данных
Входные данные: Последовательность видео и набор меток классов из открытого словаря
Выходные данные: Вероятность присутствия каждой метки в видео
Ограничения: Модель должна обрабатывать новые классы, не встречавшиеся во время обучения, при выводе
Разработка шаблона подсказки для запроса LLM генерировать полезные характеристики для визуального различения классов
Вывод LLM анализируется как список атрибутов, который вместе с названием класса подсказывается текстовому кодировщику CLIP
Вложение текста, улучшенное атрибутами, генерируется посредством усреднения пула
Полностью обучаемая подсказка LLM:
Для решения проблемы необучаемости метода фиксированной подсказки предлагается следующая архитектура:
Обучаемый префикс: N d-мерных обучаемых векторов в качестве префикса подсказки LLM
Трансформатор подсказки: Отображение выходного семантического пространства LLM в семантическое пространство входа CLIP
Генерация мягких атрибутов: Запуск K_L итераций декодирования для каждого префикса, генерирующих K подпоследовательностей из L токенов в качестве мягких атрибутов
Добавление параллельной ветви временного моделирования в последние T слоёв визуального кодировщика CLIP
Замораживание визуальной ветви CLIP, обучение только новым временным слоям
Каждый временной блок содержит:
Слой пространственного внимания, инициализированный из весов CLIP
Слой временного внимания со случайной инициализацией
Стратегия регуляризации весов:
Для сохранения нулевой производительности выборки используется регуляризация случайных весов для слоёв пространственного внимания:
θ = αθ_ft + (1-α)θ_frozen, где α ~ U(0, λ)
Генерация вложения видео:
Общее вложение видео генерируется посредством усреднения пула окончательного временного токена (TMP) и токенов CLS каждого кадра.
Предложенный метод достигает лучшей калибровки оценок между различными типами концепций, позволяя единому порогу достичь хорошей производительности на множественных концепциях, что имеет решающее значение для практических приложений.
Инновативное определение проблемы: Первое систематическое определение и решение задачи классификации видео с открытым словарём и множественными метками
Полная техническая схема: Одновременное решение двух основных вызовов — кодирования меток и временного моделирования видео
Полные эксперименты: Комплексная оценка на нескольких наборах данных, включая подробные абляционные эксперименты
Высокая практическая ценность: Метод обладает хорошей масштабируемостью, поддерживает динамическое добавление новых классов при выводе
Статья цитирует 68 связанных работ, охватывающих несколько смежных областей, включая обучение визуально-языковым представлениям, классификацию с открытым словарём и применение больших языковых моделей, обеспечивая прочную теоретическую основу для данного исследования.