Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
academic
Бутстрепинг многообъектного отслеживания с указанием
В данной работе предлагается новая задача понимания видео — указывающее многообъектное отслеживание (Referring Multi-Object Tracking, RMOT), целью которого является направление прогнозирования многообъектного отслеживания с использованием выражений на естественном языке в качестве семантических подсказок, всесторонне учитывая изменения количества объектов и временную семантику. Авторы построили эталонный набор данных Refer-KITTI-V2, содержащий 9758 разнообразных языковых выражений, и предложили структуру TempRMOT, которая реализует долгосрочное пространственно-временное взаимодействие через модуль временного усиления, управляемый запросами. TempRMOT достигает оптимальной производительности как на Refer-KITTI, так и на Refer-KITTI-V2.
Существующие задачи указывающего понимания (Referring Understanding) имеют два основных ограничения:
Ограничение на один объект: Существующие наборы данных (такие как серия RefCOCO, Refer-DAVIS17) аннотируют только один объект на выражение, тогда как в реальных сценариях одно выражение может относиться к нескольким, одному или нулевому количеству объектов
Отсутствие временной согласованности: Существующие методы не могут моделировать временную согласованность между языковыми выражениями и эволюцией состояния объектов. Например, выражение "автомобиль, который поворачивает" описывает мгновенное состояние, но аннотация будет продолжать отслеживать объект даже после завершения маневра поворота
Языковое руководство в понимании видео является ключевой задачей для связи естественного языка с визуальным содержимым
В практических приложениях, таких как автономное вождение, необходимо одновременно отслеживать несколько динамических объектов с помощью языковых инструкций
Точное моделирование временной динамики критически важно для понимания семантики, связанной с движением
Предложена новая задача RMOT: Впервые систематически расширено указывающее понимание на многообъектные динамические сценарии с учётом временных изменений состояния
Построен набор данных Refer-KITTI-V2:
Содержит 9758 выражений, 7193 уникальных выражения, 617 различных словарных единиц
Разработан трёхэтапный полуавтоматический процесс аннотирования, объединяющий генерацию выражений с помощью LLM
Включает неявные выражения (такие как "эго-автомобиль находится позади чёрного автомобиля")
Предложена структура TempRMOT:
Сквозная архитектура Transformer без постобработки
Модуль временного усиления, управляемый запросами, для реализации долгосрочного пространственно-временного взаимодействия
Развязанные запросы отслеживания и запросы обнаружения для обработки переменного количества объектов
Достигнута производительность SOTA:
Улучшение примерно на 4% HOTA по сравнению с предыдущей работой на Refer-KITTI-V2
Достижение 52,21% HOTA на Refer-KITTI
Разработан эффективный процесс аннотирования: Трёхэтапный полуавтоматический метод значительно снижает затраты на ручной труд
Входные данные: Видеопоследовательность (T кадров) + выражение на естественном языке
Выходные данные: Ограничивающие рамки и ID всех объектов, соответствующих описанию выражения, в каждом кадре
Ограничения:
Количество объектов переменно (от 0 до множества)
Аннотирование только в те временные периоды, когда объект соответствует описанию выражения
Необходимо сохранять временную согласованность связей ID
Языковое кодирование: RoBERTa кодирует текст в словесные вложения S∈RL×D
Кроссмодальный кодировщик (стратегия ранней интеграции):
Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSI^tl=dQKTV+Itl
где PV и PL — позиционные кодирования для визуальной и языковой модальностей соответственно. После интеграции через слой деформируемого кодировщика:
Etl=DeformEnc(I^tl)
Декодер (двойной механизм запросов):
Запросы отслеживанияQttra: Преобразованы из вложений декодера предыдущего кадра Dt−1, используются для связи уже отслеживаемых экземпляров
Запросы обнаруженияQdet: Случайно инициализированы, используются для обнаружения новых появляющихся объектов
Ранняя кроссмодальная интеграция: По сравнению с плотными соединениями MDETR, использует эффективную стратегию взвешивания внимания, снижая вычислительную сложность
Развязанный двойной дизайн запросов:
Запросы отслеживания наследуют историческую информацию, обеспечивая согласованность ID
Запросы обнаружения обрабатывают новые объекты, повышая гибкость
Управляемое запросами моделирование времени:
Использует компактное представление запроса вместо исходных признаков для временной агрегации
Разделяет механизмы внимания для временного и пространственного измерений
Поддерживает долгосрочные зависимости (до 8 кадров истории)
Полностью дифференцируемый конец в конец: Не требует постобработки типа NMS, прямой вывод финального результата
Инструкция "left cars which are parking": TempRMOT правильно определяет припаркованные автомобили, TransRMOT ошибочно помечает пешеходов как припаркованные
Инструкция "right persons who are walking": TempRMOT точно понимает состояние движения
Способность к надёжному отслеживанию:
Инструкция "cars in front of ours": TransRMOT демонстрирует переключение ID и потерю отслеживания, TempRMOT сохраняет согласованную связь ID
Понимание сложной семантики:
Обработка неявных выражений "the ego car is positioned after the black cars"
Важность временного моделирования: Значительное улучшение метрики AssA (+5,53%) подтверждает, что долгосрочные временные зависимости критически важны для качества отслеживания
Преимущество конца в конец: Одноэтапные методы в целом превосходят двухэтапные методы, совместная оптимизация более эффективна
Влияние языковой сложности: Снижение производительности на Refer-KITTI-V2 отражает вызовы, создаваемые более богатой семантикой
Обобщаемость механизма памяти: При выводе можно использовать более длинное историческое окно, чем при обучении
Эффективность представления запроса: По сравнению с исходными признаками, представление запроса более компактно и сохраняет ключевую информацию
Задача RMOT более универсальна: Преодолевает ограничение на один объект, учитывает временную динамику, лучше соответствует реальным требованиям
Высокое качество Refer-KITTI-V2: Благодаря полуавтоматическому процессу и LLM достигнут баланс между масштабом и разнообразием
Эффективность TempRMOT: Модуль временного усиления значительно повышает производительность, достигая SOTA на обоих эталонах
Критичность долгосрочных зависимостей: Явное моделирование пространственно-временного взаимодействия критически важно для точного отслеживания и семантического выравнивания
Масштаб набора данных: Хотя выражения разнообразны, количество видео (21) относительно ограничено, разнообразие сцен ограничено
Вычислительная сложность: Хотя использование представления запроса снижает затраты, память на несколько кадров всё ещё требует дополнительных вычислений
Глубина понимания языка: Для чрезвычайно сложного логического вывода (таких как множественные отрицания, сложные причинно-следственные связи) остаются вызовы
Обработка окклюзии: Статья не обсуждает подробно стратегии обработки сценариев с серьёзной окклюзией
Реальное время: Не сообщаются показатели реальной производительности, такие как FPS, реальная осуществимость развёртывания неясна
Способность к обобщению: Проверка проведена только на сценариях KITTI (сценарии вождения), способность к обобщению на другие области (такие как пешеходы, спорт) неизвестна
Wu et al. (2023) - TransRMOT: Первый метод RMOT и набор данных Refer-KITTI
Du et al. (2024) - iKUN: Отслеживатель без переобучения
Ma et al. (2024) - MLS-Track: Взаимодействие многоуровневой семантики
Отслеживание на основе Transformer:
4. Zeng et al. (2022) - MOTR: Сквозное многообъектное отслеживание
5. Zhu et al. (2020) - Deformable DETR: Деформируемое внимание
6. Gao & Wang (2023) - MeMOTR: Усиление отслеживания долгосрочной памятью
Указывающее понимание:
7. Yu et al. (2016) - Наборы данных серии RefCOCO
8. Kamath et al. (2021) - MDETR: Многомодальное обнаружение
Метрики оценки:
9. Luiten et al. (2020) - HOTA: Точность отслеживания высокого порядка
Общая оценка: Это высококачественная статья в области компьютерного зрения с существенными инновациями в определении задачи, построении набора данных и дизайне метода. Задача RMOT имеет важное теоретическое значение и практическую ценность, Refer-KITTI-V2 предоставляет сообществу ценный ресурс, структура TempRMOT разумно спроектирована и эффективна. Основные недостатки заключаются в ограничениях сценариев и неизвестной реальной производительности. Рекомендуется, чтобы последующие работы расширили применение на больше областей и провели более глубокий теоретический анализ. Эта статья, вероятно, станет важным справочным материалом в области языкового руководства в понимании видео.