2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.

Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.

academic

Бутстрепинг многообъектного отслеживания с указанием

Основная информация

ID статьи: 2406.05039
Название: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
Авторы: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
Классификация: cs.CV cs.CL
Дата публикации: 27 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2406.05039
Код и наборы данных: https://github.com/zyn213/TempRMOT

Аннотация

В данной работе предлагается новая задача понимания видео — указывающее многообъектное отслеживание (Referring Multi-Object Tracking, RMOT), целью которого является направление прогнозирования многообъектного отслеживания с использованием выражений на естественном языке в качестве семантических подсказок, всесторонне учитывая изменения количества объектов и временную семантику. Авторы построили эталонный набор данных Refer-KITTI-V2, содержащий 9758 разнообразных языковых выражений, и предложили структуру TempRMOT, которая реализует долгосрочное пространственно-временное взаимодействие через модуль временного усиления, управляемый запросами. TempRMOT достигает оптимальной производительности как на Refer-KITTI, так и на Refer-KITTI-V2.

Исследовательский контекст и мотивация

Проблемы, требующие решения

Существующие задачи указывающего понимания (Referring Understanding) имеют два основных ограничения:

Ограничение на один объект: Существующие наборы данных (такие как серия RefCOCO, Refer-DAVIS17) аннотируют только один объект на выражение, тогда как в реальных сценариях одно выражение может относиться к нескольким, одному или нулевому количеству объектов
Отсутствие временной согласованности: Существующие методы не могут моделировать временную согласованность между языковыми выражениями и эволюцией состояния объектов. Например, выражение "автомобиль, который поворачивает" описывает мгновенное состояние, но аннотация будет продолжать отслеживать объект даже после завершения маневра поворота

Важность проблемы

Языковое руководство в понимании видео является ключевой задачей для связи естественного языка с визуальным содержимым
В практических приложениях, таких как автономное вождение, необходимо одновременно отслеживать несколько динамических объектов с помощью языковых инструкций
Точное моделирование временной динамики критически важно для понимания семантики, связанной с движением

Ограничения существующих методов

На уровне наборов данных:
- Ручная аннотация в сочетании с фиксированными шаблонами ограничивает языковое разнообразие
- Серьёзная семантическая избыточность (например, Refer-Dance содержит только 48 уникальных выражений)
- Отсутствие неявных выражений и сложной семантики (таких как отрицательные описания)
На уровне методов:
- Двухэтапные методы имеют высокую сложность и вычислительные затраты
- Одноэтапные методы в основном сосредоточены на соседних кадрах, не хватает способности долгосрочного временного моделирования

Основные вклады

Предложена новая задача RMOT: Впервые систематически расширено указывающее понимание на многообъектные динамические сценарии с учётом временных изменений состояния
Построен набор данных Refer-KITTI-V2:
- Содержит 9758 выражений, 7193 уникальных выражения, 617 различных словарных единиц
- Разработан трёхэтапный полуавтоматический процесс аннотирования, объединяющий генерацию выражений с помощью LLM
- Включает неявные выражения (такие как "эго-автомобиль находится позади чёрного автомобиля")
Предложена структура TempRMOT:
- Сквозная архитектура Transformer без постобработки
- Модуль временного усиления, управляемый запросами, для реализации долгосрочного пространственно-временного взаимодействия
- Развязанные запросы отслеживания и запросы обнаружения для обработки переменного количества объектов
Достигнута производительность SOTA:
- Улучшение примерно на 4% HOTA по сравнению с предыдущей работой на Refer-KITTI-V2
- Достижение 52,21% HOTA на Refer-KITTI
Разработан эффективный процесс аннотирования: Трёхэтапный полуавтоматический метод значительно снижает затраты на ручной труд

Подробное описание метода

Определение задачи

Входные данные: Видеопоследовательность (T кадров) + выражение на естественном языке Выходные данные: Ограничивающие рамки и ID всех объектов, соответствующих описанию выражения, в каждом кадре Ограничения:

Количество объектов переменно (от 0 до множества)
Аннотирование только в те временные периоды, когда объект соответствует описанию выражения
Необходимо сохранять временную согласованность связей ID

Архитектура модели

TempRMOT состоит из двух основных компонентов:

1. Модуль RMOT на основе Transformer

Извлечение признаков:

Визуальное кодирование: CNN-основа извлекает многомасштабные признаки $I^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}$
Языковое кодирование: RoBERTa кодирует текст в словесные вложения $S \in \mathbb{R}^{L \times D}$

Кроссмодальный кодировщик (стратегия ранней интеграции): $Q = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vS$ $\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t$

где $P_V$ и $P_L$ — позиционные кодирования для визуальной и языковой модальностей соответственно. После интеграции через слой деформируемого кодировщика: $E^l_t = \text{DeformEnc}(\hat{I}^l_t)$

Декодер (двойной механизм запросов):

Запросы отслеживания $Q^{tra}_t$ : Преобразованы из вложений декодера предыдущего кадра $D_{t-1}$ , используются для связи уже отслеживаемых экземпляров
Запросы обнаружения $Q^{det}$ : Случайно инициализированы, используются для обнаружения новых появляющихся объектов

$Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))$

Указывающая головка: Содержит три ветви

Ветвь классификации: Бинарная классификация (реальный объект/пустой объект)
Ветвь ограничивающей рамки: Регрессия координат через 3-слойную FFN
Ветвь указания: Выходная вероятность совпадения с выражением

2. Модуль временного усиления

Механизм памяти запросов:

Поддерживает очередь памяти размером $N \times K$ (N кадров, K объектов на кадр)
Обновление по принципу FIFO, сохранение постоянного потребления памяти

Временный декодер (4 слоя): Агрегирует историческую информацию через кроссфреймовое внимание: $Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))$

где $\tau_h$ — размер временного окна, $\text{Pos}$ кодирует временную позицию.

Декодер объектов (4 слоя): Моделирует пространственное взаимодействие через кроссобъектное внимание: $Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))$

Уточнение траектории: Использует MLP для предсказания остаточных корректировок: $B_t = B_t + \text{MLP}(Q^S_t)$

где $Q^S_t$ — признаки запроса после пространственно-временного усиления.

Технические инновации

Ранняя кроссмодальная интеграция: По сравнению с плотными соединениями MDETR, использует эффективную стратегию взвешивания внимания, снижая вычислительную сложность
Развязанный двойной дизайн запросов:
- Запросы отслеживания наследуют историческую информацию, обеспечивая согласованность ID
- Запросы обнаружения обрабатывают новые объекты, повышая гибкость
Управляемое запросами моделирование времени:
- Использует компактное представление запроса вместо исходных признаков для временной агрегации
- Разделяет механизмы внимания для временного и пространственного измерений
- Поддерживает долгосрочные зависимости (до 8 кадров истории)
Полностью дифференцируемый конец в конец: Не требует постобработки типа NMS, прямой вывод финального результата

Экспериментальная установка

Наборы данных

Refer-KITTI:

18 видео, 895 выражений
Обучающий набор: 15 видео/660 выражений
Тестовый набор: 3 видео/158 выражений

Refer-KITTI-V2:

21 видео, 9758 выражений
Обучающий набор: 17 видео/8873 выражения
Тестовый набор: 4 видео/897 выражений
Особенности: 7193 уникальных выражения, 617 различных словарных единиц, включение неявных выражений

KITTI: Используется для оценки универсальных возможностей MOT

Процесс построения набора данных

Этап 1: Сбор языковых элементов

Аннотирование базовых атрибутов: класс (автомобиль/люди), цвет (чёрный/красный), позиция (слева/справа), действие (движение/поворот)
Автоматическое распространение аннотаций с использованием ID экземпляров KITTI

Этап 2: Генерация выражений

Использование предопределённых шаблонов для комбинирования языковых элементов
Пример: "{color}-{action}-cars" → "black turning cars"
Связывание ограничивающих рамок через операцию AND

Этап 3: Расширение выражений

Использование GPT-3.5 для генерации 4 семантически эквивалентных переформулировок каждого выражения
Двухэтапная проверка: проверка LLM + ручная проверка
Расширение с 2719 до 9758 выражений

Метрики оценки

HOTA (Higher Order Tracking Accuracy): $\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}$

DetA (Detection Accuracy): Оценка обнаружения IoU на уровне кадра
AssA (Association Accuracy): Оценка связи IoU во времени
Другие метрики: DetRe, DetPr, AssRe, AssPr, LocA

Методы сравнения

Двухэтапные методы:

FairMOT, DeepSORT, ByteTrack, CStrack
TransTrack, TrackFormer
iKUN

Одноэтапные методы:

EchoTrack, DeepRMOT
TransRMOT (предыдущая работа)
MLS-Track

Детали реализации

Основная сеть: ResNet-50 (визуальная) + RoBERTa (текстовая)
Оптимизатор: Adam, скорость обучения 1e-5 (основа 1e-5)
Обучение: 60 эпох, размер пакета=1, 4×RTX 4090
Увеличение данных: Случайное обрезание, многомасштабность (800-1536)
Длина памяти: Refer-KITTI N=4, Refer-KITTI-V2 N=5
Пороги вывода: Классификация 0,6, указание 0,4
Веса потерь: $\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2$

Результаты экспериментов

Основные результаты

Производительность на Refer-KITTI:

Метод	E2E	HOTA	DetA	AssA	DetRe	DetPr
iKUN	✗	48,84	35,74	66,80	51,97	52,25
TransRMOT	✓	46,56	37,97	57,33	49,69	60,10
MLS-Track	✓	49,05	40,03	60,25	59,07	54,18
TempRMOT	✓	52,21	40,95	66,75	55,65	59,25

Улучшение на 3,16% HOTA по сравнению с MLS-Track
Полное лидерство среди методов конца в конец

Производительность на Refer-KITTI-V2:

Метод	HOTA	DetA	AssA
iKUN	10,32	2,17	49,77
TransRMOT	31,00	19,40	49,68
TempRMOT	35,04	22,97	53,58

Улучшение на 4,04% HOTA по сравнению с TransRMOT
Подтверждение эффективности в более сложных языковых сценариях

Производительность на KITTI:

Метод	HOTA	AssA
TransRMOT	61,52	66,51
TempRMOT	63,47	72,04

Улучшение AssA на 5,53%, подтверждающее эффективность временного моделирования

Абляционные исследования

Эффективность модулей (Refer-KITTI-V2):

Temp.	Refine	HOTA	DetA	AssA
✗	✗	31,00	19,40	49,68
✓	✗	34,46	22,73	52,37
✓	✓	35,04	22,97	53,58

Модуль временного усиления обеспечивает наибольший вклад (+3,46% HOTA)
Уточнение траектории дополнительно повышает производительность (+0,58% HOTA)

Длина памяти при обучении:

$N_t$	HOTA	DetA	AssA
3	33,64	21,96	51,66
4	34,41	22,43	52,90
5	34,72	22,59	53,49

Более длинный исторический контекст обеспечивает постоянное улучшение

Длина памяти при выводе:

$N_i$	HOTA	DetA	AssA
5	34,72	22,59	53,49
6	34,78	22,73	53,32
8	35,04	22,97	53,58

Использование более длинной памяти при выводе может дополнительно повысить производительность
Демонстрирует способность к обобщению временного модуля

Анализ случаев

Способность к пониманию движения:

Инструкция "left cars which are parking": TempRMOT правильно определяет припаркованные автомобили, TransRMOT ошибочно помечает пешеходов как припаркованные
Инструкция "right persons who are walking": TempRMOT точно понимает состояние движения

Способность к надёжному отслеживанию:

Инструкция "cars in front of ours": TransRMOT демонстрирует переключение ID и потерю отслеживания, TempRMOT сохраняет согласованную связь ID

Понимание сложной семантики:

Обработка неявных выражений "the ego car is positioned after the black cars"
Понимание отрицательных описаний "pedestrians lacking hair"
Комбинирование множественных атрибутов "the men are on the right side and they have t-shirts on"

Экспериментальные находки

Важность временного моделирования: Значительное улучшение метрики AssA (+5,53%) подтверждает, что долгосрочные временные зависимости критически важны для качества отслеживания
Преимущество конца в конец: Одноэтапные методы в целом превосходят двухэтапные методы, совместная оптимизация более эффективна
Влияние языковой сложности: Снижение производительности на Refer-KITTI-V2 отражает вызовы, создаваемые более богатой семантикой
Обобщаемость механизма памяти: При выводе можно использовать более длинное историческое окно, чем при обучении
Эффективность представления запроса: По сравнению с исходными признаками, представление запроса более компактно и сохраняет ключевую информацию

Связанные работы

Эталонные наборы данных RMOT

Ограничения существующих наборов данных:

Серия RefCOCO: Только изображения, один объект
Talk2Car, VID-Sentence: Видео, но один объект
Refer-DAVIS17, Refer-YV: Пиксельная сегментация, один объект

Сравнение наборов данных RMOT:

Набор данных	Видео	Словарь	Выражения	Уникальные выражения	Неявные выражения
Refer-KITTI	18	49	895	215	✗
GroOT*	14	260	1547	1161	✗
Refer-Dance	65	25	1985	48	✗
Refer-KITTI-V2	21	617	9758	7193	✓

Методы RMOT

Двухэтапные методы:

Сначала извлекают траектории, затем сопоставляют выражения
Преимущества: Детальная обработка
Недостатки: Высокая сложность, большие вычислительные затраты

Одноэтапные методы:

Сквозная архитектура Transformer
TransRMOT: Первая модель RMOT
Ограничения: Основное внимание на соседних кадрах, отсутствие долгосрочного моделирования

Управляемое запросами временное моделирование

Связанные работы:

MeMOT: Модуль памяти для хранения исторических запросов
MeMOTR: Усиление временного контекста для запросов отслеживания
BEVFormer: Пространственно-временной Transformer для представления BEV

Инновации в данной работе:

Сосредоточение на понимании видео с языковыми условиями
Разделение временного и пространственного внимания
Совместный вывод с текущими пространственными признаками кадра

Заключение и обсуждение

Основные выводы

Задача RMOT более универсальна: Преодолевает ограничение на один объект, учитывает временную динамику, лучше соответствует реальным требованиям
Высокое качество Refer-KITTI-V2: Благодаря полуавтоматическому процессу и LLM достигнут баланс между масштабом и разнообразием
Эффективность TempRMOT: Модуль временного усиления значительно повышает производительность, достигая SOTA на обоих эталонах
Критичность долгосрочных зависимостей: Явное моделирование пространственно-временного взаимодействия критически важно для точного отслеживания и семантического выравнивания

Ограничения

Масштаб набора данных: Хотя выражения разнообразны, количество видео (21) относительно ограничено, разнообразие сцен ограничено
Вычислительная сложность: Хотя использование представления запроса снижает затраты, память на несколько кадров всё ещё требует дополнительных вычислений
Глубина понимания языка: Для чрезвычайно сложного логического вывода (таких как множественные отрицания, сложные причинно-следственные связи) остаются вызовы
Обработка окклюзии: Статья не обсуждает подробно стратегии обработки сценариев с серьёзной окклюзией
Реальное время: Не сообщаются показатели реальной производительности, такие как FPS, реальная осуществимость развёртывания неясна
Способность к обобщению: Проверка проведена только на сценариях KITTI (сценарии вождения), способность к обобщению на другие области (такие как пешеходы, спорт) неизвестна

Будущие направления

Расширение на большее количество сценариев: Построение наборов данных RMOT, охватывающих больше областей
Повышение реальной производительности: Оптимизация структуры модели для достижения отслеживания в реальном времени
Усиление понимания языка: Введение более мощных языковых моделей (таких как GPT-4)
Расширение на 3D: Объединение данных облака точек, расширение на 3D RMOT
Интерактивное отслеживание: Поддержка реальной коррекции и обратной связи пользователя

Глубокая оценка

Преимущества

1. Определение задачи имеет дальновидный характер

Задача RMOT заполняет пробел в многообъектном + временной динамике
Моделирование временной согласованности (такое как мгновенное состояние "поворота") очень практично
Предоставляет новую парадигму для языкового руководства в автономном вождении

2. Научное и эффективное построение набора данных

Трёхэтапный полуавтоматический процесс балансирует качество и эффективность
Генерация с помощью LLM значительно повышает разнообразие (7193 уникальных выражения)
Введение неявных выражений увеличивает сложность и реалистичность

3. Разумный дизайн метода

Стратегия ранней интеграции снижает вычислительную сложность
Развязанный двойной дизайн запросов балансирует историческую связь и обнаружение новых объектов
Механизм внимания с разделением пространства и времени ясен и эффективен

4. Полные эксперименты

Проверка на трёх наборах данных
Подробные абляционные исследования, количественно определяющие вклад каждого модуля
Богатые визуализированные примеры, демонстрирующие возможности модели

5. Ясное написание

Логика строгая, от мотивации к методу к экспериментам слой за слоем
Богатые графики (10 рисунков, 5 таблиц), высокая плотность информации
Полные технические детали, сильная воспроизводимость

Недостатки

1. Ограничения набора данных

Малое количество видео (21), единственный сценарий (только вождение)
Хотя выражений много, они основаны на ограниченной комбинации языковых элементов, глубокое семантическое разнообразие недостаточно
Отсутствие экстремальных погодных условий, ночных сценариев и других сложных ситуаций

2. Ограничения метода

Фиксированная длина памяти (N=5), невозможна адаптивная регулировка
Не обрабатывает неоднозначность выражений (такую как неоднозначность "левого автомобиля" в разных перспективах)
Отсутствует оценка неопределённости, невозможно количественно определить уверенность предсказания

3. Недостаточные эксперименты

Не сообщается скорость вывода (FPS), реальная производительность неясна
Отсутствуют эксперименты кроссдатасетного обобщения (такие как тестирование на Refer-Dance)
Отсутствует сравнение с новейшими моделями визуально-языкового понимания (такими как CLIP, BLIP-2)
Анализ ошибок недостаточно глубокий, не статистицированы основные режимы отказа

4. Отсутствие теоретического анализа

Не объясняется с теоретической точки зрения, почему временное моделирование эффективно
Отсутствует визуализация весов внимания для анализа
Не обсуждается динамика обучения модели и сходимость

5. Недостаточное обсуждение социального воздействия

Не обсуждаются проблемы конфиденциальности (этические проблемы отслеживания пешеходов)
Не анализируются потенциальные предубеждения (такие как предубеждения в распознавании определённых групп населения)

Влияние

Вклад в область:

На уровне задачи: Задача RMOT станет важным направлением в понимании видео, уже есть несколько последующих работ, ссылающихся на неё
На уровне данных: Refer-KITTI-V2 предоставляет сообществу высокачественный эталон, открытый код и данные способствуют исследованиям
На уровне метода: Дизайн модуля временного усиления может быть перенесён на другие задачи видео

Практическая ценность:

Автономное вождение: Поддержка управления транспортными средствами с помощью языковых инструкций ("Следуй за красным автомобилем впереди")
Интеллектуальное наблюдение: Поиск многообъектных целей на основе описания ("Пешеход в красной одежде")
Взаимодействие человека и машины: Языковое руководство видеомонтажа

Воспроизводимость:

Код и наборы данных открыты (https://github.com/zyn213/TempRMOT)
Полные детали реализации (гиперпараметры, стратегии обучения и т.д.)
Основано на зрелой структуре (Deformable DETR), легко воспроизводится

Ожидаемое влияние:

Краткосрочное (1-2 года): Стимулирование большего количества наборов данных RMOT и методов
Среднесрочное (3-5 лет): Объединение с большими языковыми моделями для более сильного семантического понимания
Долгосрочное (5+ лет): Становление стандартным компонентом многомодальных систем автономного вождения

Применимые сценарии

Наиболее подходящие сценарии:

Автономное вождение: Языковое руководство отслеживания и планирования пути транспортных средств
Интеллектуальный транспорт: Обнаружение участников движения на основе описания ("Припаркованные с нарушением автомобили")
Видеонаблюдение: Поиск целей на основе естественного языка
Навигация робота: Языковое руководство отслеживания целей

Менее подходящие сценарии:

Высокоскоростные сценарии: Текущий метод может не удовлетворять требованиям реальной производительности
Экстремальная окклюзия: Отслеживание при серьёзной окклюзии остаётся вызовом
Открытые сценарии: Данные обучения ограничены сценариями вождения, способность к обобщению требует проверки
Детальные описания: Для чрезвычайно детальных описаний внешности (таких как "человек в синей полосатой рубашке") может быть недостаточно

Рекомендации по улучшению:

Расширение на больше сценариев (внутренние помещения, спорт, социальные мероприятия)
Оптимизация модели для повышения реальной производительности
Введение более мощных языковых моделей
Расширение на 3D RMOT с использованием облака точек
Поддержка активного обучения для адаптации к новым сценариям с минимальными аннотациями

Библиография

Ключевые ссылки

Связанные с RMOT:

Wu et al. (2023) - TransRMOT: Первый метод RMOT и набор данных Refer-KITTI
Du et al. (2024) - iKUN: Отслеживатель без переобучения
Ma et al. (2024) - MLS-Track: Взаимодействие многоуровневой семантики

Отслеживание на основе Transformer: 4. Zeng et al. (2022) - MOTR: Сквозное многообъектное отслеживание 5. Zhu et al. (2020) - Deformable DETR: Деформируемое внимание 6. Gao & Wang (2023) - MeMOTR: Усиление отслеживания долгосрочной памятью

Указывающее понимание: 7. Yu et al. (2016) - Наборы данных серии RefCOCO 8. Kamath et al. (2021) - MDETR: Многомодальное обнаружение

Метрики оценки: 9. Luiten et al. (2020) - HOTA: Точность отслеживания высокого порядка

Общая оценка: Это высококачественная статья в области компьютерного зрения с существенными инновациями в определении задачи, построении набора данных и дизайне метода. Задача RMOT имеет важное теоретическое значение и практическую ценность, Refer-KITTI-V2 предоставляет сообществу ценный ресурс, структура TempRMOT разумно спроектирована и эффективна. Основные недостатки заключаются в ограничениях сценариев и неизвестной реальной производительности. Рекомендуется, чтобы последующие работы расширили применение на больше областей и провели более глубокий теоретический анализ. Эта статья, вероятно, станет важным справочным материалом в области языкового руководства в понимании видео.