2025-11-14T19:01:11.711286

Bootstrapping Referring Multi-Object Tracking

Zhang, Wu, Han et al.
Referring understanding is a fundamental task that bridges natural language and visual content by localizing objects described in free-form expressions. However, existing works are constrained by limited language expressiveness, lacking the capacity to model object dynamics in spatial numbers and temporal states. To address these limitations, we introduce a new and general referring understanding task, termed referring multi-object tracking (RMOT). Its core idea is to employ a language expression as a semantic cue to guide the prediction of multi-object tracking, comprehensively accounting for variations in object quantity and temporal semantics. Along with RMOT, we introduce a RMOT benchmark named Refer-KITTI-V2, featuring scalable and diverse language expressions. To efficiently generate high-quality annotations covering object dynamics with minimal manual effort, we propose a semi-automatic labeling pipeline that formulates a total of 9,758 language prompts. In addition, we propose TempRMOT, an elegant end-to-end Transformer-based framework for RMOT. At its core is a query-driven Temporal Enhancement Module that represents each object as a Transformer query, enabling long-term spatial-temporal interactions with other objects and past frames to efficiently refine these queries. TempRMOT achieves state-of-the-art performance on both Refer-KITTI and Refer-KITTI-V2, demonstrating the effectiveness of our approach. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
academic

Бутстрепинг многообъектного отслеживания с указанием

Основная информация

  • ID статьи: 2406.05039
  • Название: Referring Multi-Object Tracking with Comprehensive Dynamic Expressions
  • Авторы: Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, Shengcai Liao, Bo Du
  • Классификация: cs.CV cs.CL
  • Дата публикации: 27 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2406.05039
  • Код и наборы данных: https://github.com/zyn213/TempRMOT

Аннотация

В данной работе предлагается новая задача понимания видео — указывающее многообъектное отслеживание (Referring Multi-Object Tracking, RMOT), целью которого является направление прогнозирования многообъектного отслеживания с использованием выражений на естественном языке в качестве семантических подсказок, всесторонне учитывая изменения количества объектов и временную семантику. Авторы построили эталонный набор данных Refer-KITTI-V2, содержащий 9758 разнообразных языковых выражений, и предложили структуру TempRMOT, которая реализует долгосрочное пространственно-временное взаимодействие через модуль временного усиления, управляемый запросами. TempRMOT достигает оптимальной производительности как на Refer-KITTI, так и на Refer-KITTI-V2.

Исследовательский контекст и мотивация

Проблемы, требующие решения

Существующие задачи указывающего понимания (Referring Understanding) имеют два основных ограничения:

  1. Ограничение на один объект: Существующие наборы данных (такие как серия RefCOCO, Refer-DAVIS17) аннотируют только один объект на выражение, тогда как в реальных сценариях одно выражение может относиться к нескольким, одному или нулевому количеству объектов
  2. Отсутствие временной согласованности: Существующие методы не могут моделировать временную согласованность между языковыми выражениями и эволюцией состояния объектов. Например, выражение "автомобиль, который поворачивает" описывает мгновенное состояние, но аннотация будет продолжать отслеживать объект даже после завершения маневра поворота

Важность проблемы

  • Языковое руководство в понимании видео является ключевой задачей для связи естественного языка с визуальным содержимым
  • В практических приложениях, таких как автономное вождение, необходимо одновременно отслеживать несколько динамических объектов с помощью языковых инструкций
  • Точное моделирование временной динамики критически важно для понимания семантики, связанной с движением

Ограничения существующих методов

  1. На уровне наборов данных:
    • Ручная аннотация в сочетании с фиксированными шаблонами ограничивает языковое разнообразие
    • Серьёзная семантическая избыточность (например, Refer-Dance содержит только 48 уникальных выражений)
    • Отсутствие неявных выражений и сложной семантики (таких как отрицательные описания)
  2. На уровне методов:
    • Двухэтапные методы имеют высокую сложность и вычислительные затраты
    • Одноэтапные методы в основном сосредоточены на соседних кадрах, не хватает способности долгосрочного временного моделирования

Основные вклады

  1. Предложена новая задача RMOT: Впервые систематически расширено указывающее понимание на многообъектные динамические сценарии с учётом временных изменений состояния
  2. Построен набор данных Refer-KITTI-V2:
    • Содержит 9758 выражений, 7193 уникальных выражения, 617 различных словарных единиц
    • Разработан трёхэтапный полуавтоматический процесс аннотирования, объединяющий генерацию выражений с помощью LLM
    • Включает неявные выражения (такие как "эго-автомобиль находится позади чёрного автомобиля")
  3. Предложена структура TempRMOT:
    • Сквозная архитектура Transformer без постобработки
    • Модуль временного усиления, управляемый запросами, для реализации долгосрочного пространственно-временного взаимодействия
    • Развязанные запросы отслеживания и запросы обнаружения для обработки переменного количества объектов
  4. Достигнута производительность SOTA:
    • Улучшение примерно на 4% HOTA по сравнению с предыдущей работой на Refer-KITTI-V2
    • Достижение 52,21% HOTA на Refer-KITTI
  5. Разработан эффективный процесс аннотирования: Трёхэтапный полуавтоматический метод значительно снижает затраты на ручной труд

Подробное описание метода

Определение задачи

Входные данные: Видеопоследовательность (T кадров) + выражение на естественном языке Выходные данные: Ограничивающие рамки и ID всех объектов, соответствующих описанию выражения, в каждом кадре Ограничения:

  • Количество объектов переменно (от 0 до множества)
  • Аннотирование только в те временные периоды, когда объект соответствует описанию выражения
  • Необходимо сохранять временную согласованность связей ID

Архитектура модели

TempRMOT состоит из двух основных компонентов:

1. Модуль RMOT на основе Transformer

Извлечение признаков:

  • Визуальное кодирование: CNN-основа извлекает многомасштабные признаки ItlRCl×Hl×WlI^l_t \in \mathbb{R}^{C_l \times H_l \times W_l}
  • Языковое кодирование: RoBERTa кодирует текст в словесные вложения SRL×DS \in \mathbb{R}^{L \times D}

Кроссмодальный кодировщик (стратегия ранней интеграции): Q=Wq(Itl+PV),K=Wk(S+PL),V=WvSQ = W_q(I^l_t + P_V), \quad K = W_k(S + P_L), \quad V = W_vSI^tl=QKTdV+Itl\hat{I}^l_t = \frac{QK^T}{\sqrt{d}}V + I^l_t

где PVP_V и PLP_L — позиционные кодирования для визуальной и языковой модальностей соответственно. После интеграции через слой деформируемого кодировщика: Etl=DeformEnc(I^tl)E^l_t = \text{DeformEnc}(\hat{I}^l_t)

Декодер (двойной механизм запросов):

  • Запросы отслеживания QttraQ^{tra}_t: Преобразованы из вложений декодера предыдущего кадра Dt1D_{t-1}, используются для связи уже отслеживаемых экземпляров
  • Запросы обнаружения QdetQ^{det}: Случайно инициализированы, используются для обнаружения новых появляющихся объектов

Qt=Decoder(Etl,concat(Qdet,Qttra))Q_t = \text{Decoder}(E^l_t, \text{concat}(Q^{det}, Q^{tra}_t))

Указывающая головка: Содержит три ветви

  • Ветвь классификации: Бинарная классификация (реальный объект/пустой объект)
  • Ветвь ограничивающей рамки: Регрессия координат через 3-слойную FFN
  • Ветвь указания: Выходная вероятность совпадения с выражением

2. Модуль временного усиления

Механизм памяти запросов:

  • Поддерживает очередь памяти размером N×KN \times K (N кадров, K объектов на кадр)
  • Обновление по принципу FIFO, сохранение постоянного потребления памяти

Временный декодер (4 слоя): Агрегирует историческую информацию через кроссфреймовое внимание: Qt=CrossFrameAttn(Q=Qt,K=Qtτh:t,V=Qtτh:t,PE=Pos(tτh:t))Q_t = \text{CrossFrameAttn}(Q=Q_t, K=Q_{t-\tau_h:t}, V=Q_{t-\tau_h:t}, PE=\text{Pos}(t-\tau_h:t))

где τh\tau_h — размер временного окна, Pos\text{Pos} кодирует временную позицию.

Декодер объектов (4 слоя): Моделирует пространственное взаимодействие через кроссобъектное внимание: Qt=CrossObjectAttn(Q,K,V=Qt,PE=Pos(O1:Nt))Q_t = \text{CrossObjectAttn}(Q, K, V=Q_t, PE=\text{Pos}(O_{1:N_t}))

Уточнение траектории: Использует MLP для предсказания остаточных корректировок: Bt=Bt+MLP(QtS)B_t = B_t + \text{MLP}(Q^S_t)

где QtSQ^S_t — признаки запроса после пространственно-временного усиления.

Технические инновации

  1. Ранняя кроссмодальная интеграция: По сравнению с плотными соединениями MDETR, использует эффективную стратегию взвешивания внимания, снижая вычислительную сложность
  2. Развязанный двойной дизайн запросов:
    • Запросы отслеживания наследуют историческую информацию, обеспечивая согласованность ID
    • Запросы обнаружения обрабатывают новые объекты, повышая гибкость
  3. Управляемое запросами моделирование времени:
    • Использует компактное представление запроса вместо исходных признаков для временной агрегации
    • Разделяет механизмы внимания для временного и пространственного измерений
    • Поддерживает долгосрочные зависимости (до 8 кадров истории)
  4. Полностью дифференцируемый конец в конец: Не требует постобработки типа NMS, прямой вывод финального результата

Экспериментальная установка

Наборы данных

Refer-KITTI:

  • 18 видео, 895 выражений
  • Обучающий набор: 15 видео/660 выражений
  • Тестовый набор: 3 видео/158 выражений

Refer-KITTI-V2:

  • 21 видео, 9758 выражений
  • Обучающий набор: 17 видео/8873 выражения
  • Тестовый набор: 4 видео/897 выражений
  • Особенности: 7193 уникальных выражения, 617 различных словарных единиц, включение неявных выражений

KITTI: Используется для оценки универсальных возможностей MOT

Процесс построения набора данных

Этап 1: Сбор языковых элементов

  • Аннотирование базовых атрибутов: класс (автомобиль/люди), цвет (чёрный/красный), позиция (слева/справа), действие (движение/поворот)
  • Автоматическое распространение аннотаций с использованием ID экземпляров KITTI

Этап 2: Генерация выражений

  • Использование предопределённых шаблонов для комбинирования языковых элементов
  • Пример: "{color}-{action}-cars" → "black turning cars"
  • Связывание ограничивающих рамок через операцию AND

Этап 3: Расширение выражений

  • Использование GPT-3.5 для генерации 4 семантически эквивалентных переформулировок каждого выражения
  • Двухэтапная проверка: проверка LLM + ручная проверка
  • Расширение с 2719 до 9758 выражений

Метрики оценки

HOTA (Higher Order Tracking Accuracy): HOTA=DetAAssA\text{HOTA} = \sqrt{\text{DetA} \cdot \text{AssA}}

  • DetA (Detection Accuracy): Оценка обнаружения IoU на уровне кадра
  • AssA (Association Accuracy): Оценка связи IoU во времени
  • Другие метрики: DetRe, DetPr, AssRe, AssPr, LocA

Методы сравнения

Двухэтапные методы:

  • FairMOT, DeepSORT, ByteTrack, CStrack
  • TransTrack, TrackFormer
  • iKUN

Одноэтапные методы:

  • EchoTrack, DeepRMOT
  • TransRMOT (предыдущая работа)
  • MLS-Track

Детали реализации

  • Основная сеть: ResNet-50 (визуальная) + RoBERTa (текстовая)
  • Оптимизатор: Adam, скорость обучения 1e-5 (основа 1e-5)
  • Обучение: 60 эпох, размер пакета=1, 4×RTX 4090
  • Увеличение данных: Случайное обрезание, многомасштабность (800-1536)
  • Длина памяти: Refer-KITTI N=4, Refer-KITTI-V2 N=5
  • Пороги вывода: Классификация 0,6, указание 0,4
  • Веса потерь: λclsD=5,λL1D=2,λgiouD=2,λrefD=2\lambda^D_{cls}=5, \lambda^D_{L1}=2, \lambda^D_{giou}=2, \lambda^D_{ref}=2

Результаты экспериментов

Основные результаты

Производительность на Refer-KITTI:

МетодE2EHOTADetAAssADetReDetPr
iKUN48,8435,7466,8051,9752,25
TransRMOT46,5637,9757,3349,6960,10
MLS-Track49,0540,0360,2559,0754,18
TempRMOT52,2140,9566,7555,6559,25
  • Улучшение на 3,16% HOTA по сравнению с MLS-Track
  • Полное лидерство среди методов конца в конец

Производительность на Refer-KITTI-V2:

МетодHOTADetAAssA
iKUN10,322,1749,77
TransRMOT31,0019,4049,68
TempRMOT35,0422,9753,58
  • Улучшение на 4,04% HOTA по сравнению с TransRMOT
  • Подтверждение эффективности в более сложных языковых сценариях

Производительность на KITTI:

МетодHOTAAssA
TransRMOT61,5266,51
TempRMOT63,4772,04
  • Улучшение AssA на 5,53%, подтверждающее эффективность временного моделирования

Абляционные исследования

Эффективность модулей (Refer-KITTI-V2):

Temp.RefineHOTADetAAssA
31,0019,4049,68
34,4622,7352,37
35,0422,9753,58
  • Модуль временного усиления обеспечивает наибольший вклад (+3,46% HOTA)
  • Уточнение траектории дополнительно повышает производительность (+0,58% HOTA)

Длина памяти при обучении:

NtN_tHOTADetAAssA
333,6421,9651,66
434,4122,4352,90
534,7222,5953,49
  • Более длинный исторический контекст обеспечивает постоянное улучшение

Длина памяти при выводе:

NiN_iHOTADetAAssA
534,7222,5953,49
634,7822,7353,32
835,0422,9753,58
  • Использование более длинной памяти при выводе может дополнительно повысить производительность
  • Демонстрирует способность к обобщению временного модуля

Анализ случаев

Способность к пониманию движения:

  • Инструкция "left cars which are parking": TempRMOT правильно определяет припаркованные автомобили, TransRMOT ошибочно помечает пешеходов как припаркованные
  • Инструкция "right persons who are walking": TempRMOT точно понимает состояние движения

Способность к надёжному отслеживанию:

  • Инструкция "cars in front of ours": TransRMOT демонстрирует переключение ID и потерю отслеживания, TempRMOT сохраняет согласованную связь ID

Понимание сложной семантики:

  • Обработка неявных выражений "the ego car is positioned after the black cars"
  • Понимание отрицательных описаний "pedestrians lacking hair"
  • Комбинирование множественных атрибутов "the men are on the right side and they have t-shirts on"

Экспериментальные находки

  1. Важность временного моделирования: Значительное улучшение метрики AssA (+5,53%) подтверждает, что долгосрочные временные зависимости критически важны для качества отслеживания
  2. Преимущество конца в конец: Одноэтапные методы в целом превосходят двухэтапные методы, совместная оптимизация более эффективна
  3. Влияние языковой сложности: Снижение производительности на Refer-KITTI-V2 отражает вызовы, создаваемые более богатой семантикой
  4. Обобщаемость механизма памяти: При выводе можно использовать более длинное историческое окно, чем при обучении
  5. Эффективность представления запроса: По сравнению с исходными признаками, представление запроса более компактно и сохраняет ключевую информацию

Связанные работы

Эталонные наборы данных RMOT

Ограничения существующих наборов данных:

  • Серия RefCOCO: Только изображения, один объект
  • Talk2Car, VID-Sentence: Видео, но один объект
  • Refer-DAVIS17, Refer-YV: Пиксельная сегментация, один объект

Сравнение наборов данных RMOT:

Набор данныхВидеоСловарьВыраженияУникальные выраженияНеявные выражения
Refer-KITTI1849895215
GroOT*1426015471161
Refer-Dance6525198548
Refer-KITTI-V22161797587193

Методы RMOT

Двухэтапные методы:

  • Сначала извлекают траектории, затем сопоставляют выражения
  • Преимущества: Детальная обработка
  • Недостатки: Высокая сложность, большие вычислительные затраты

Одноэтапные методы:

  • Сквозная архитектура Transformer
  • TransRMOT: Первая модель RMOT
  • Ограничения: Основное внимание на соседних кадрах, отсутствие долгосрочного моделирования

Управляемое запросами временное моделирование

Связанные работы:

  • MeMOT: Модуль памяти для хранения исторических запросов
  • MeMOTR: Усиление временного контекста для запросов отслеживания
  • BEVFormer: Пространственно-временной Transformer для представления BEV

Инновации в данной работе:

  • Сосредоточение на понимании видео с языковыми условиями
  • Разделение временного и пространственного внимания
  • Совместный вывод с текущими пространственными признаками кадра

Заключение и обсуждение

Основные выводы

  1. Задача RMOT более универсальна: Преодолевает ограничение на один объект, учитывает временную динамику, лучше соответствует реальным требованиям
  2. Высокое качество Refer-KITTI-V2: Благодаря полуавтоматическому процессу и LLM достигнут баланс между масштабом и разнообразием
  3. Эффективность TempRMOT: Модуль временного усиления значительно повышает производительность, достигая SOTA на обоих эталонах
  4. Критичность долгосрочных зависимостей: Явное моделирование пространственно-временного взаимодействия критически важно для точного отслеживания и семантического выравнивания

Ограничения

  1. Масштаб набора данных: Хотя выражения разнообразны, количество видео (21) относительно ограничено, разнообразие сцен ограничено
  2. Вычислительная сложность: Хотя использование представления запроса снижает затраты, память на несколько кадров всё ещё требует дополнительных вычислений
  3. Глубина понимания языка: Для чрезвычайно сложного логического вывода (таких как множественные отрицания, сложные причинно-следственные связи) остаются вызовы
  4. Обработка окклюзии: Статья не обсуждает подробно стратегии обработки сценариев с серьёзной окклюзией
  5. Реальное время: Не сообщаются показатели реальной производительности, такие как FPS, реальная осуществимость развёртывания неясна
  6. Способность к обобщению: Проверка проведена только на сценариях KITTI (сценарии вождения), способность к обобщению на другие области (такие как пешеходы, спорт) неизвестна

Будущие направления

  1. Расширение на большее количество сценариев: Построение наборов данных RMOT, охватывающих больше областей
  2. Повышение реальной производительности: Оптимизация структуры модели для достижения отслеживания в реальном времени
  3. Усиление понимания языка: Введение более мощных языковых моделей (таких как GPT-4)
  4. Расширение на 3D: Объединение данных облака точек, расширение на 3D RMOT
  5. Интерактивное отслеживание: Поддержка реальной коррекции и обратной связи пользователя

Глубокая оценка

Преимущества

1. Определение задачи имеет дальновидный характер

  • Задача RMOT заполняет пробел в многообъектном + временной динамике
  • Моделирование временной согласованности (такое как мгновенное состояние "поворота") очень практично
  • Предоставляет новую парадигму для языкового руководства в автономном вождении

2. Научное и эффективное построение набора данных

  • Трёхэтапный полуавтоматический процесс балансирует качество и эффективность
  • Генерация с помощью LLM значительно повышает разнообразие (7193 уникальных выражения)
  • Введение неявных выражений увеличивает сложность и реалистичность

3. Разумный дизайн метода

  • Стратегия ранней интеграции снижает вычислительную сложность
  • Развязанный двойной дизайн запросов балансирует историческую связь и обнаружение новых объектов
  • Механизм внимания с разделением пространства и времени ясен и эффективен

4. Полные эксперименты

  • Проверка на трёх наборах данных
  • Подробные абляционные исследования, количественно определяющие вклад каждого модуля
  • Богатые визуализированные примеры, демонстрирующие возможности модели

5. Ясное написание

  • Логика строгая, от мотивации к методу к экспериментам слой за слоем
  • Богатые графики (10 рисунков, 5 таблиц), высокая плотность информации
  • Полные технические детали, сильная воспроизводимость

Недостатки

1. Ограничения набора данных

  • Малое количество видео (21), единственный сценарий (только вождение)
  • Хотя выражений много, они основаны на ограниченной комбинации языковых элементов, глубокое семантическое разнообразие недостаточно
  • Отсутствие экстремальных погодных условий, ночных сценариев и других сложных ситуаций

2. Ограничения метода

  • Фиксированная длина памяти (N=5), невозможна адаптивная регулировка
  • Не обрабатывает неоднозначность выражений (такую как неоднозначность "левого автомобиля" в разных перспективах)
  • Отсутствует оценка неопределённости, невозможно количественно определить уверенность предсказания

3. Недостаточные эксперименты

  • Не сообщается скорость вывода (FPS), реальная производительность неясна
  • Отсутствуют эксперименты кроссдатасетного обобщения (такие как тестирование на Refer-Dance)
  • Отсутствует сравнение с новейшими моделями визуально-языкового понимания (такими как CLIP, BLIP-2)
  • Анализ ошибок недостаточно глубокий, не статистицированы основные режимы отказа

4. Отсутствие теоретического анализа

  • Не объясняется с теоретической точки зрения, почему временное моделирование эффективно
  • Отсутствует визуализация весов внимания для анализа
  • Не обсуждается динамика обучения модели и сходимость

5. Недостаточное обсуждение социального воздействия

  • Не обсуждаются проблемы конфиденциальности (этические проблемы отслеживания пешеходов)
  • Не анализируются потенциальные предубеждения (такие как предубеждения в распознавании определённых групп населения)

Влияние

Вклад в область:

  • На уровне задачи: Задача RMOT станет важным направлением в понимании видео, уже есть несколько последующих работ, ссылающихся на неё
  • На уровне данных: Refer-KITTI-V2 предоставляет сообществу высокачественный эталон, открытый код и данные способствуют исследованиям
  • На уровне метода: Дизайн модуля временного усиления может быть перенесён на другие задачи видео

Практическая ценность:

  • Автономное вождение: Поддержка управления транспортными средствами с помощью языковых инструкций ("Следуй за красным автомобилем впереди")
  • Интеллектуальное наблюдение: Поиск многообъектных целей на основе описания ("Пешеход в красной одежде")
  • Взаимодействие человека и машины: Языковое руководство видеомонтажа

Воспроизводимость:

  • Код и наборы данных открыты (https://github.com/zyn213/TempRMOT)
  • Полные детали реализации (гиперпараметры, стратегии обучения и т.д.)
  • Основано на зрелой структуре (Deformable DETR), легко воспроизводится

Ожидаемое влияние:

  • Краткосрочное (1-2 года): Стимулирование большего количества наборов данных RMOT и методов
  • Среднесрочное (3-5 лет): Объединение с большими языковыми моделями для более сильного семантического понимания
  • Долгосрочное (5+ лет): Становление стандартным компонентом многомодальных систем автономного вождения

Применимые сценарии

Наиболее подходящие сценарии:

  1. Автономное вождение: Языковое руководство отслеживания и планирования пути транспортных средств
  2. Интеллектуальный транспорт: Обнаружение участников движения на основе описания ("Припаркованные с нарушением автомобили")
  3. Видеонаблюдение: Поиск целей на основе естественного языка
  4. Навигация робота: Языковое руководство отслеживания целей

Менее подходящие сценарии:

  1. Высокоскоростные сценарии: Текущий метод может не удовлетворять требованиям реальной производительности
  2. Экстремальная окклюзия: Отслеживание при серьёзной окклюзии остаётся вызовом
  3. Открытые сценарии: Данные обучения ограничены сценариями вождения, способность к обобщению требует проверки
  4. Детальные описания: Для чрезвычайно детальных описаний внешности (таких как "человек в синей полосатой рубашке") может быть недостаточно

Рекомендации по улучшению:

  • Расширение на больше сценариев (внутренние помещения, спорт, социальные мероприятия)
  • Оптимизация модели для повышения реальной производительности
  • Введение более мощных языковых моделей
  • Расширение на 3D RMOT с использованием облака точек
  • Поддержка активного обучения для адаптации к новым сценариям с минимальными аннотациями

Библиография

Ключевые ссылки

Связанные с RMOT:

  1. Wu et al. (2023) - TransRMOT: Первый метод RMOT и набор данных Refer-KITTI
  2. Du et al. (2024) - iKUN: Отслеживатель без переобучения
  3. Ma et al. (2024) - MLS-Track: Взаимодействие многоуровневой семантики

Отслеживание на основе Transformer: 4. Zeng et al. (2022) - MOTR: Сквозное многообъектное отслеживание 5. Zhu et al. (2020) - Deformable DETR: Деформируемое внимание 6. Gao & Wang (2023) - MeMOTR: Усиление отслеживания долгосрочной памятью

Указывающее понимание: 7. Yu et al. (2016) - Наборы данных серии RefCOCO 8. Kamath et al. (2021) - MDETR: Многомодальное обнаружение

Метрики оценки: 9. Luiten et al. (2020) - HOTA: Точность отслеживания высокого порядка


Общая оценка: Это высококачественная статья в области компьютерного зрения с существенными инновациями в определении задачи, построении набора данных и дизайне метода. Задача RMOT имеет важное теоретическое значение и практическую ценность, Refer-KITTI-V2 предоставляет сообществу ценный ресурс, структура TempRMOT разумно спроектирована и эффективна. Основные недостатки заключаются в ограничениях сценариев и неизвестной реальной производительности. Рекомендуется, чтобы последующие работы расширили применение на больше областей и провели более глубокий теоретический анализ. Эта статья, вероятно, станет важным справочным материалом в области языкового руководства в понимании видео.