Less is More: Token Context-aware Learning for Object Tracking
Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic
Меньше значит больше: Контекстно-осведомленное обучение на основе токенов для отслеживания объектов
В данной работе предлагается новый метод отслеживания объектов на основе контекстно-осведомленного обучения токенов — LMTrack. Существующие методы отслеживания с учетом контекста обычно захватывают контекст с использованием информации из нескольких кадров, однако эти наивные методы контекста на уровне кадров игнорируют различия в важности различных патчей в опорных кадрах и подвержены влиянию шума и избыточных токенов. LMTrack следует принципу "меньше значит больше", анализируя распределение важности всех опорных токенов, собирая, постоянно отслеживая и обновляя важные токены. Метод включает два основных компонента: модуль Token Context Memory (TCM) и однонаправленный механизм внимания токенов, достигая передовых результатов на нескольких эталонах отслеживания.
Задача отслеживания объектов направлена на локализацию и отслеживание произвольных объектов в видеопоследовательностях на основе начальной позиции. Недавние исследования показывают, что использование контекстной информации для осведомленного восприятия состояния объекта имеет решающее значение для отслеживания объектов.
Грубозернистость контекста на уровне кадров: Существующие методы используют кадр как минимальную единицу контекста, игнорируя различия в важности различных патчей опорного кадра для локализации объекта в кадре поиска
Помехи от избыточной информации: Одинаковое отношение ко всем опорным токенам увеличивает нагрузку на восприятие и вычисления модели, особенно в сложных сценах
Отсутствие адаптивности: Использование ручных стратегий заставляет трекер пассивно принимать опорные кадры вместо самостоятельного принятия решений о целевой опорной информации
Анализ с использованием простого трансформер-трекера показал, что большинство фоновых токенов редко используются в процессе отслеживания и оказывают минимальное влияние на результаты, тогда как целевые токены сохраняются в больших количествах как долгосрочные опорные сигналы. Это подтверждает гипотезу о том, что небольшое количество высококачественных токенов играет ключевую роль в процессе отслеживания.
Предложен новый конвейер отслеживания с контекстно-осведомленными токенами LMTrack: На основе модуля Token Context Memory, в отличие от существующих методов отслеживания на основе контекста уровня кадров, LMTrack автоматически собирает и обновляет высококачественный контекст токенов для визуального отслеживания
Введен эффективный однонаправленный механизм внимания: Устанавливает зависимости между опорными токенами и кадром поиска однонаправленным способом распространения, обеспечивая надежную кросс-кадровую ассоциацию и локализацию
Достигнуты передовые результаты отслеживания: Получены новые оптимальные результаты на пяти эталонах визуального отслеживания: LaSOT, TrackingNet, GOT10K, LaSOText и VOT2020
Учитывая начальную позицию целевого объекта, необходимо постоянно локализовать и отслеживать объект в видеопоследовательности. Входные данные представляют собой последовательность видеокадров, выходные данные — ограничивающие прямоугольники целевого объекта в каждом кадре.
Переход от контекста уровня кадров к контексту уровня токенов: Отказ от традиционного контекста уровня кадров в пользу мелкозернистого представления контекста уровня токенов для важных опорных сигналов
Адаптивный анализ важности: Анализ важности токенов путем объединения матрицы внимания и результатов классификации вместо использования фиксированной стратегии
Однонаправленный поток информации: Предотвращение загрязнения представления опорных токенов токенами поиска, повышение эффективности слияния
Демонстрирует процесс извлечения важных опорных токенов модулем TCM во времени, большинство фоновых токенов становятся неважными, сохраняются в основном токены, описывающие внешний вид объекта.
Сравнение с OSTrack показывает, что LMTrack с использованием опорных токенов лучше противостоит изменениям внешнего вида и помехам, сохраняя внимание к объекту.
Ранние методы в основном полагались на методы начального шаблона, такие как сиамские сети для сопоставления начального шаблона объекта с областями-кандидатами, но испытывали трудности с адаптацией к значительным изменениям внешнего вида объекта.
Для обработки изменений внешнего вида многие трекеры моделируют визуальное отслеживание как задачу онлайн-обучения:
UpdateNet: Использует пользовательскую сеть для слияния накопленных шаблонов
ATOM: Добавляет ветвь предсказания IoU для ограничения выбора шаблона
STMTrack: Обновляет динамический шаблон с фиксированным интервалом
SeqTrack: Использует стратегию выбора динамического шаблона на основе правдоподобия
Ограничения этих методов:
Обновление шаблона на основе обрезки ограничивающего прямоугольника легко вводит шум
Использование ручных методов или дополнительных дискриминативных моделей для обновления шаблона не позволяет различить, какой контекст важен для отслеживания
В данной работе цитируются важные работы в области отслеживания объектов, включая:
Серию сиамских сетей (SiamRPN++, SiamFC++)
Трансформер-трекеры (TransT, STARK, Mixformer)
Методы с учетом контекста (STMTrack, SeqTrack, OSTrack)
Механизмы внимания (Transformer, ViT)
Общая оценка: Это высококачественная статья в области компьютерного зрения, предложенный метод LMTrack демонстрирует отличные результаты как в теоретических инновациях, так и в экспериментальной проверке. Дизайн-философия "меньше значит больше" и контекстно-осведомленное восприятие на уровне токенов предоставляют новые исследовательские идеи для области отслеживания объектов, обладая важной академической ценностью и практическим значением.