2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

Меньше значит больше: Контекстно-осведомленное обучение на основе токенов для отслеживания объектов

Основная информация

ID статьи: 2501.00758
Название: Less is More: Token Context-aware Learning for Object Tracking
Авторы: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
Категория: cs.CV (Компьютерное зрение)
Дата публикации/конференция: AAAI 2025
Ссылка на статью: https://arxiv.org/abs/2501.00758
Ссылка на код: https://github.com/XuChenLong/LMTrack

Аннотация

В данной работе предлагается новый метод отслеживания объектов на основе контекстно-осведомленного обучения токенов — LMTrack. Существующие методы отслеживания с учетом контекста обычно захватывают контекст с использованием информации из нескольких кадров, однако эти наивные методы контекста на уровне кадров игнорируют различия в важности различных патчей в опорных кадрах и подвержены влиянию шума и избыточных токенов. LMTrack следует принципу "меньше значит больше", анализируя распределение важности всех опорных токенов, собирая, постоянно отслеживая и обновляя важные токены. Метод включает два основных компонента: модуль Token Context Memory (TCM) и однонаправленный механизм внимания токенов, достигая передовых результатов на нескольких эталонах отслеживания.

Исследовательский контекст и мотивация

Определение проблемы

Задача отслеживания объектов направлена на локализацию и отслеживание произвольных объектов в видеопоследовательностях на основе начальной позиции. Недавние исследования показывают, что использование контекстной информации для осведомленного восприятия состояния объекта имеет решающее значение для отслеживания объектов.

Ограничения существующих методов

Грубозернистость контекста на уровне кадров: Существующие методы используют кадр как минимальную единицу контекста, игнорируя различия в важности различных патчей опорного кадра для локализации объекта в кадре поиска
Помехи от избыточной информации: Одинаковое отношение ко всем опорным токенам увеличивает нагрузку на восприятие и вычисления модели, особенно в сложных сценах
Отсутствие адаптивности: Использование ручных стратегий заставляет трекер пассивно принимать опорные кадры вместо самостоятельного принятия решений о целевой опорной информации

Исследовательская мотивация

Анализ с использованием простого трансформер-трекера показал, что большинство фоновых токенов редко используются в процессе отслеживания и оказывают минимальное влияние на результаты, тогда как целевые токены сохраняются в больших количествах как долгосрочные опорные сигналы. Это подтверждает гипотезу о том, что небольшое количество высококачественных токенов играет ключевую роль в процессе отслеживания.

Основные вклады

Предложен новый конвейер отслеживания с контекстно-осведомленными токенами LMTrack: На основе модуля Token Context Memory, в отличие от существующих методов отслеживания на основе контекста уровня кадров, LMTrack автоматически собирает и обновляет высококачественный контекст токенов для визуального отслеживания
Введен эффективный однонаправленный механизм внимания: Устанавливает зависимости между опорными токенами и кадром поиска однонаправленным способом распространения, обеспечивая надежную кросс-кадровую ассоциацию и локализацию
Достигнуты передовые результаты отслеживания: Получены новые оптимальные результаты на пяти эталонах визуального отслеживания: LaSOT, TrackingNet, GOT10K, LaSOText и VOT2020

Подробное описание метода

Определение задачи

Учитывая начальную позицию целевого объекта, необходимо постоянно локализовать и отслеживать объект в видеопоследовательности. Входные данные представляют собой последовательность видеокадров, выходные данные — ограничивающие прямоугольники целевого объекта в каждом кадре.

Архитектура модели

Общая структура

LMTrack использует авторегрессивный конвейер отслеживания с контекстно-осведомленными токенами, включающий три основных компонента:

Магистральная сеть с однонаправленным механизмом внимания
Модуль Token Context Memory (TCM)
Головка предсказания

Авторегрессивный процесс отслеживания

Процесс отслеживания определяется как:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

где R обозначает опорные токены, I обозначает видеокадр, B обозначает предсказанный ограничивающий прямоугольник.

Модуль Token Context Memory (TCM)

Модуль TCM состоит из трех этапов:

Этап 1: Сбор важных токенов из опорных токенов

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

где A — матрица кросс-внимания, C — карта оценок классификации, W обозначает распределение важности.

Этап 2: Интеграция карты классификации и токенов поиска

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Этап 3: Обновление опорных токенов Объединение результатов этапов 1 и 2 для формирования новых опорных токенов Rₜ.

Однонаправленный механизм внимания

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Позволяет опорным токенам влиять на токены поиска, сохраняя согласованность представления опорных токенов.

Технические инновации

Переход от контекста уровня кадров к контексту уровня токенов: Отказ от традиционного контекста уровня кадров в пользу мелкозернистого представления контекста уровня токенов для важных опорных сигналов
Адаптивный анализ важности: Анализ важности токенов путем объединения матрицы внимания и результатов классификации вместо использования фиксированной стратегии
Однонаправленный поток информации: Предотвращение загрязнения представления опорных токенов токенами поиска, повышение эффективности слияния

Экспериментальная установка

Наборы данных

Данные обучения: LaSOT, GOT-10k, TrackingNet, COCO
Тестовые эталоны: GOT-10K (180 тестовых последовательностей), TrackingNet (511 видео), LaSOT (280 тестовых видео), LaSOText (150 видео), VOT2020 (60 сложных последовательностей)

Метрики оценки

GOT-10K: Average Overlap (AO), Success Rate (SR)
LaSOT/LaSOText: Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
TrackingNet: AUC, P, PNorm
VOT2020: Expected Average Overlap (EAO), Accuracy, Robustness

Детали реализации

Магистральная сеть: ViT-base
Оптимизатор: AdamW, скорость обучения 4×10⁻⁵ (магистраль), 4×10⁻⁴ (остальное)
Обучение: 300 эпох, размер пакета 16, GPU Tesla A100
Вывод: По умолчанию проверка обновления опорных данных каждые 400 кадров, максимальная длина опорного токена в 2 раза больше длины токена поиска

Результаты экспериментов

Основные результаты

Эталон GOT-10K

LMTrack384 достигает 80,1% AO на GOT-10K, что на 2,6% выше предыдущего лучшего метода ARTrackV2 (77,5% AO).

Производительность на других эталонах

TrackingNet: 85,7% AUC
LaSOT: 73,2% AUC
LaSOText: 53,6% AUC, на 0,7% выше ARTrackV2
VOT2020: 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Сравнение эффективности

По сравнению с SeqTrack при одинаковом разрешении:

Количество параметров: 92M vs 89M
Объем вычислений: 69G vs 148G FLOPs
Скорость вывода: 47fps vs 21fps

Абляционные исследования

#	Внимание	Авторегрессия	Обновление	AO(%)
1	двусторонний	×	-	73,0
2	однонаправленный	×	-	73,9
3	однонаправленный	×	обновление шаблона	74,1
4	однонаправленный	×	TCM	75,0
5	однонаправленный	✓	обновление шаблона	75,6
6	однонаправленный	✓	TCM	76,3

Ключевые выводы:

Однонаправленное внимание: Улучшение на 0,9% AO по сравнению с двусторонним вниманием, предотвращение распространения шума из поиска в опорные данные
Авторегрессивное отслеживание: Улучшение на 1,3-1,5% AO по сравнению с традиционными методами
Модуль TCM: Улучшение на 0,7-0,9% AO по сравнению со стратегией обновления шаблона

Визуальный анализ

Визуализация модуля TCM

Демонстрирует процесс извлечения важных опорных токенов модулем TCM во времени, большинство фоновых токенов становятся неважными, сохраняются в основном токены, описывающие внешний вид объекта.

Сравнение внимания

Сравнение с OSTrack показывает, что LMTrack с использованием опорных токенов лучше противостоит изменениям внешнего вида и помехам, сохраняя внимание к объекту.

Связанные работы

Традиционные структуры отслеживания

Ранние методы в основном полагались на методы начального шаблона, такие как сиамские сети для сопоставления начального шаблона объекта с областями-кандидатами, но испытывали трудности с адаптацией к значительным изменениям внешнего вида объекта.

Отслеживание с временным контекстом

Для обработки изменений внешнего вида многие трекеры моделируют визуальное отслеживание как задачу онлайн-обучения:

UpdateNet: Использует пользовательскую сеть для слияния накопленных шаблонов
ATOM: Добавляет ветвь предсказания IoU для ограничения выбора шаблона
STMTrack: Обновляет динамический шаблон с фиксированным интервалом
SeqTrack: Использует стратегию выбора динамического шаблона на основе правдоподобия

Ограничения этих методов:

Обновление шаблона на основе обрезки ограничивающего прямоугольника легко вводит шум
Использование ручных методов или дополнительных дискриминативных моделей для обновления шаблона не позволяет различить, какой контекст важен для отслеживания

Заключение и обсуждение

Основные выводы

LMTrack значительно улучшает производительность отслеживания благодаря контекстно-осведомленному восприятию на уровне токенов
Модуль TCM эффективно собирает и обновляет важные опорные токены
Однонаправленный механизм внимания повышает эффективность и точность слияния признаков
Достигает передовой производительности на нескольких эталонах при одновременном повышении вычислительной эффективности

Ограничения

Вычислительная сложность: Хотя более эффективен по сравнению с SeqTrack, все еще требует поддержки и обновления опорных токенов
Чувствительность к гиперпараметрам: Выбор значения k и частота обновления могут влиять на производительность
Долгосрочное отслеживание: Стратегия управления опорными токенами в очень длинных последовательностях требует дальнейшей оптимизации

Будущие направления

Исследование более эффективных методов оценки важности токенов
Изучение адаптивных стратегий управления длиной опорных токенов
Расширение на сценарии отслеживания нескольких объектов

Глубокая оценка

Преимущества

Высокая инновационность: Переход от контекста уровня кадров к контексту уровня токенов является важной инновацией
Прочная теоретическая база: Гипотеза о распределении важных токенов подтверждена экспериментами
Полные эксперименты: Комплексная оценка на нескольких эталонах и подробные абляционные исследования
Высокая практическая ценность: Улучшение производительности при одновременном повышении вычислительной эффективности
Четкая визуализация: Эффективно демонстрирует принцип работы метода

Недостатки

Сложность метода: Относительно сложная конструкция модуля TCM может затруднить реализацию и настройку
Чувствительность к параметрам: Несколько гиперпараметров (значение k, частота обновления и т.д.) требуют тщательной настройки
Недостаточный теоретический анализ: Отсутствует анализ сходимости и стабильности метода
Ограниченная область применения: В основном ориентирован на отслеживание одного объекта, применимость в сценариях с несколькими объектами не проверена

Влияние

Академический вклад: Предоставляет новое направление исследований для контекстно-осведомленного отслеживания
Практическая ценность: Метод сохраняет высокую производительность при повышении эффективности
Воспроизводимость: Предоставляет полные детали реализации и код

Применимые сценарии

Приложения для отслеживания в реальном времени: Высокая скорость вывода подходит для сценариев реального времени
Задачи долгосрочного отслеживания: Адаптивное управление токенами подходит для отслеживания длинных последовательностей
Отслеживание в сложных условиях: Эффективно обрабатывает изменения внешнего вида и помехи

Библиография

В данной работе цитируются важные работы в области отслеживания объектов, включая:

Серию сиамских сетей (SiamRPN++, SiamFC++)
Трансформер-трекеры (TransT, STARK, Mixformer)
Методы с учетом контекста (STMTrack, SeqTrack, OSTrack)
Механизмы внимания (Transformer, ViT)

Общая оценка: Это высококачественная статья в области компьютерного зрения, предложенный метод LMTrack демонстрирует отличные результаты как в теоретических инновациях, так и в экспериментальной проверке. Дизайн-философия "меньше значит больше" и контекстно-осведомленное восприятие на уровне токенов предоставляют новые исследовательские идеи для области отслеживания объектов, обладая важной академической ценностью и практическим значением.