2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic

Weniger ist Mehr: Token-Kontextbewusstes Lernen für Objektverfolgung

Grundinformationen

  • Papier-ID: 2501.00758
  • Titel: Less is More: Token Context-aware Learning for Object Tracking
  • Autoren: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
  • Klassifizierung: cs.CV (Computervision)
  • Veröffentlichungszeit/Konferenz: AAAI 2025
  • Papierlink: https://arxiv.org/abs/2501.00758
  • Codelink: https://github.com/XuChenLong/LMTrack

Zusammenfassung

Dieses Papier präsentiert eine neue Methode zur Objektverfolgung basierend auf Token-Kontextbewusstsein namens LMTrack. Bestehende kontextbewusste Verfolgungsmethoden erfassen typischerweise Kontext durch Mehrrahmen-Informationen, aber diese naiven Rahmen-Kontext-Methoden ignorieren die unterschiedliche Wichtigkeit von Patches innerhalb von Referenzrahmen und sind anfällig für Rauschen und redundante Tokens. LMTrack folgt dem Prinzip „Weniger ist Mehr", indem es die Wichtigkeitsverteilung aller Referenz-Tokens analysiert, wichtige Tokens sammelt, kontinuierlich beobachtet und aktualisiert. Die Methode umfasst zwei Kernkomponenten: das Token Context Memory (TCM)-Modul und einen unidirektionalen Token-Aufmerksamkeitsmechanismus und erreicht modernste Leistung auf mehreren Verfolgungsbenchmarks.

Forschungshintergrund und Motivation

Problemdefinition

Die Objektverfolgungsaufgabe zielt darauf ab, ein beliebiges Ziel in einer Videosequenz basierend auf seiner Anfangsposition zu lokalisieren und zu verfolgen. Jüngste Forschungen zeigen, dass die Nutzung von Kontextinformationen zur Wahrnehmung des Zielzustands für die Objektverfolgung entscheidend ist.

Einschränkungen bestehender Methoden

  1. Körnigkeit auf Rahmenebene: Bestehende Methoden verwenden den Rahmen als minimale Einheit des Kontexts und ignorieren die unterschiedliche Wichtigkeit verschiedener Patches innerhalb von Referenzrahmen für die Zielpositionierung im Suchrahmen
  2. Redundante Informationen: Die gleichbehandlung aller Referenz-Tokens erhöht die Wahrnehmungs- und Rechenlast des Modells, besonders in komplexen Szenen
  3. Mangelnde Adaptivität: Die Verwendung von manuellen Strategien lässt den Tracker passiv Referenzrahmen akzeptieren, anstatt dass der Tracker selbst über Zielreferenzinformationen entscheidet

Forschungsmotivation

Durch die Analyse eines einfachen Transformer-Trackers wurde festgestellt, dass die meisten Hintergrund-Tokens während des Verfolgungsprozesses selten referenziert werden und minimale Auswirkungen auf die Ergebnisse haben, während Ziel-Tokens als langfristige Referenzsignale in großem Umfang beibehalten werden. Dies bestätigt die Hypothese, dass eine kleine Anzahl hochwertiger Tokens eine Schlüsselrolle im Verfolgungsprozess spielen.

Kernbeiträge

  1. Vorschlag einer neuen Token-Kontextbewussten Verfolgungspipeline LMTrack: Basierend auf dem Token Context Memory-Modul unterscheidet sich LMTrack von bestehenden Verfolgungsmethoden auf Rahmenebene, indem es automatisch hochwertige Token-Kontexte für die visuelle Verfolgung sammelt und aktualisiert
  2. Einführung eines effektiven unidirektionalen Aufmerksamkeitsmechanismus: Etabliert Abhängigkeitsbeziehungen zwischen Referenz-Tokens und Suchrahmen durch unidirektionale Ausbreitung und ermöglicht robuste rahmenübergreifende Zuordnung und Positionierung
  3. Erreichung modernster Verfolgungsleistung: Erreicht neue optimale Ergebnisse auf fünf visuellen Verfolgungsbenchmarks: LaSOT, TrackingNet, GOT10K, LaSOText und VOT2020

Methodische Details

Aufgabendefinition

Gegeben eine anfängliche Zielposition, kontinuierliche Lokalisierung und Verfolgung des Ziels in einer Videosequenz. Die Eingabe ist eine Videorahmensequenz, die Ausgabe ist die Begrenzungsbox des Ziels in jedem Rahmen.

Modellarchitektur

Gesamtrahmen

LMTrack verwendet ein autoregressives Token-Kontextbewusstes Verfolgungsframework mit drei Hauptkomponenten:

  • Backbone-Netzwerk mit unidirektionalem Aufmerksamkeitsmechanismus
  • Token Context Memory (TCM)-Modul
  • Vorhersagekopf

Autoregressiver Verfolgungsprozess

Der Verfolgungsprozess ist definiert als:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Wobei R Referenz-Tokens darstellt, I Bildrahmen darstellt und B die vorhergesagte Begrenzungsbox darstellt.

Token Context Memory (TCM)-Modul

Das TCM-Modul besteht aus drei Schritten:

Schritt 1: Sammlung wichtiger Tokens aus Referenz-Tokens

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Wobei A die Cross-Attention-Matrix ist, C die Klassifizierungsergebniskarte ist und W die Wichtigkeitsverteilung darstellt.

Schritt 2: Integration der Klassifizierungskarte und Such-Tokens

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Schritt 3: Aktualisierung der Referenz-Tokens Zusammenführung der Ergebnisse aus Schritt 1 und 2 zur Bildung neuer Referenz-Tokens Rₜ.

Unidirektionaler Aufmerksamkeitsmechanismus

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Ermöglicht nur Referenz-Tokens, Such-Tokens zu beeinflussen, während die Konsistenz der Referenz-Token-Darstellung erhalten bleibt.

Technische Innovationspunkte

  1. Von Rahmen- zu Token-Ebene-Kontext: Verzicht auf traditionellen Rahmen-Kontext zugunsten feinkörneriger Token-Ebene-Kontextdarstellung wichtiger Referenzsignale
  2. Adaptive Wichtigkeitsanalyse: Kombination von Aufmerksamkeitsmatrix und Klassifizierungsergebnissen zur Analyse der Token-Wichtigkeit, anstatt feste Strategien zu verwenden
  3. Unidirektionaler Informationsfluss: Verhindert die Verschmutzung der Referenz-Token-Darstellung durch Such-Tokens und verbessert die Fusionseffizienz

Experimentelle Einrichtung

Datensätze

  • Trainingsdaten: LaSOT, GOT-10k, TrackingNet, COCO
  • Test-Benchmarks: GOT-10K (180 Testsequenzen), TrackingNet (511 Videos), LaSOT (280 Test-Videos), LaSOText (150 Videos), VOT2020 (60 Herausforderungssequenzen)

Bewertungsmetriken

  • GOT-10K: Average Overlap (AO), Success Rate (SR)
  • LaSOT/LaSOText: Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
  • TrackingNet: AUC, P, PNorm
  • VOT2020: Expected Average Overlap (EAO), Accuracy, Robustness

Implementierungsdetails

  • Backbone-Netzwerk: ViT-base
  • Optimierer: AdamW, Lernrate 4×10⁻⁵ (Backbone), 4×10⁻⁴ (andere)
  • Training: 300 Epochen, Batch-Größe 16, Tesla A100 GPU
  • Inferenz: Standardmäßig Referenzaktualisierung alle 400 Rahmen überprüfen, maximale Referenz-Token-Länge ist das Doppelte der Such-Token-Länge

Experimentelle Ergebnisse

Hauptergebnisse

GOT-10K-Benchmark

LMTrack384 erreicht 80,1% AO auf GOT-10K, eine Verbesserung von 2,6% gegenüber der bisherigen besten Methode ARTrackV2 mit 77,5% AO.

Leistung auf anderen Benchmarks

  • TrackingNet: 85,7% AUC
  • LaSOT: 73,2% AUC
  • LaSOText: 53,6% AUC, Verbesserung von 0,7% gegenüber ARTrackV2
  • VOT2020: 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Effizienzvergleich

Im Vergleich zu SeqTrack bei gleicher Auflösung:

  • Parameter: 92M vs 89M
  • Rechenlast: 69G vs 148G FLOPs
  • Inferenzgeschwindigkeit: 47fps vs 21fps

Ablationsstudien

#AttentionAutoregressiveUpdateAO(%)
1bidirektional×-73,0
2unidirektional×-73,9
3unidirektional×Template-Update74,1
4unidirektional×TCM75,0
5unidirektionalTemplate-Update75,6
6unidirektionalTCM76,3

Wichtige Erkenntnisse:

  1. Unidirektionale Aufmerksamkeit: Verbesserung von 0,9% AO gegenüber bidirektionaler Aufmerksamkeit, verhindert Rauschausbreitung vom Such- zum Referenzteil
  2. Autoregressives Tracking: Verbesserung von 1,3-1,5% AO gegenüber traditionellen Methoden
  3. TCM-Modul: Verbesserung von 0,7-0,9% AO gegenüber Template-Update-Strategie

Visualisierungsanalyse

TCM-Modul-Visualisierung

Zeigt den Prozess der Extraktion wichtiger Referenz-Tokens durch das TCM-Modul im Zeitverlauf, wobei die meisten Hintergrund-Tokens unwichtig werden und hauptsächlich Tokens erhalten bleiben, die die Zielerscheinung beschreiben.

Aufmerksamkeitsvergleich

Der Vergleich mit OSTrack zeigt, dass LMTrack mit Referenz-Tokens besser gegen Erscheinungsveränderungen und Störobjekte resistent ist und die Aufmerksamkeit auf das Ziel beibehält.

Verwandte Arbeiten

Traditionelle Verfolgungsrahmen

Frühe Methoden verließen sich hauptsächlich auf anfängliche Template-Methoden, wie Siamese-Netzwerke, die das anfängliche Ziel-Template mit Kandidatenbereichen abgleichen, hatten aber Schwierigkeiten, sich an signifikante Änderungen der Zielerscheinung anzupassen.

Zeitliche Kontext-Verfolgung

Um mit Erscheinungsveränderungen umzugehen, modellieren viele Tracker die visuelle Verfolgung als Online-Lernproblem:

  • UpdateNet: Verwendet benutzerdefiniertes Netzwerk zur Fusion kumulativer Templates
  • ATOM: Fügt IoU-Vorhersagezweig zur Einschränkung der Template-Auswahl hinzu
  • STMTrack: Aktualisiert dynamische Templates in festen Intervallen
  • SeqTrack: Verwendet wahrscheinlichkeitsbasierte Strategie zur Auswahl dynamischer Templates

Einschränkungen dieser Methoden:

  1. Template-Aktualisierung basierend auf Begrenzungsbox-Zuschnitt führt leicht zu Rauscheinführung
  2. Verwendung manueller Methoden oder zusätzlicher Diskriminanzmodelle zur Template-Aktualisierung, ohne zu unterscheiden, welche Kontexte für die Verfolgung wichtig sind

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

  1. LMTrack verbessert die Verfolgungsleistung erheblich durch Token-Ebene-Kontextbewusstsein
  2. Das TCM-Modul kann wichtige Referenz-Tokens effektiv sammeln und aktualisieren
  3. Der unidirektionale Aufmerksamkeitsmechanismus verbessert die Effizienz und Genauigkeit der Merkmalsfusion
  4. Erreicht modernste Leistung auf mehreren Benchmarks bei gleichzeitiger Verbesserung der Recheneffizienz

Einschränkungen

  1. Rechenkomplexität: Obwohl effizienter als SeqTrack, erfordert es immer noch Wartung und Aktualisierung von Referenz-Tokens
  2. Hyperparameter-Empfindlichkeit: Die Wahl des k-Wertes und die Aktualisierungsfrequenz können die Leistung beeinflussen
  3. Langzeitverfolgung: Die Verwaltungsstrategie von Referenz-Tokens in extrem langen Sequenzen bedarf weiterer Optimierung

Zukünftige Richtungen

  1. Erforschung effizienterer Methoden zur Bewertung der Token-Wichtigkeit
  2. Untersuchung adaptiver Kontrollstrategien für die Referenz-Token-Länge
  3. Erweiterung auf Multi-Objekt-Verfolgungsszenarien

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Der Übergang von Rahmen- zu Token-Ebene-Kontext ist eine wichtige Innovation
  2. Solide theoretische Grundlagen: Experimentelle Validierung der Hypothese über die Wichtigkeitsverteilung von Tokens
  3. Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmarks und detaillierte Ablationsstudien
  4. Hoher praktischer Wert: Verbessert die Leistung bei gleichzeitiger Steigerung der Recheneffizienz
  5. Klare Visualisierung: Effektive Darstellung der Funktionsweise der Methode

Mängel

  1. Methodenkomplexität: Das TCM-Modul-Design ist relativ komplex und kann die Implementierung und Optimierung beeinflussen
  2. Parameterempfindlichkeit: Mehrere Hyperparameter (k-Wert, Aktualisierungsfrequenz usw.) erfordern sorgfältige Abstimmung
  3. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Konvergenz und Stabilität der Methode
  4. Begrenzte Anwendbarkeit: Hauptsächlich auf Single-Object-Tracking ausgerichtet, die Anwendbarkeit in Multi-Object-Szenarien ist nicht validiert

Einfluss

  1. Akademischer Beitrag: Bietet eine neue Forschungsrichtung für kontextbewusstes Tracking
  2. Praktischer Wert: Die Methode behält hohe Leistung bei gleichzeitiger Verbesserung der Effizienz
  3. Reproduzierbarkeit: Bietet vollständige Implementierungsdetails und Code

Anwendungsszenarien

  1. Echtzeit-Verfolgungsanwendungen: Hohe Inferenzgeschwindigkeit eignet sich für Echtzeit-Szenarien
  2. Langzeit-Verfolgungsaufgaben: Adaptive Token-Verwaltung eignet sich für Langsequenz-Verfolgung
  3. Verfolgung in komplexen Umgebungen: Kann effektiv mit Erscheinungsveränderungen und Störobjekten umgehen

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten im Bereich der Objektverfolgung, einschließlich:

  • Siamese-Netzwerk-Serie (SiamRPN++, SiamFC++)
  • Transformer-Tracker (TransT, STARK, Mixformer)
  • Kontextbewusste Methoden (STMTrack, SeqTrack, OSTrack)
  • Aufmerksamkeitsmechanismen (Transformer, ViT)

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das die vorgeschlagene LMTrack-Methode sowohl in theoretischer Innovation als auch in experimenteller Validierung ausgezeichnet darstellt. Das Designprinzip „Weniger ist Mehr" und das Token-Ebene-Kontextbewusstsein bieten neue Forschungsrichtungen für das Objektverfolgungsfeld und haben wichtige akademische und praktische Bedeutung.