2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

Weniger ist Mehr: Token-Kontextbewusstes Lernen für Objektverfolgung

Grundinformationen

Papier-ID: 2501.00758
Titel: Less is More: Token Context-aware Learning for Object Tracking
Autoren: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
Klassifizierung: cs.CV (Computervision)
Veröffentlichungszeit/Konferenz: AAAI 2025
Papierlink: https://arxiv.org/abs/2501.00758
Codelink: https://github.com/XuChenLong/LMTrack

Zusammenfassung

Dieses Papier präsentiert eine neue Methode zur Objektverfolgung basierend auf Token-Kontextbewusstsein namens LMTrack. Bestehende kontextbewusste Verfolgungsmethoden erfassen typischerweise Kontext durch Mehrrahmen-Informationen, aber diese naiven Rahmen-Kontext-Methoden ignorieren die unterschiedliche Wichtigkeit von Patches innerhalb von Referenzrahmen und sind anfällig für Rauschen und redundante Tokens. LMTrack folgt dem Prinzip „Weniger ist Mehr", indem es die Wichtigkeitsverteilung aller Referenz-Tokens analysiert, wichtige Tokens sammelt, kontinuierlich beobachtet und aktualisiert. Die Methode umfasst zwei Kernkomponenten: das Token Context Memory (TCM)-Modul und einen unidirektionalen Token-Aufmerksamkeitsmechanismus und erreicht modernste Leistung auf mehreren Verfolgungsbenchmarks.

Forschungshintergrund und Motivation

Problemdefinition

Die Objektverfolgungsaufgabe zielt darauf ab, ein beliebiges Ziel in einer Videosequenz basierend auf seiner Anfangsposition zu lokalisieren und zu verfolgen. Jüngste Forschungen zeigen, dass die Nutzung von Kontextinformationen zur Wahrnehmung des Zielzustands für die Objektverfolgung entscheidend ist.

Einschränkungen bestehender Methoden

Körnigkeit auf Rahmenebene: Bestehende Methoden verwenden den Rahmen als minimale Einheit des Kontexts und ignorieren die unterschiedliche Wichtigkeit verschiedener Patches innerhalb von Referenzrahmen für die Zielpositionierung im Suchrahmen
Redundante Informationen: Die gleichbehandlung aller Referenz-Tokens erhöht die Wahrnehmungs- und Rechenlast des Modells, besonders in komplexen Szenen
Mangelnde Adaptivität: Die Verwendung von manuellen Strategien lässt den Tracker passiv Referenzrahmen akzeptieren, anstatt dass der Tracker selbst über Zielreferenzinformationen entscheidet

Forschungsmotivation

Durch die Analyse eines einfachen Transformer-Trackers wurde festgestellt, dass die meisten Hintergrund-Tokens während des Verfolgungsprozesses selten referenziert werden und minimale Auswirkungen auf die Ergebnisse haben, während Ziel-Tokens als langfristige Referenzsignale in großem Umfang beibehalten werden. Dies bestätigt die Hypothese, dass eine kleine Anzahl hochwertiger Tokens eine Schlüsselrolle im Verfolgungsprozess spielen.

Kernbeiträge

Vorschlag einer neuen Token-Kontextbewussten Verfolgungspipeline LMTrack: Basierend auf dem Token Context Memory-Modul unterscheidet sich LMTrack von bestehenden Verfolgungsmethoden auf Rahmenebene, indem es automatisch hochwertige Token-Kontexte für die visuelle Verfolgung sammelt und aktualisiert
Einführung eines effektiven unidirektionalen Aufmerksamkeitsmechanismus: Etabliert Abhängigkeitsbeziehungen zwischen Referenz-Tokens und Suchrahmen durch unidirektionale Ausbreitung und ermöglicht robuste rahmenübergreifende Zuordnung und Positionierung
Erreichung modernster Verfolgungsleistung: Erreicht neue optimale Ergebnisse auf fünf visuellen Verfolgungsbenchmarks: LaSOT, TrackingNet, GOT10K, LaSOText und VOT2020

Methodische Details

Aufgabendefinition

Gegeben eine anfängliche Zielposition, kontinuierliche Lokalisierung und Verfolgung des Ziels in einer Videosequenz. Die Eingabe ist eine Videorahmensequenz, die Ausgabe ist die Begrenzungsbox des Ziels in jedem Rahmen.

Modellarchitektur

Gesamtrahmen

LMTrack verwendet ein autoregressives Token-Kontextbewusstes Verfolgungsframework mit drei Hauptkomponenten:

Backbone-Netzwerk mit unidirektionalem Aufmerksamkeitsmechanismus
Token Context Memory (TCM)-Modul
Vorhersagekopf

Autoregressiver Verfolgungsprozess

Der Verfolgungsprozess ist definiert als:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

Wobei R Referenz-Tokens darstellt, I Bildrahmen darstellt und B die vorhergesagte Begrenzungsbox darstellt.

Token Context Memory (TCM)-Modul

Das TCM-Modul besteht aus drei Schritten:

Schritt 1: Sammlung wichtiger Tokens aus Referenz-Tokens

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

Wobei A die Cross-Attention-Matrix ist, C die Klassifizierungsergebniskarte ist und W die Wichtigkeitsverteilung darstellt.

Schritt 2: Integration der Klassifizierungskarte und Such-Tokens

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

Schritt 3: Aktualisierung der Referenz-Tokens Zusammenführung der Ergebnisse aus Schritt 1 und 2 zur Bildung neuer Referenz-Tokens Rₜ.

Unidirektionaler Aufmerksamkeitsmechanismus

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

Ermöglicht nur Referenz-Tokens, Such-Tokens zu beeinflussen, während die Konsistenz der Referenz-Token-Darstellung erhalten bleibt.

Technische Innovationspunkte

Von Rahmen- zu Token-Ebene-Kontext: Verzicht auf traditionellen Rahmen-Kontext zugunsten feinkörneriger Token-Ebene-Kontextdarstellung wichtiger Referenzsignale
Adaptive Wichtigkeitsanalyse: Kombination von Aufmerksamkeitsmatrix und Klassifizierungsergebnissen zur Analyse der Token-Wichtigkeit, anstatt feste Strategien zu verwenden
Unidirektionaler Informationsfluss: Verhindert die Verschmutzung der Referenz-Token-Darstellung durch Such-Tokens und verbessert die Fusionseffizienz

Experimentelle Einrichtung

Datensätze

Trainingsdaten: LaSOT, GOT-10k, TrackingNet, COCO
Test-Benchmarks: GOT-10K (180 Testsequenzen), TrackingNet (511 Videos), LaSOT (280 Test-Videos), LaSOText (150 Videos), VOT2020 (60 Herausforderungssequenzen)

Bewertungsmetriken

GOT-10K: Average Overlap (AO), Success Rate (SR)
LaSOT/LaSOText: Area Under Curve (AUC), Precision (P), Normalized Precision (PNorm)
TrackingNet: AUC, P, PNorm
VOT2020: Expected Average Overlap (EAO), Accuracy, Robustness

Implementierungsdetails

Backbone-Netzwerk: ViT-base
Optimierer: AdamW, Lernrate 4×10⁻⁵ (Backbone), 4×10⁻⁴ (andere)
Training: 300 Epochen, Batch-Größe 16, Tesla A100 GPU
Inferenz: Standardmäßig Referenzaktualisierung alle 400 Rahmen überprüfen, maximale Referenz-Token-Länge ist das Doppelte der Such-Token-Länge

Experimentelle Ergebnisse

Hauptergebnisse

GOT-10K-Benchmark

LMTrack384 erreicht 80,1% AO auf GOT-10K, eine Verbesserung von 2,6% gegenüber der bisherigen besten Methode ARTrackV2 mit 77,5% AO.

Leistung auf anderen Benchmarks

TrackingNet: 85,7% AUC
LaSOT: 73,2% AUC
LaSOText: 53,6% AUC, Verbesserung von 0,7% gegenüber ARTrackV2
VOT2020: 58,6% EAO (LMTrack384), 55,0% EAO (LMTrack256)

Effizienzvergleich

Im Vergleich zu SeqTrack bei gleicher Auflösung:

Parameter: 92M vs 89M
Rechenlast: 69G vs 148G FLOPs
Inferenzgeschwindigkeit: 47fps vs 21fps

Ablationsstudien

#	Attention	Autoregressive	Update	AO(%)
1	bidirektional	×	-	73,0
2	unidirektional	×	-	73,9
3	unidirektional	×	Template-Update	74,1
4	unidirektional	×	TCM	75,0
5	unidirektional	✓	Template-Update	75,6
6	unidirektional	✓	TCM	76,3

Wichtige Erkenntnisse:

Unidirektionale Aufmerksamkeit: Verbesserung von 0,9% AO gegenüber bidirektionaler Aufmerksamkeit, verhindert Rauschausbreitung vom Such- zum Referenzteil
Autoregressives Tracking: Verbesserung von 1,3-1,5% AO gegenüber traditionellen Methoden
TCM-Modul: Verbesserung von 0,7-0,9% AO gegenüber Template-Update-Strategie

Visualisierungsanalyse

TCM-Modul-Visualisierung

Zeigt den Prozess der Extraktion wichtiger Referenz-Tokens durch das TCM-Modul im Zeitverlauf, wobei die meisten Hintergrund-Tokens unwichtig werden und hauptsächlich Tokens erhalten bleiben, die die Zielerscheinung beschreiben.

Aufmerksamkeitsvergleich

Der Vergleich mit OSTrack zeigt, dass LMTrack mit Referenz-Tokens besser gegen Erscheinungsveränderungen und Störobjekte resistent ist und die Aufmerksamkeit auf das Ziel beibehält.

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

LMTrack verbessert die Verfolgungsleistung erheblich durch Token-Ebene-Kontextbewusstsein
Das TCM-Modul kann wichtige Referenz-Tokens effektiv sammeln und aktualisieren
Der unidirektionale Aufmerksamkeitsmechanismus verbessert die Effizienz und Genauigkeit der Merkmalsfusion
Erreicht modernste Leistung auf mehreren Benchmarks bei gleichzeitiger Verbesserung der Recheneffizienz

Einschränkungen

Rechenkomplexität: Obwohl effizienter als SeqTrack, erfordert es immer noch Wartung und Aktualisierung von Referenz-Tokens
Hyperparameter-Empfindlichkeit: Die Wahl des k-Wertes und die Aktualisierungsfrequenz können die Leistung beeinflussen
Langzeitverfolgung: Die Verwaltungsstrategie von Referenz-Tokens in extrem langen Sequenzen bedarf weiterer Optimierung

Zukünftige Richtungen

Erforschung effizienterer Methoden zur Bewertung der Token-Wichtigkeit
Untersuchung adaptiver Kontrollstrategien für die Referenz-Token-Länge
Erweiterung auf Multi-Objekt-Verfolgungsszenarien

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Der Übergang von Rahmen- zu Token-Ebene-Kontext ist eine wichtige Innovation
Solide theoretische Grundlagen: Experimentelle Validierung der Hypothese über die Wichtigkeitsverteilung von Tokens
Umfassende Experimente: Vollständige Bewertung auf mehreren Benchmarks und detaillierte Ablationsstudien
Hoher praktischer Wert: Verbessert die Leistung bei gleichzeitiger Steigerung der Recheneffizienz
Klare Visualisierung: Effektive Darstellung der Funktionsweise der Methode

Mängel

Methodenkomplexität: Das TCM-Modul-Design ist relativ komplex und kann die Implementierung und Optimierung beeinflussen
Parameterempfindlichkeit: Mehrere Hyperparameter (k-Wert, Aktualisierungsfrequenz usw.) erfordern sorgfältige Abstimmung
Unzureichende theoretische Analyse: Mangel an theoretischer Analyse der Konvergenz und Stabilität der Methode
Begrenzte Anwendbarkeit: Hauptsächlich auf Single-Object-Tracking ausgerichtet, die Anwendbarkeit in Multi-Object-Szenarien ist nicht validiert

Einfluss

Akademischer Beitrag: Bietet eine neue Forschungsrichtung für kontextbewusstes Tracking
Praktischer Wert: Die Methode behält hohe Leistung bei gleichzeitiger Verbesserung der Effizienz
Reproduzierbarkeit: Bietet vollständige Implementierungsdetails und Code

Anwendungsszenarien

Echtzeit-Verfolgungsanwendungen: Hohe Inferenzgeschwindigkeit eignet sich für Echtzeit-Szenarien
Langzeit-Verfolgungsaufgaben: Adaptive Token-Verwaltung eignet sich für Langsequenz-Verfolgung
Verfolgung in komplexen Umgebungen: Kann effektiv mit Erscheinungsveränderungen und Störobjekten umgehen

Literaturverzeichnis

Dieses Papier zitiert wichtige Arbeiten im Bereich der Objektverfolgung, einschließlich:

Siamese-Netzwerk-Serie (SiamRPN++, SiamFC++)
Transformer-Tracker (TransT, STARK, Mixformer)
Kontextbewusste Methoden (STMTrack, SeqTrack, OSTrack)
Aufmerksamkeitsmechanismen (Transformer, ViT)

Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das die vorgeschlagene LMTrack-Methode sowohl in theoretischer Innovation als auch in experimenteller Validierung ausgezeichnet darstellt. Das Designprinzip „Weniger ist Mehr" und das Token-Ebene-Kontextbewusstsein bieten neue Forschungsrichtungen für das Objektverfolgungsfeld und haben wichtige akademische und praktische Bedeutung.