Less is More: Token Context-aware Learning for Object Tracking
Xu, Zhong, Liang et al.
Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.
academic
Weniger ist Mehr: Token-Kontextbewusstes Lernen für Objektverfolgung
Dieses Papier präsentiert eine neue Methode zur Objektverfolgung basierend auf Token-Kontextbewusstsein namens LMTrack. Bestehende kontextbewusste Verfolgungsmethoden erfassen typischerweise Kontext durch Mehrrahmen-Informationen, aber diese naiven Rahmen-Kontext-Methoden ignorieren die unterschiedliche Wichtigkeit von Patches innerhalb von Referenzrahmen und sind anfällig für Rauschen und redundante Tokens. LMTrack folgt dem Prinzip „Weniger ist Mehr", indem es die Wichtigkeitsverteilung aller Referenz-Tokens analysiert, wichtige Tokens sammelt, kontinuierlich beobachtet und aktualisiert. Die Methode umfasst zwei Kernkomponenten: das Token Context Memory (TCM)-Modul und einen unidirektionalen Token-Aufmerksamkeitsmechanismus und erreicht modernste Leistung auf mehreren Verfolgungsbenchmarks.
Die Objektverfolgungsaufgabe zielt darauf ab, ein beliebiges Ziel in einer Videosequenz basierend auf seiner Anfangsposition zu lokalisieren und zu verfolgen. Jüngste Forschungen zeigen, dass die Nutzung von Kontextinformationen zur Wahrnehmung des Zielzustands für die Objektverfolgung entscheidend ist.
Körnigkeit auf Rahmenebene: Bestehende Methoden verwenden den Rahmen als minimale Einheit des Kontexts und ignorieren die unterschiedliche Wichtigkeit verschiedener Patches innerhalb von Referenzrahmen für die Zielpositionierung im Suchrahmen
Redundante Informationen: Die gleichbehandlung aller Referenz-Tokens erhöht die Wahrnehmungs- und Rechenlast des Modells, besonders in komplexen Szenen
Mangelnde Adaptivität: Die Verwendung von manuellen Strategien lässt den Tracker passiv Referenzrahmen akzeptieren, anstatt dass der Tracker selbst über Zielreferenzinformationen entscheidet
Durch die Analyse eines einfachen Transformer-Trackers wurde festgestellt, dass die meisten Hintergrund-Tokens während des Verfolgungsprozesses selten referenziert werden und minimale Auswirkungen auf die Ergebnisse haben, während Ziel-Tokens als langfristige Referenzsignale in großem Umfang beibehalten werden. Dies bestätigt die Hypothese, dass eine kleine Anzahl hochwertiger Tokens eine Schlüsselrolle im Verfolgungsprozess spielen.
Vorschlag einer neuen Token-Kontextbewussten Verfolgungspipeline LMTrack: Basierend auf dem Token Context Memory-Modul unterscheidet sich LMTrack von bestehenden Verfolgungsmethoden auf Rahmenebene, indem es automatisch hochwertige Token-Kontexte für die visuelle Verfolgung sammelt und aktualisiert
Einführung eines effektiven unidirektionalen Aufmerksamkeitsmechanismus: Etabliert Abhängigkeitsbeziehungen zwischen Referenz-Tokens und Suchrahmen durch unidirektionale Ausbreitung und ermöglicht robuste rahmenübergreifende Zuordnung und Positionierung
Erreichung modernster Verfolgungsleistung: Erreicht neue optimale Ergebnisse auf fünf visuellen Verfolgungsbenchmarks: LaSOT, TrackingNet, GOT10K, LaSOText und VOT2020
Gegeben eine anfängliche Zielposition, kontinuierliche Lokalisierung und Verfolgung des Ziels in einer Videosequenz. Die Eingabe ist eine Videorahmensequenz, die Ausgabe ist die Begrenzungsbox des Ziels in jedem Rahmen.
Von Rahmen- zu Token-Ebene-Kontext: Verzicht auf traditionellen Rahmen-Kontext zugunsten feinkörneriger Token-Ebene-Kontextdarstellung wichtiger Referenzsignale
Adaptive Wichtigkeitsanalyse: Kombination von Aufmerksamkeitsmatrix und Klassifizierungsergebnissen zur Analyse der Token-Wichtigkeit, anstatt feste Strategien zu verwenden
Unidirektionaler Informationsfluss: Verhindert die Verschmutzung der Referenz-Token-Darstellung durch Such-Tokens und verbessert die Fusionseffizienz
Unidirektionale Aufmerksamkeit: Verbesserung von 0,9% AO gegenüber bidirektionaler Aufmerksamkeit, verhindert Rauschausbreitung vom Such- zum Referenzteil
Autoregressives Tracking: Verbesserung von 1,3-1,5% AO gegenüber traditionellen Methoden
TCM-Modul: Verbesserung von 0,7-0,9% AO gegenüber Template-Update-Strategie
Zeigt den Prozess der Extraktion wichtiger Referenz-Tokens durch das TCM-Modul im Zeitverlauf, wobei die meisten Hintergrund-Tokens unwichtig werden und hauptsächlich Tokens erhalten bleiben, die die Zielerscheinung beschreiben.
Der Vergleich mit OSTrack zeigt, dass LMTrack mit Referenz-Tokens besser gegen Erscheinungsveränderungen und Störobjekte resistent ist und die Aufmerksamkeit auf das Ziel beibehält.
Frühe Methoden verließen sich hauptsächlich auf anfängliche Template-Methoden, wie Siamese-Netzwerke, die das anfängliche Ziel-Template mit Kandidatenbereichen abgleichen, hatten aber Schwierigkeiten, sich an signifikante Änderungen der Zielerscheinung anzupassen.
Um mit Erscheinungsveränderungen umzugehen, modellieren viele Tracker die visuelle Verfolgung als Online-Lernproblem:
UpdateNet: Verwendet benutzerdefiniertes Netzwerk zur Fusion kumulativer Templates
ATOM: Fügt IoU-Vorhersagezweig zur Einschränkung der Template-Auswahl hinzu
STMTrack: Aktualisiert dynamische Templates in festen Intervallen
SeqTrack: Verwendet wahrscheinlichkeitsbasierte Strategie zur Auswahl dynamischer Templates
Einschränkungen dieser Methoden:
Template-Aktualisierung basierend auf Begrenzungsbox-Zuschnitt führt leicht zu Rauscheinführung
Verwendung manueller Methoden oder zusätzlicher Diskriminanzmodelle zur Template-Aktualisierung, ohne zu unterscheiden, welche Kontexte für die Verfolgung wichtig sind
Gesamtbewertung: Dies ist ein hochqualitatives Computervisions-Papier, das die vorgeschlagene LMTrack-Methode sowohl in theoretischer Innovation als auch in experimenteller Validierung ausgezeichnet darstellt. Das Designprinzip „Weniger ist Mehr" und das Token-Ebene-Kontextbewusstsein bieten neue Forschungsrichtungen für das Objektverfolgungsfeld und haben wichtige akademische und praktische Bedeutung.