2025-11-17T17:07:12.969103

Less is More: Token Context-aware Learning for Object Tracking

Xu, Zhong, Liang et al.

Recently, several studies have shown that utilizing contextual information to perceive target states is crucial for object tracking. They typically capture context by incorporating multiple video frames. However, these naive frame-context methods fail to consider the importance of each patch within a reference frame, making them susceptible to noise and redundant tokens, which deteriorates tracking performance. To address this challenge, we propose a new token context-aware tracking pipeline named LMTrack, designed to automatically learn high-quality reference tokens for efficient visual tracking. Embracing the principle of Less is More, the core idea of LMTrack is to analyze the importance distribution of all reference tokens, where important tokens are collected, continually attended to, and updated. Specifically, a novel Token Context Memory module is designed to dynamically collect high-quality spatio-temporal information of a target in an autoregressive manner, eliminating redundant background tokens from the reference frames. Furthermore, an effective Unidirectional Token Attention mechanism is designed to establish dependencies between reference tokens and search frame, enabling robust cross-frame association and target localization. Extensive experiments demonstrate the superiority of our tracker, achieving state-of-the-art results on tracking benchmarks such as GOT-10K, TrackingNet, and LaSOT.

academic

أقل هو أكثر: التعلم الموجه بسياق الرموز لتتبع الأجسام

المعلومات الأساسية

معرّف الورقة: 2501.00758
العنوان: أقل هو أكثر: التعلم الموجه بسياق الرموز لتتبع الأجسام
المؤلفون: Chenlong Xu, Bineng Zhong, Qihua Liang, Yaozong Zheng, Guorong Li, Shuxiang Song
التصنيف: cs.CV (رؤية الحاسوب)
وقت النشر/المؤتمر: AAAI 2025
رابط الورقة: https://arxiv.org/abs/2501.00758
رابط الكود: https://github.com/XuChenLong/LMTrack

الملخص

تقترح هذه الورقة طريقة جديدة لتتبع الأجسام قائمة على الوعي بسياق الرموز تسمى LMTrack. عادة ما تحاول طرق الوعي السياقي الحالية التقاط السياق من خلال معلومات متعددة الإطارات، لكن هذه الطرق السذاجة على مستوى الإطار تتجاهل الاختلافات في أهمية الرقع المختلفة داخل الإطار المرجعي وتتأثر بسهولة بالضوضاء والرموز الزائدة. يتبع LMTrack مبدأ "أقل هو أكثر" من خلال تحليل توزيع الأهمية لجميع الرموز المرجعية، وجمع والتركيز المستمر على تحديث الرموز المهمة. تتضمن الطريقة مكونين أساسيين: وحدة ذاكرة سياق الرموز (TCM) وآلية الانتباه أحادية الاتجاه، وقد حققت أداءً متقدماً على عدة معايير تتبع.

الخلفية البحثية والدافع

تعريف المشكلة

تهدف مهمة تتبع الأجسام إلى تحديد موقع وتتبع أي جسم تعسفي في سلسلة فيديو بناءً على الموضع الأولي. أظهرت الأبحاث الحديثة أن استخدام المعلومات السياقية والوعي بحالة الجسم أمر بالغ الأهمية لتتبع الأجسام.

قيود الطرق الموجودة

الطبيعة الخشنة للسياق على مستوى الإطار: تتعامل الطرق الموجودة مع الإطار كأصغر وحدة سياق، متجاهلة الاختلافات في أهمية الرقع المختلفة داخل الإطار المرجعي لتحديد موقع الجسم في الإطار البحثي
تداخل المعلومات الزائدة: معاملة جميع الرموز المرجعية بالتساوي يزيد من عبء الإدراك والحساب للنموذج، خاصة في السيناريوهات المعقدة
نقص التكيف: استخدام استراتيجيات يدوية يجعل المتتبع يقبل الإطارات المرجعية بشكل سلبي، بدلاً من السماح للمتتبع باتخاذ قرارات مستقلة حول معلومات الجسم المرجعية

الدافع البحثي

من خلال تحليل متتبع Transformer بسيط التصميم، تم اكتشاف أن معظم رموز الخلفية نادراً ما يتم الرجوع إليها أثناء عملية التتبع وتؤثر بشكل طفيف على النتائج، بينما يتم الاحتفاظ برموز الجسم كمؤشرات مرجعية طويلة الأجل بكثرة. يؤكد هذا فرضية أن عدداً قليلاً من الرموز عالية الجودة يلعب دوراً حاسماً في عملية التتبع.

المساهمات الأساسية

اقتراح خط أنابيب تتبع جديد موجه بسياق الرموز LMTrack: بناءً على وحدة ذاكرة سياق الرموز، يختلف LMTrack عن طرق التتبع الحالية القائمة على السياق على مستوى الإطار، حيث يجمع ويحدّث تلقائياً سياق رموز عالي الجودة للتتبع البصري
إدخال آلية انتباه أحادية الاتجاه فعالة: إنشاء علاقات الاعتماد بين رموز الإشارة والإطار البحثي بطريقة الانتشار أحادي الاتجاه، مما يحقق ربطاً قوياً بين الإطارات وتحديد موقع دقيق
تحقيق أداء تتبع متقدم: تحقيق نتائج جديدة مثلى على خمسة معايير تتبع بصري: LaSOT و TrackingNet و GOT10K و LaSOText و VOT2020

شرح الطريقة

تعريف المهمة

بناءً على موضع الجسم الأولي، استمر في تحديد موقع وتتبع الجسم في سلسلة الفيديو. الإدخال عبارة عن سلسلة إطارات فيديو، والإخراج هو صندوق محيط للجسم في كل إطار.

معمارية النموذج

الإطار العام

يعتمد LMTrack على إطار عمل تتبع سياق رموز استرجاعي، يتضمن ثلاثة مكونات رئيسية:

شبكة العمود الفقري مع آلية الانتباه أحادية الاتجاه
وحدة ذاكرة سياق الرموز (TCM)
رأس التنبؤ

عملية التتبع الاسترجاعي

يتم تعريف عملية التتبع على النحو التالي:

R₀ = f(I₀, ∅), t = 0
Bₜ, Rₜ = f(Iₜ, Rₜ₋₁) = f(Iₜ, f(Iₜ₋₁, Rₜ₋₂)), t > 0

حيث R تمثل رموز الإشارة، I تمثل إطارات الصور، B تمثل صناديق التنبؤ.

وحدة ذاكرة سياق الرموز (TCM)

تنقسم وحدة TCM إلى ثلاث خطوات:

الخطوة 1: جمع الرموز المهمة من رموز الإشارة

W = Σⱼ₌₁ᴸ Aⱼ × C
R' = Topk(Rank(R, W))

حيث A هي مصفوفة الانتباه المتقاطع، C هي خريطة درجات التصنيف، W تمثل توزيع الأهمية.

الخطوة 2: دمج خريطة التصنيف ورموز البحث

S' = S + CᵦᵢₙEₜₐᵣgₑₜ + (1 - Cᵦᵢₙ)Eᵦₐcₖgᵣₒᵤₙd

الخطوة 3: تحديث رموز الإشارة دمج نتائج الخطوة 1 والخطوة 2 لتشكيل رموز إشارة جديدة Rₜ.

آلية الانتباه أحادية الاتجاه

S = Softmax([QₛKᵣᵀ; QₛKₛᵀ]/√dₖ)[Vᵣ; Vₛ]

السماح فقط لرموز الإشارة بالتأثير على رموز البحث، مع الحفاظ على اتساق تمثيل رموز الإشارة.

نقاط الابتكار التقني

من السياق على مستوى الإطار إلى السياق على مستوى الرموز: التخلي عن السياق التقليدي على مستوى الإطار واستخدام تمثيل سياق دقيق على مستوى الرموز للإشارة إلى مؤشرات مرجعية مهمة
تحليل الأهمية التكيفي: دمج مصفوفة الانتباه ونتائج التصنيف لتحليل أهمية الرموز، بدلاً من استخدام استراتيجية ثابتة
تدفق المعلومات أحادي الاتجاه: منع رموز البحث من تلويث تمثيل رموز الإشارة، مما يحسن كفاءة الدمج

إعداد التجارب

مجموعات البيانات

بيانات التدريب: LaSOT و GOT-10k و TrackingNet و COCO
معايير الاختبار: GOT-10K (180 تسلسل اختبار) و TrackingNet (511 فيديو) و LaSOT (280 فيديو اختبار) و LaSOText (150 فيديو) و VOT2020 (60 تسلسل تحدٍ)

مقاييس التقييم

GOT-10K: متوسط التداخل (AO) ومعدل النجاح (SR)
LaSOT/LaSOText: المساحة تحت المنحنى (AUC) والدقة (P) والدقة المعايرة (PNorm)
TrackingNet: AUC و P و PNorm
VOT2020: متوسط التداخل المتوقع (EAO) والدقة والقوة

تفاصيل التنفيذ

شبكة العمود الفقري: ViT-base
المُحسِّن: AdamW، معدل التعلم 4×10⁻⁵ (العمود الفقري)، 4×10⁻⁴ (الآخرون)
التدريب: 300 حقبة، حجم الدفعة 16، وحدة معالجة رسومات Tesla A100
الاستدلال: افتراضياً كل 400 إطار للتحقق من تحديث الإشارة، الحد الأقصى لطول رموز الإشارة هو ضعف طول رموز البحث

نتائج التجارب

النتائج الرئيسية

معيار GOT-10K

حقق LMTrack384 80.1% AO على GOT-10K، مما يمثل تحسناً بنسبة 2.6% مقارنة بأفضل طريقة سابقة ARTrackV2 بنسبة 77.5% AO.

أداء المعايير الأخرى

TrackingNet: 85.7% AUC
LaSOT: 73.2% AUC
LaSOText: 53.6% AUC، تحسن بنسبة 0.7% مقارنة بـ ARTrackV2
VOT2020: 58.6% EAO (LMTrack384)، 55.0% EAO (LMTrack256)

مقارنة الكفاءة

مقارنة بـ SeqTrack بنفس الدقة:

عدد المعاملات: 92M مقابل 89M
حجم الحساب: 69G مقابل 148G FLOPs
سرعة الاستدلال: 47fps مقابل 21fps

تجارب الاستئصال

#	الانتباه	الاسترجاعي	التحديث	AO(%)
1	ثنائي الاتجاه	×	-	73.0
2	أحادي الاتجاه	×	-	73.9
3	أحادي الاتجاه	×	تحديث القالب	74.1
4	أحادي الاتجاه	×	TCM	75.0
5	أحادي الاتجاه	✓	تحديث القالب	75.6
6	أحادي الاتجاه	✓	TCM	76.3

النتائج الرئيسية:

الانتباه أحادي الاتجاه: تحسن بنسبة 0.9% AO مقارنة بالانتباه ثنائي الاتجاه، مما يمنع انتشار الضوضاء من البحث إلى الإشارة
التتبع الاسترجاعي: تحسن بنسبة 1.3-1.5% AO مقارنة بالطرق التقليدية
وحدة TCM: تحسن بنسبة 0.7-0.9% AO مقارنة باستراتيجية تحديث القالب

تحليل التصور

تصور وحدة TCM

يوضح عملية استخراج رموز الإشارة المهمة بمرور الوقت بواسطة وحدة TCM، حيث تصبح معظم رموز الخلفية غير مهمة، مع الاحتفاظ بشكل أساسي برموز تصف مظهر الجسم.

مقارنة الانتباه

تُظهر المقارنة مع OSTrack أن LMTrack باستخدام رموز الإشارة يمكنه مقاومة التغييرات في المظهر والأجسام المزعجة بشكل أفضل، مع الحفاظ على التركيز على الجسم.

الأعمال ذات الصلة

أطر العمل التقليدية

اعتمدت الطرق المبكرة بشكل أساسي على طرق القالب الأولي، مثل شبكات Siamese لمطابقة قالب الجسم الأولي مع المناطق المرشحة، لكنها واجهت صعوبة في التكيف مع التغييرات الكبيرة في مظهر الجسم.

تتبع السياق الزمني

لمعالجة التغييرات في المظهر، نمذج العديد من المتتبعات التتبع البصري كمشكلة تعلم عبر الإنترنت:

UpdateNet: استخدام شبكة مخصصة لدمج القوالب المتراكمة
ATOM: إضافة فرع توقع IoU لقيد اختيار القالب
STMTrack: تحديث القالب الديناميكي على فترات ثابتة
SeqTrack: استخدام استراتيجية قائمة على الاحتمالية لاختيار القالب الديناميكي

قيود هذه الطرق:

تحديث القالب بناءً على قص الصندوق المحيط، مما قد يؤدي إلى إدخال ضوضاء
استخدام طرق يدوية أو نماذج تمييزية إضافية لتحديث القالب، دون التمييز بين السياق المهم للتتبع

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحسن LMTrack أداء التتبع بشكل كبير من خلال الوعي بسياق الرموز على مستوى الرموز
يمكن لوحدة TCM جمع وتحديث رموز الإشارة المهمة بفعالية
تحسن آلية الانتباه أحادية الاتجاه كفاءة ودقة دمج الميزات
تحقيق أداء متقدم على عدة معايير، مع تحسين الكفاءة الحسابية

القيود

التعقيد الحسابي: على الرغم من أنه أكثر كفاءة من SeqTrack، لا يزال يتطلب الحفاظ على رموز الإشارة وتحديثها
حساسية المعاملات الفائقة: قد يؤثر اختيار قيمة k وتكرار التحديث على الأداء
التتبع طويل الأجل: تحتاج استراتيجية إدارة رموز الإشارة في السلاسل الطويلة جداً إلى مزيد من التحسين

الاتجاهات المستقبلية

استكشاف طرق أكثر كفاءة لتقييم أهمية الرموز
دراسة استراتيجيات التحكم في طول رموز الإشارة التكيفية
التوسع إلى سيناريوهات تتبع متعددة الأجسام

التقييم المتعمق

المميزات

ابتكار قوي: التحول من السياق على مستوى الإطار إلى السياق على مستوى الرموز هو ابتكار مهم
أساس نظري متين: التحقق التجريبي من فرضية توزيع الرموز المهمة
تجارب شاملة: تقييم شامل على عدة معايير وتجارب استئصال مفصلة
قيمة عملية عالية: تحسين الأداء مع تحسين الكفاءة الحسابية
تصور واضح: عرض فعال لآلية عمل الطريقة

أوجه القصور

تعقيد الطريقة: تصميم وحدة TCM معقد نسبياً، قد يؤثر على التنفيذ والضبط
حساسية المعاملات: معاملات متعددة (قيمة k، تكرار التحديث، إلخ) تتطلب ضبطاً دقيقاً
نقص التحليل النظري: افتقار إلى تحليل نظري لتقارب واستقرار الطريقة
نطاق التطبيق: موجهة بشكل أساسي لتتبع جسم واحد، لم يتم التحقق من قابلية التطبيق في سيناريوهات متعددة الأجسام

التأثير

المساهمة الأكاديمية: توفير اتجاه بحثي جديد للتتبع الموجه بالسياق
القيمة العملية: تحسين الأداء مع تحسين الكفاءة
قابلية التكرار: توفير تفاصيل تنفيذ كاملة والكود

السيناريوهات المطبقة

تطبيقات التتبع في الوقت الفعلي: سرعة الاستدلال العالية مناسبة للسيناريوهات في الوقت الفعلي
مهام التتبع طويل الأجل: إدارة الرموز التكيفية مناسبة لتتبع السلاسل الطويلة
تتبع البيئات المعقدة: يمكن التعامل الفعال مع التغييرات في المظهر والأجسام المزعجة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجال تتبع الأجسام، بما في ذلك:

سلسلة شبكات Siamese (SiamRPN++, SiamFC++)
متتبعات Transformer (TransT, STARK, Mixformer)
طرق الوعي السياقي (STMTrack, SeqTrack, OSTrack)
آليات الانتباه (Transformer, ViT)

التقييم العام: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، حيث يُظهر الطريقة المقترحة LMTrack تميزاً في الابتكار النظري والتحقق التجريبي. توفر فكرة التصميم "أقل هو أكثر" والوعي بسياق الرموز اتجاهاً بحثياً جديداً لمجال تتبع الأجسام، وتتمتع بقيمة أكاديمية وعملية مهمة.