2025-11-19T15:28:14.078632

Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition

Rios, Yuanda, Ghanz et al.

Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}

academic

تجميع الذاكرة المؤقتة عبر الطبقات لتقليل الرموز في التعرف على الصور فائق الدقة

المعلومات الأساسية

معرّف الورقة: 2501.00243
العنوان: Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
المؤلفون: Edwin Arkel Rios, Jansen Christopher Yuanda, Vincent Leon Ghanz, Cheng-Wei Yu, Bo-Cheng Lai, Min-Chun Hu
التصنيف: cs.CV
تاريخ النشر: 31 ديسمبر 2024
رابط الورقة: https://arxiv.org/abs/2501.00243
رابط الكود: https://github.com/arkel23/CLCA

الملخص

تقترح هذه الورقة طريقة جديدة لتجميع الذاكرة المؤقتة عبر الطبقات (CLCA) لمعالجة مشاكل الكفاءة الحسابية في مهام التعرف على الصور فائق الدقة (UFGIR). يعتبر UFGIR مهمة صعبة للغاية تتطلب التصنيف داخل الفئات الكبرى، مثل تحديد أنواع النباتات. على الرغم من أن الطرق القائمة على Vision Transformer حققت أداءً ممتازاً في هذه المهمة، إلا أن التكاليف الحسابية زادت بشكل كبير. لحل مشكلة فقدان المعلومات أثناء عملية تقليل الرموز، تقترح الورقة رأس تصنيف التجميع عبر الطبقات (CLA) وآلية الذاكرة المؤقتة عبر الطبقات (CLC). من خلال أكثر من 2000 تجربة، أثبتت الطريقة أنها تحافظ على دقة مماثلة للطرق المتقدمة الحالية حتى عندما ينخفض معدل الاحتفاظ بالرموز إلى 10%.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية: مشاكل الكفاءة الحسابية لـ Vision Transformer في التعرف على الصور فائق الدقة (UFGIR)
خصائص المهمة: يعتبر UFGIR أكثر صعوبة من التعرف على الصور الدقيقة التقليدي، حيث يتطلب التمييز بين الفئات الفرعية داخل النوع الواحد (مثل أنواع النباتات)
التحديات الحالية:
- يحقق ViT أداءً ممتازاً في مهام FGIR، لكن التعقيد الحسابي يصل إلى O(N²) أو حتى O(N³)
- الصور عالية الدقة ضرورية للتعرف الدقيق، لكنها تزيد من العبء الحسابي
- تقنيات تقليل الرموز تقلل التكاليف الحسابية، لكنها تؤدي إلى فقدان المعلومات التمييزية الحرجة

الدافع البحثي

تفقد طرق تقليل الرموز الحالية المعلومات الحرجة للتصنيف الدقيق أثناء تقليل التكاليف الحسابية. بشكل خاص، عندما ينخفض معدل الاحتفاظ بالرموز، يصبح فقدان المعلومات أكثر حدة، مما يؤثر على أداء تصنيف النموذج.

المساهمات الأساسية

اقتراح رأس التجميع عبر الطبقات (CLA): دمج الميزات من الطبقات الوسيطة للمحول مباشرة في وحدة التصنيف، مما يوفر معلومات تمييزية أغنى
تصميم آلية الذاكرة المؤقتة عبر الطبقات (CLC): تخزين واستعادة المعلومات الحرجة من الطبقات السابقة، مما يعوض عن فقدان المعلومات أثناء تقليل الرموز
بناء إطار عمل CLCA قابل للتوصيل: طريقة شاملة تجمع بين CLA و CLC، متوافقة مع تقنيات تقليل الرموز المتعددة
التحقق التجريبي على نطاق واسع: إجراء أكثر من 2000 تجربة على 5 مجموعات بيانات و 9 شبكات عصبية و 7 طرق لتقليل الرموز، مما يثبت فعالية الطريقة وعموميتها

شرح الطريقة

تعريف المهمة

الإدخال: صورة عالية الدقة I ∈ R^(H×W×3) الإخراج: التنبؤ بالفئة فائق الدقة y ∈ {1,2,...,C} القيود: تقليل التكاليف الحسابية (FLOPs) بشكل كبير مع الحفاظ على دقة عالية

معمارية النموذج

1. مجموعة مشفرات Vision Transformer

تقسيم الصورة إلى رقع بحجم P×P، وتسطيح إلى تسلسل بطول N=(S₁/P)×(S₂/P)
إضافة رمز CLS قابل للتعلم وترميز الموضع
تقسيم L طبقة من مشفر transformer إلى g مجموعة، تحتوي كل مجموعة على الانتباه متعدد الرؤوس (MHSA) والشبكة الأمامية الموضعية (PWFFN)
تطبيق عملية تقليل الرموز في الطبقة الأخيرة من كل مجموعة

2. رأس التجميع عبر الطبقات (CLA)

يتضمن تصميم رأس CLA الأساسي:

الإدخال: مخرجات رمز CLS من مجموعات المشفر
1. ربط الميزات وإعادة تشكيلها: CLS ∈ R^(D×g)
2. معالجة تطبيع الدفعة
3. تجميع الالتفاف العميق: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. التفعيل غير الخطي: نمذجة العلاقات المعقدة من خلال BatchNorm و GELU
5. تصنيف الالتفاف النقطي: preds = PWConv(GELU(BN(Agg)))

3. آلية الذاكرة المؤقتة عبر الطبقات (CLC)

سير عمل CLC:

مرحلة التخزين المؤقت:

بعد كل كتلة مشفر transformer، تخزين متوسط التجميع العام (GAP) للميزات المحلية
إدخال رمز سجل عبر الطبقات (CLR) قابل للتعلم، يجمع المعلومات التمييزية عبر الطبقات
تخزين ميزات GAP ورمز CLR في الذاكرة المؤقتة

مرحلة الاستعادة:

في موضع تقليل الرموز أو قبل الطبقة الأخيرة، استعادة المعلومات المخزنة من CLC
إضافة الرموز المستعادة إلى التسلسل الأصلي
مسح الذاكرة المؤقتة لتجنب الاستخدام المتكرر

نقاط الابتكار التقني

استراتيجية الحفاظ على المعلومات: حفظ المعلومات الحرجة المفقودة أثناء عملية تقليل الرموز من خلال آلية التخزين المؤقت
دمج الميزات عبر الطبقات: دمج الميزات من أعماق مختلفة مباشرة في قرار التصنيف
تصميم قابل للتوصيل: التكامل السلس مع طرق تقليل الرموز الموجودة المتعددة
تحسين التدرج: تصميم مشابه للاتصالات المباشرة يحسن استقرار التدريب

إعدادات التجربة

مجموعات البيانات

استخدام 5 مجموعات بيانات أوراق فائقة الدقة:

SoyGene: تصنيف النمط الجيني للصويا
SoyLocal: أنواع الصويا المحلية
SoyAgeing: مراحل شيخوخة الصويا
SoyGlobal: أنواع الصويا العالمية
Cotton: أنواع القطن

تمثل كل فئة أسماء الأنواع المؤكدة المحصول عليها من مستودع الموارد الجينية.

مؤشرات التقييم

المؤشر الرئيسي: دقة Top-1 (%)
مؤشرات الكفاءة: FLOPs (عدد العمليات الحسابية بالفاصلة العائمة)
الطريقة الإحصائية: متوسط النتائج من 3 بذور عشوائية

طرق المقارنة

طرق الحالة الفنية المتقدمة: ViT, DeiT, TransFG, SIM-Tr, CSDNet طرق تقليل الرموز:

القص الثابت: DynamicViT
القص الديناميكي: ATS
الدمج الناعم: SiT, PatchMerger
الدمج الصعب: DPCKNN, ToMe
المدفوع بالانتباه: EViT

تفاصيل التنفيذ

المحسّن: AdamW
عدد الحقب: 50 حقبة
تحلل الأوزان: 0.05
حجم الدفعة: 32
حجم الصورة: 224×224, 448×448
الشبكات العصبية: 9 نماذج مدربة مسبقاً (ViT, DeiT3, MIIL, MoCov3, DINO, MAE, CLIP وغيرها)
معدل الاحتفاظ: 100%, 70%, 50%, 25%, 10%
موضع تقليل الرموز: الطبقات 4، 7، 10 (ViT B-16 بـ 12 طبقة)

نتائج التجارب

النتائج الرئيسية

الطريقة	Cotton	SoyAgeing	SoyGlobal	FLOPs (10⁹)
ViT	52.5	67.0	40.6	78.5
DeiT	54.2	69.5	45.3	78.5
TransFG	54.6	72.2	21.2	447.9
CSDNet	57.9	75.4	56.3	78.5
CLCA (10%)	55.6	87.4	61.1	25.2
CLCA (70%)	67.8	88.3	58.2	50.9

الاكتشافات الرئيسية:

يحقق CLCA أداءً مماثلاً للنموذج الكامل حتى عند معدل احتفاظ 10%
على مجموعة بيانات SoyAgeing، يحسن CLCA(10%) الأداء بنسبة 12% مقارنة بأفضل طريقة أساسية
انخفضت التكاليف الحسابية إلى 32% من الأصل (25.2 مقابل 78.5 FLOPs)

الدراسات الاستئصالية

التحقق من فعالية CLCA من خلال تحليل التدرج:

استقرار التدريب: يحسن CLCA بشكل كبير استقرار التدرج، مما يقلل من التذبذب أثناء التدريب
إعادة استخدام الميزات: تعزز الاتصالات عبر الطبقات إعادة استخدام الميزات، بشكل مشابه لاتصالات skip في ResNet
الإشراف العميق: الاستخدام المباشر لميزات الطبقات الوسيطة يوفر إشرافاً عميقاً ضمنياً

التحقق من التعميم

تشير التجارب على طرق تقليل الرموز المختلفة إلى:

توافق CLCA مع 7 طرق مختلفة من نماذج تقليل الرموز
تحسن متسق على 9 شبكات عصبية مدربة مسبقاً مختلفة
استقرار تحسن الأداء عبر معدلات احتفاظ مختلفة (25%, 50%, 70%)

الأعمال ذات الصلة

التعرف على الصور الدقيقة

FGIR التقليدي: يركز بشكل أساسي على التصنيف على مستوى الأنواع
التعرف فائق الدقة: توسيع إلى تصنيف الفئات الفرعية داخل الأنواع، مثل أنواع النباتات
تطبيق ViT في FGIR: مزايا مجال الاستقبال العام، لكن التكاليف الحسابية عالية

تقنيات تقليل الرموز

قص الرموز: إسقاط الرموز غير المهمة بناءً على درجات الأهمية
دمج الرموز: دمج رموز متعددة في رمز واحد، مما يقلل طول التسلسل
القيود الحالية: فقدان لا مفر منه للمعلومات التمييزية، خاصة عند معدلات احتفاظ منخفضة

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تحسن الكفاءة: يمكن لـ CLCA الحفاظ على أداء تنافسية عند معدلات احتفاظ منخفضة جداً (10%)
العموميّة: الطريقة متوافقة مع تقنيات تقليل الرموز والشبكات العصبية المختلفة
القيمة العملية: توفر حلاً فعالاً للتعرف الدقيق في البيئات محدودة الموارد

القيود

تكاليف التخزين الإضافية: تتطلب آلية CLC ذاكرة إضافية لتخزين الميزات الوسيطة
حساسية المعاملات الفائقة: قد تتطلب استراتيجية التخزين المؤقت وطريقة التجميع تعديلاً لمهام مختلفة
قيود مجموعة البيانات: التحقق الرئيسي على مجموعات بيانات الأوراق، وتعميم المجالات الدقيقة الأخرى قيد الدراسة

الاتجاهات المستقبلية

استراتيجيات التخزين المؤقت التكيفية: ضبط محتوى وتوقيت التخزين المؤقت ديناميكياً بناءً على خصائص المهمة
آليات تجميع أكثر كفاءة: استكشاف طرق دمج ميزات عبر الطبقات أخف وزناً
التوسع متعدد الأنماط: توسيع الطريقة إلى مهام التعرف الدقيق متعددة الأنماط

التقييم المتعمق

المزايا

ابتكار قوي: أول معالجة منهجية لمشكلة فقدان المعلومات في تقليل الرموز
تجارب شاملة: أكثر من 2000 تجربة تغطي أبعاداً متعددة، النتائج موثوقة
قيمة عملية عالية: التصميم القابل للتوصيل يسهل التطبيق العملي
أساس نظري متين: شرح فعالية الطريقة من منظور تحسين التدرج وإعادة استخدام الميزات

أوجه القصور

تكاليف التخزين: تزيد آلية CLC من استخدام الذاكرة، مما قد يعوض بعض مكاسب الكفاءة
التعقيد: إدخال معاملات فائقة وخيارات تصميم إضافية
الخصوصية المجالية: التحقق الرئيسي على التعرف على الأوراق المتعلقة بالزراعة، التعميم محدود

التأثير

القيمة الأكاديمية: توفير أفكار وحلول جديدة لمجال تقليل الرموز
الأهمية العملية: ذات أهمية كبيرة للحوسبة الطرفية والتطبيقات المحمولة محدودة الموارد
القابلية للتكرار: توفير تنفيذ كود كامل، مما يسهل البحث اللاحق

السيناريوهات المطبقة

الحوسبة الطرفية: الأجهزة المحمولة والأنظمة المدمجة محدودة الموارد الحسابية
التطبيقات في الوقت الفعلي: مهام التعرف الدقيق التي تتطلب استجابة سريعة
النشر على نطاق واسع: أنظمة المراقبة الزراعية التي تتطلب النشر على عدد كبير من الأجهزة
منصات البحث: كوحدة تحسين لطرق تقليل الرموز الأخرى

المراجع

تستشهد الورقة بـ 32 مرجعاً مهماً، تغطي الأعمال الكلاسيكية في المجالات الرئيسية مثل التعرف الدقيق و Vision Transformer وتقليل الرموز، مما يوفر أساساً نظرياً متيناً للبحث.