Cross-Layer Cache Aggregation for Token Reduction in Ultra-Fine-Grained Image Recognition
Rios, Yuanda, Ghanz et al.
Ultra-fine-grained image recognition (UFGIR) is a challenging task that involves classifying images within a macro-category. While traditional FGIR deals with classifying different species, UFGIR goes beyond by classifying sub-categories within a species such as cultivars of a plant. In recent times the usage of Vision Transformer-based backbones has allowed methods to obtain outstanding recognition performances in this task but this comes at a significant cost in terms of computation specially since this task significantly benefits from incorporating higher resolution images. Therefore, techniques such as token reduction have emerged to reduce the computational cost. However, dropping tokens leads to loss of essential information for fine-grained categories, specially as the token keep rate is reduced. Therefore, to counteract the loss of information brought by the usage of token reduction we propose a novel Cross-Layer Aggregation Classification Head and a Cross-Layer Cache mechanism to recover and access information from previous layers in later locations. Extensive experiments covering more than 2000 runs across diverse settings including 5 datasets, 9 backbones, 7 token reduction methods, 5 keep rates, and 2 image sizes demonstrate the effectiveness of the proposed plug-and-play modules and allow us to push the boundaries of accuracy vs cost for UFGIR by reducing the kept tokens to extremely low ratios of up to 10\% while maintaining a competitive accuracy to state-of-the-art models. Code is available at: \url{https://github.com/arkel23/CLCA}
academic
تجميع الذاكرة المؤقتة عبر الطبقات لتقليل الرموز في التعرف على الصور فائق الدقة
تقترح هذه الورقة طريقة جديدة لتجميع الذاكرة المؤقتة عبر الطبقات (CLCA) لمعالجة مشاكل الكفاءة الحسابية في مهام التعرف على الصور فائق الدقة (UFGIR). يعتبر UFGIR مهمة صعبة للغاية تتطلب التصنيف داخل الفئات الكبرى، مثل تحديد أنواع النباتات. على الرغم من أن الطرق القائمة على Vision Transformer حققت أداءً ممتازاً في هذه المهمة، إلا أن التكاليف الحسابية زادت بشكل كبير. لحل مشكلة فقدان المعلومات أثناء عملية تقليل الرموز، تقترح الورقة رأس تصنيف التجميع عبر الطبقات (CLA) وآلية الذاكرة المؤقتة عبر الطبقات (CLC). من خلال أكثر من 2000 تجربة، أثبتت الطريقة أنها تحافظ على دقة مماثلة للطرق المتقدمة الحالية حتى عندما ينخفض معدل الاحتفاظ بالرموز إلى 10%.
تفقد طرق تقليل الرموز الحالية المعلومات الحرجة للتصنيف الدقيق أثناء تقليل التكاليف الحسابية. بشكل خاص، عندما ينخفض معدل الاحتفاظ بالرموز، يصبح فقدان المعلومات أكثر حدة، مما يؤثر على أداء تصنيف النموذج.
الإدخال: صورة عالية الدقة I ∈ R^(H×W×3)
الإخراج: التنبؤ بالفئة فائق الدقة y ∈ {1,2,...,C}
القيود: تقليل التكاليف الحسابية (FLOPs) بشكل كبير مع الحفاظ على دقة عالية
الإدخال: مخرجات رمز CLS من مجموعات المشفر
1. ربط الميزات وإعادة تشكيلها: CLS ∈ R^(D×g)
2. معالجة تطبيع الدفعة
3. تجميع الالتفاف العميق: Agg = DWConv(BN([CLS_G1; CLS_G2; ...; CLS_Gg]))
4. التفعيل غير الخطي: نمذجة العلاقات المعقدة من خلال BatchNorm و GELU
5. تصنيف الالتفاف النقطي: preds = PWConv(GELU(BN(Agg)))
تستشهد الورقة بـ 32 مرجعاً مهماً، تغطي الأعمال الكلاسيكية في المجالات الرئيسية مثل التعرف الدقيق و Vision Transformer وتقليل الرموز، مما يوفر أساساً نظرياً متيناً للبحث.