Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free
Zhang, Xiao, Tang et al.
Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.
academic
تقليم الرموز للتخزين المؤقت بشكل أفضل: تسريع بمعامل 9× على Stable Diffusion مجاناً
حققت نماذج Stable Diffusion نجاحاً ملحوظاً في مجال توليد الصور من النصوص، لكن آلية إزالة الضوضاء التكرارية تؤدي إلى تكاليف حسابية عالية وسرعة توليد بطيئة. على الرغم من أن طرق التخزين المؤقت للميزات تحظى باهتمام بسبب فعاليتها وبساطتها، فإن إعادة استخدام الميزات المحسوبة من الخطوات الزمنية السابقة ببساطة يؤدي إلى تشابه الميزات بين الخطوات الزمنية المتجاورة، مما يقلل من ديناميكية الميزات عبر الزمن ويؤثر في النهاية على جودة الصور المولدة. تقترح هذه الورقة طريقة تقليم رموز ديناميكية الوعي (DaTo) لمعالجة قيود التخزين المؤقت للميزات. تقوم طريقة DaTo بتقليم الرموز ذات الديناميكية المنخفضة بشكل انتقائي، مما يسمح فقط للرموز عالية الديناميكية بالمشاركة في طبقات الانتباه الذاتي، وبالتالي توسيع ديناميكية الميزات عبر الخطوات الزمنية. عند تطبيقها على Stable Diffusion على ImageNet، حققت الطريقة تسريعاً بمعامل 9× مع انخفاض FID بمقدار 0.33؛ وتم ملاحظة تسريع بمعامل 7× على COCO-30k مع انخفاض كبير في FID بمقدار 2.17.
حققت نماذج الانتشار تقدماً كبيراً في مجال النمذجة التوليدية، مع تطبيقات واسعة في توليد الصور من النصوص وتوليد الفيديو وغيرها من المهام. ومع ذلك، فإن آلية إزالة الضوضاء التكرارية في نماذج الانتشار تؤدي إلى تكاليف حسابية ضخمة وسرعة توليد بطيئة، مما يحد من تطبيقاتها الأوسع.
تشمل الطرق الحالية لتسريع نماذج الانتشار بشكل أساسي:
تقليل عدد خطوات الأخذ: مثل أخذ العينات السريع DDIM
تقليل تكلفة الحساب في كل خطوة: بما في ذلك تقطير المعرفة والتقليم الهيكلي والتكميم وتقليم الرموز والتخزين المؤقت للميزات
من بينها، يحظى التخزين المؤقت للميزات بشعبية واسعة بسبب فعاليته وبساطته، حيث يخزن الميزات المحسوبة من الخطوات الزمنية السابقة ويعيد استخدامها في الخطوات الزمنية اللاحقة. ومع ذلك، فإن إعادة استخدام الميزات تفرض على الميزات في خطوات زمنية مختلفة أن تكون لها قيم متشابهة، مما يقلل من ديناميكية الميزات عبر الخطوات الزمنية، ويضر بعملية الانتشار الأصلية، وبالتالي يقلل من جودة التوليد.
اكتشفت الورقة من خلال الملاحظات التجريبية أن نماذج استخدام التخزين المؤقت للميزات تظهر انخفاضاً كبيراً في الاختلافات بين الخطوات الزمنية المتجاورة مقارنة بـ Stable Diffusion الأصلي. يثير هذا سؤالاً حاسماً: هل يمكن تنفيذ التخزين المؤقت للميزات مع الحفاظ على ديناميكية الميزات الصحيحة؟
اقتراح طريقة تقليم الرموز ديناميكية الوعي (DaTo): من خلال تقليم الرموز التي تنخفض ديناميكيتها عبر خطوات زمنية مختلفة بسبب التخزين المؤقت للميزات، واستعادتها برموز ذات ديناميكية عالية، تتجنب الطريقة انخفاض جودة التوليد الناجم عن التخزين المؤقت للميزات.
تصميم استراتيجية البحث التطوري: اقتراح البحث من خلال الطرق التطورية عن استراتيجيات مثلى للتخزين المؤقت للميزات وتقليم الرموز، مما يحرر بالكامل إمكانات DaTo.
تحقيق تحسينات أداء كبيرة: تظهر التجارب الواسعة على Stable Diffusion و SDXL أنه بدون تدريب وبيانات إضافية، يمكن تحقيق تسريع يصل إلى 9× على Stable Diffusion مع عدم فقدان جودة التوليد.
تتمثل مهمة هذه الورقة في تسريع عملية الاستدلال لنموذج Stable Diffusion بشكل كبير مع الحفاظ على جودة توليد الصور. الإدخال عبارة عن موجه نصي، والإخراج صورة عالية الجودة مقابلة، والقيد هو عدم الحاجة إلى إعادة تدريب النموذج.
آلية استعادة الديناميكية: من خلال تقليم الرموز منخفضة الديناميكية بشكل انتقائي واستعادتها برموز عالية الديناميكية، تم استعادة توزيع ديناميكية الميزات التي تضررت من التخزين المؤقت للميزات بنجاح.
إطار عمل موحد للتخزين المؤقت والتقليم: دمج التخزين المؤقت للميزات وتقليم الرموز في إطار عمل واحد مستقل عن التدريب، مما يحقق إعادة استخدام المعلومات على مستوى الزمن والرموز.
البحث عن الاستراتيجيات التكيفية: اقتراح طريقة للبحث التلقائي عن عمق التخزين المؤقت ونسبة التقليم المثلى لخصائص الزيادة المختلفة في خطوات زمنية مختلفة.
فعالية DiffScore:
باستخدام DiffScore بشكل متسق تحت إعدادات تخزين مؤقت مختلفة ونسب تقليم، تحسنت درجات FID، مما يثبت فعالية درجة الفرق الزمني للضوضاء.
تأثير محاذاة CFG:
مع زيادة نسبة التقليم، تزداد الفوائد التي تجلبها محاذاة CFG تدريجياً، مع تحسن FID يتراوح من 13 نقطة إلى 30 نقطة عند نسب تقليم عالية (0.7).
تستشهد الورقة بـ 46 مرجعاً ذا صلة، تغطي نماذج الانتشار وتقليل الرموز وآليات التخزين المؤقت وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة للبحث.
التقييم العام: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح حلاً مبتكراً لمشكلة مهمة في تسريع نماذج الانتشار. يتميز تصميم الطريقة بالذكاء، والتقييم التجريبي شامل، والقيمة العملية بارزة. على الرغم من أن هناك بعض النقص في عمق التحليل النظري، فإن مساهماتها العملية وتأثيرها يستحقان الاعتراف.