2025-11-23T17:13:17.428108

Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free

Zhang, Xiao, Tang et al.

Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.

academic

تقليم الرموز للتخزين المؤقت بشكل أفضل: تسريع بمعامل 9× على Stable Diffusion مجاناً

المعلومات الأساسية

معرّف الورقة: 2501.00375
العنوان: Token Pruning for Caching Better: 9× Acceleration on Stable Diffusion for Free
المؤلفون: Evelyn Zhang, Bang Xiao, Jiayi Tang, Qianli Ma, Chang Zou, Xuefei Ning, Xuming Hu, Linfeng Zhang
التصنيف: cs.CV (رؤية الحاسوب)، cs.LG (التعلم الآلي)
تاريخ النشر: 31 ديسمبر 2024
رابط الورقة: https://arxiv.org/abs/2501.00375
رابط الكود: github.com/EvelynZhang-epiclab/DaTo

الملخص

حققت نماذج Stable Diffusion نجاحاً ملحوظاً في مجال توليد الصور من النصوص، لكن آلية إزالة الضوضاء التكرارية تؤدي إلى تكاليف حسابية عالية وسرعة توليد بطيئة. على الرغم من أن طرق التخزين المؤقت للميزات تحظى باهتمام بسبب فعاليتها وبساطتها، فإن إعادة استخدام الميزات المحسوبة من الخطوات الزمنية السابقة ببساطة يؤدي إلى تشابه الميزات بين الخطوات الزمنية المتجاورة، مما يقلل من ديناميكية الميزات عبر الزمن ويؤثر في النهاية على جودة الصور المولدة. تقترح هذه الورقة طريقة تقليم رموز ديناميكية الوعي (DaTo) لمعالجة قيود التخزين المؤقت للميزات. تقوم طريقة DaTo بتقليم الرموز ذات الديناميكية المنخفضة بشكل انتقائي، مما يسمح فقط للرموز عالية الديناميكية بالمشاركة في طبقات الانتباه الذاتي، وبالتالي توسيع ديناميكية الميزات عبر الخطوات الزمنية. عند تطبيقها على Stable Diffusion على ImageNet، حققت الطريقة تسريعاً بمعامل 9× مع انخفاض FID بمقدار 0.33؛ وتم ملاحظة تسريع بمعامل 7× على COCO-30k مع انخفاض كبير في FID بمقدار 2.17.

خلفية البحث والدافع

خلفية المشكلة

حققت نماذج الانتشار تقدماً كبيراً في مجال النمذجة التوليدية، مع تطبيقات واسعة في توليد الصور من النصوص وتوليد الفيديو وغيرها من المهام. ومع ذلك، فإن آلية إزالة الضوضاء التكرارية في نماذج الانتشار تؤدي إلى تكاليف حسابية ضخمة وسرعة توليد بطيئة، مما يحد من تطبيقاتها الأوسع.

قيود الطرق الموجودة

تشمل الطرق الحالية لتسريع نماذج الانتشار بشكل أساسي:

تقليل عدد خطوات الأخذ: مثل أخذ العينات السريع DDIM
تقليل تكلفة الحساب في كل خطوة: بما في ذلك تقطير المعرفة والتقليم الهيكلي والتكميم وتقليم الرموز والتخزين المؤقت للميزات

من بينها، يحظى التخزين المؤقت للميزات بشعبية واسعة بسبب فعاليته وبساطته، حيث يخزن الميزات المحسوبة من الخطوات الزمنية السابقة ويعيد استخدامها في الخطوات الزمنية اللاحقة. ومع ذلك، فإن إعادة استخدام الميزات تفرض على الميزات في خطوات زمنية مختلفة أن تكون لها قيم متشابهة، مما يقلل من ديناميكية الميزات عبر الخطوات الزمنية، ويضر بعملية الانتشار الأصلية، وبالتالي يقلل من جودة التوليد.

دافع البحث

اكتشفت الورقة من خلال الملاحظات التجريبية أن نماذج استخدام التخزين المؤقت للميزات تظهر انخفاضاً كبيراً في الاختلافات بين الخطوات الزمنية المتجاورة مقارنة بـ Stable Diffusion الأصلي. يثير هذا سؤالاً حاسماً: هل يمكن تنفيذ التخزين المؤقت للميزات مع الحفاظ على ديناميكية الميزات الصحيحة؟

المساهمات الأساسية

اقتراح طريقة تقليم الرموز ديناميكية الوعي (DaTo): من خلال تقليم الرموز التي تنخفض ديناميكيتها عبر خطوات زمنية مختلفة بسبب التخزين المؤقت للميزات، واستعادتها برموز ذات ديناميكية عالية، تتجنب الطريقة انخفاض جودة التوليد الناجم عن التخزين المؤقت للميزات.
تصميم استراتيجية البحث التطوري: اقتراح البحث من خلال الطرق التطورية عن استراتيجيات مثلى للتخزين المؤقت للميزات وتقليم الرموز، مما يحرر بالكامل إمكانات DaTo.
تحقيق تحسينات أداء كبيرة: تظهر التجارب الواسعة على Stable Diffusion و SDXL أنه بدون تدريب وبيانات إضافية، يمكن تحقيق تسريع يصل إلى 9× على Stable Diffusion مع عدم فقدان جودة التوليد.

شرح الطريقة

تعريف المهمة

تتمثل مهمة هذه الورقة في تسريع عملية الاستدلال لنموذج Stable Diffusion بشكل كبير مع الحفاظ على جودة توليد الصور. الإدخال عبارة عن موجه نصي، والإخراج صورة عالية الجودة مقابلة، والقيد هو عدم الحاجة إلى إعادة تدريب النموذج.

معمارية النموذج

1. تقليم الرموز ديناميكية الوعي (DaTo)

اختيار الرموز الأساسية:

درجة الفرق الزمني للضوضاء: للخطوة الزمنية t، يتم حساب الفرق المطلق لمخرجات خطوتي الزمن المتجاورتين الأوليين:
```
DiffScore = (1/C) * Σ|f_up_0(x_{t+2})_c - f_up_0(x_{t+1})_c|
```
اختيار الرموز بناءً على الرقع: يتم تقسيم الصورة إلى رقع غير متداخلة بحجم s×s، واختيار الرمز ذو أعلى DiffScore في كل رقعة كرمز أساسي.

محاذاة CFG: للتعامل مع الإرشادات الخالية من المصنف (CFG)، يتم نسخ مواضع الرموز الأساسية من التوليد الشرطي إلى التوليد غير الشرطي:

X_base,i,j[k] = X_base,i,j[k - B/2], k ∈ {B/2, B/2+1, ..., B-1}

اختيار الرموز المقلمة: اختيار أفضل K رمز بناءً على أقصى تشابه جيبي التمام مع الرموز الأساسية للتقليم:

X_prune = arg topK max Cosine_Similarity(X_i, X_j)

استعادة الرموز المقلمة: استعادة الرموز المقلمة من خلال نسخ الرموز الأساسية الأكثر تشابهاً بشكل مباشر.

2. التخزين المؤقت للميزات الواعي للخطوات الزمنية

تقليم فضاء البحث:

عمق التخزين المؤقت d مقيد بـ {0, 1, 1/2}
نسبة التقليم r مقيدة بـ {0.3, 0.4, 0.5, 0.6, 0.7}

خوارزمية البحث التطوري: استخدام خوارزمية NSGA-II متعددة الأهداف، مع أهداف التحسين تشمل:

زمن الاستدلال
جودة التوليد (FID)

تتضمن عملية البحث عمليات تطورية قياسية مثل الاختيار والتقاطع والطفرة، مما يؤدي في النهاية إلى الحصول على استراتيجية مثلى واعية للخطوات F(t).

نقاط الابتكار التقني

آلية استعادة الديناميكية: من خلال تقليم الرموز منخفضة الديناميكية بشكل انتقائي واستعادتها برموز عالية الديناميكية، تم استعادة توزيع ديناميكية الميزات التي تضررت من التخزين المؤقت للميزات بنجاح.
إطار عمل موحد للتخزين المؤقت والتقليم: دمج التخزين المؤقت للميزات وتقليم الرموز في إطار عمل واحد مستقل عن التدريب، مما يحقق إعادة استخدام المعلومات على مستوى الزمن والرموز.
البحث عن الاستراتيجيات التكيفية: اقتراح طريقة للبحث التلقائي عن عمق التخزين المؤقت ونسبة التقليم المثلى لخصائص الزيادة المختلفة في خطوات زمنية مختلفة.

إعداد التجارب

مجموعات البيانات

ImageNet-1k: توليد 2000 صورة بحجم 512×512 (صورتان لكل فئة)
COCO-30k: توليد 30000 صورة (صورة واحدة لكل تسمية توضيحية)
مجموعة التحقق من MS COCO: للتقييم على SDXL، توليد 5k صورة بحجم 1024×1024

مقاييس التقييم

FID (Fréchet Inception Distance): قياس جودة التوليد
CLIP Score: تقييم محاذاة النص والصورة
Inception Score: تقييم جودة الصورة
الكمون ونسبة التسريع: تقييم الكفاءة

طرق المقارنة

DDIM/DPM: أخذ العينات السريع
ToMeSD: طريقة دمج الرموز
DeepCache: طريقة التخزين المؤقت للميزات
DeepCache & ToMeSD: طريقة الدمج الساذجة

تفاصيل التنفيذ

استخدام خوارزمية NSGA-II التطورية، حجم السكان 20، تشغيل 100 جيل
CFG scale: 7.5 (SD v1.5)، 9.0 (SD v2)، 7.0 (SDXL)
عدد خطوات الأخذ: 50 خطوة PLMS
الاختبار على وحدة معالجة رسومات 4090 واحدة

نتائج التجارب

النتائج الرئيسية

Stable Diffusion v1.5 (ImageNet):

التكوين e1: تسريع 9.01×، انخفاض FID من 27.64 إلى 27.31
متفوقة على جميع طرق المقارنة في جميع التكوينات

Stable Diffusion v2 (ImageNet):

التكوين e2: تسريع 7.25×، FID يساوي 28.20
مقارنة بالنموذج الأصلي، انخفاض FID من 29.8 إلى 28.20

مجموعة بيانات COCO-30k:

SD v1.5: تسريع 7×، انخفاض FID من 12.15 إلى 9.98 (انخفاض 2.17)
SD v2: تسريع 7.25×، FID من 13.68 إلى 13.88

SDXL (MS COCO):

تسريع 2.32×، انخفاض FID من 24.25 إلى 23.10
متفوقة بشكل كبير على DeepCache (1.75×) و DeepCache&ToMeSD (1.78×)

التجارب الاستئصالية

فعالية DiffScore: باستخدام DiffScore بشكل متسق تحت إعدادات تخزين مؤقت مختلفة ونسب تقليم، تحسنت درجات FID، مما يثبت فعالية درجة الفرق الزمني للضوضاء.

تأثير محاذاة CFG: مع زيادة نسبة التقليم، تزداد الفوائد التي تجلبها محاذاة CFG تدريجياً، مع تحسن FID يتراوح من 13 نقطة إلى 30 نقطة عند نسب تقليم عالية (0.7).

تحليل الحالات

تظهر نتائج المقارنة البصرية أن DaTo متفوقة في جوانب متعددة:

دقة المحتوى: تشابه عالي جداً مع الصور الأصلية
الحفاظ على التفاصيل: الحفاظ على الأنسجة الدقيقة في المشاهد عالية التفاصيل
التكيف مع الأسلوب: موازنة الحفاظ على المحتوى ودقة الأسلوب في مهام الصورة إلى الصورة
محاذاة الموجه: توليد دقيق لجميع العناصر في المحفزات النصية المعقدة

النتائج التجريبية

استعادة ديناميكية الميزات: نجحت DaTo في استعادة توزيع الفرق في الميزات إلى مستوى قريب من Stable Diffusion الأصلي
تأثير الترميز المتناثر: يمكن للتقليم المعتدل للرموز والتخزين المؤقت للميزات تحسين أداء النموذج من خلال التركيز على الميزات الحاسمة
تعميم الاستراتيجية: تعمل الاستراتيجية المبحوث عنها على SD v1.5 بشكل جيد على SDXL ومجموعات بيانات أخرى

الأعمال ذات الصلة

نماذج الانتشار الفعالة

تقليل خطوات الأخذ: DDIM وطرز الاتساق وغيرها
ضغط الشبكة: التكميم والتقليم والتقطير وغيرها
تحسين المعمارية: تحسينات U-Net وتحسينات Transformer وغيرها

استراتيجيات تقليل الرموز

طرق التعلم: DynamicViT و A-ViT وغيرها التي تستخدم نماذج مساعدة للترتيب والتقليم
الطرق الاستكشافية: Token Pooling و Token Merging وغيرها من الطرق المستقلة عن التدريب
تطبيقات نماذج الانتشار: ToMeSD و AT-EDM وغيرها المكيفة لمهام التوليد

آليات التخزين المؤقت

تخزين U-Net المؤقت: DeepCache يستفيد من الزيادة الزمنية لتخزين الميزات مؤقتاً
تخزين DiT المؤقت: استراتيجية التخزين المؤقت Δ-DiT لـ Diffusion Transformer
تحديات التحسين: موازنة تحسين الكفاءة مع الحفاظ على جودة التوليد

الخلاصة والمناقشة

الاستنتاجات الرئيسية

نجحت DaTo في حل مشكلة فقدان ديناميكية الميزات الناجم عن التخزين المؤقت للميزات
الاستراتيجيات التكيفية التي تم الحصول عليها من خلال البحث التطوري متفوقة بشكل كبير على التكوينات الثابتة
حققت الطريقة تسريعاً وتحسناً في الجودة كبيراً على نماذج ومجموعات بيانات متعددة

القيود

تكلفة البحث: على الرغم من أن ≤20 ساعة GPU مقبولة، إلا أنها لا تزال تتطلب موارد حسابية إضافية
الاعتماد على الأجهزة: قد يختلف تحسن الأداء بناءً على تكوين الأجهزة
القيود في الإعدادات القصوى: نسب تقليم عالية جداً أو تكرار تحديث تخزين مؤقت منخفض جداً سيضر بالأداء

الاتجاهات المستقبلية

تعلم الاستراتيجيات التكيفية: تطوير استراتيجيات تخزين مؤقت وتقليم أكثر ذكاءً وتكيفاً
التكيف مع معماريات أخرى: التوسع إلى معماريات نماذج انتشار أكثر
التحليل النظري: فهم أعمق لدور مبادئ الترميز المتناثر في نماذج الانتشار

التقييم المتعمق

المزايا

ابتكار قوي: أول معالجة منهجية لمشكلة فقدان الديناميكية في التخزين المؤقت للميزات
طريقة عملية: مستقلة عن التدريب، سهلة النشر والتكامل
تجارب شاملة: تقييم شامل على نماذج ومجموعات بيانات متعددة
دعم نظري: توفير تفسير نظري لمبادئ الترميز المتناثر
صديقة للمصدر المفتوح: توفير تنفيذ كود كامل

أوجه القصور

التحليل النظري غير كافٍ: التفسير النظري لسبب تحسن FID بواسطة الطريقة نسبياً بسيط
الاعتماد على خوارزمية البحث: الحاجة إلى البحث التطوري للعثور على الاستراتيجية المثلى يزيد من تعقيد الاستخدام
مقاييس التقييم الفردية: الاعتماد بشكل أساسي على FID للتقييم، مع نقص مقاييس جودة أكثر تنوعاً
غياب الدراسات البشرية: عدم إجراء تقييمات بشرية للتحقق من جودة التوليد

التأثير

القيمة الأكاديمية: توفير أفكار وطرق جديدة لتسريع نماذج الانتشار
القيمة العملية: يمكن تطبيقها مباشرة على نماذج Stable Diffusion الموجودة
قابلية الاستنساخ: توفير تفاصيل تنفيذ مفصلة وكود مفتوح المصدر
الإلهام: توفير نموذج لتطبيق التحسينات على مستوى الرموز في نماذج التوليد

السيناريوهات القابلة للتطبيق

البيئات محدودة الموارد: أجهزة الهاتف المحمول وسيناريوهات الحوسبة الطرفية
التطبيقات في الوقت الفعلي: التطبيقات التفاعلية التي تتطلب توليداً سريعاً
التوليد الجماعي: مهام توليد الصور على نطاق واسع
نماذج أولية للبحث: مشاريع بحثية تتطلب تكراراً سريعاً

المراجع

تستشهد الورقة بـ 46 مرجعاً ذا صلة، تغطي نماذج الانتشار وتقليل الرموز وآليات التخزين المؤقت وغيرها من المجالات ذات الصلة، مما يوفر أساساً نظرياً قوياً ومعايير مقارنة للبحث.

التقييم العام: هذه ورقة عالية الجودة في مجال رؤية الحاسوب، تقترح حلاً مبتكراً لمشكلة مهمة في تسريع نماذج الانتشار. يتميز تصميم الطريقة بالذكاء، والتقييم التجريبي شامل، والقيمة العملية بارزة. على الرغم من أن هناك بعض النقص في عمق التحليل النظري، فإن مساهماتها العملية وتأثيرها يستحقان الاعتراف.