Token Pruning for Caching Better: 9 Times Acceleration on Stable Diffusion for Free
Zhang, Xiao, Tang et al.
Stable Diffusion has achieved remarkable success in the field of text-to-image generation, with its powerful generative capabilities and diverse generation results making a lasting impact. However, its iterative denoising introduces high computational costs and slows generation speed, limiting broader adoption. The community has made numerous efforts to reduce this computational burden, with methods like feature caching attracting attention due to their effectiveness and simplicity. Nonetheless, simply reusing features computed at previous timesteps causes the features across adjacent timesteps to become similar, reducing the dynamics of features over time and ultimately compromising the quality of generated images. In this paper, we introduce a dynamics-aware token pruning (DaTo) approach that addresses the limitations of feature caching. DaTo selectively prunes tokens with lower dynamics, allowing only high-dynamic tokens to participate in self-attention layers, thereby extending feature dynamics across timesteps. DaTo combines feature caching with token pruning in a training-free manner, achieving both temporal and token-wise information reuse. Applied to Stable Diffusion on the ImageNet, our approach delivered a 9$\times$ speedup while reducing FID by 0.33, indicating enhanced image quality. On the COCO-30k, we observed a 7$\times$ acceleration coupled with a notable FID reduction of 2.17.
academic
Обрезка токенов для лучшего кэширования: 9-кратное ускорение на Stable Diffusion бесплатно
Stable Diffusion достигла значительного успеха в области генерации изображений из текста, однако её итеративный механизм удаления шума приводит к высоким вычислительным затратам и медленной скорости генерации. Хотя методы, такие как кэширование признаков, привлекают внимание благодаря своей эффективности и простоте, простое повторное использование признаков, вычисленных на предыдущих временных шагах, приводит к тому, что признаки соседних временных шагов становятся похожими, снижая динамичность признаков во времени и в конечном итоге влияя на качество генерируемых изображений. В данной работе предлагается метод динамически осведомлённой обрезки токенов (DaTo) для решения ограничений кэширования признаков. DaTo выборочно обрезает токены с низкой динамичностью, позволяя участвовать в слоях самовнимания только высокодинамичным токенам, тем самым расширяя динамичность признаков между временными шагами. При применении к Stable Diffusion на ImageNet метод достигает 9-кратного ускорения при снижении FID на 0,33; на COCO-30k наблюдается 7-кратное ускорение со значительным снижением FID на 2,17.
Модели диффузии достигли значительного прогресса в области генеративного моделирования и широко применяются в задачах генерации изображений из текста, генерации видео и других приложениях. Однако итеративный механизм удаления шума в моделях диффузии приводит к огромным вычислительным затратам и медленной скорости генерации, что ограничивает их более широкое применение.
Текущие методы ускорения моделей диффузии включают:
Сокращение количества шагов выборки: такие как быстрые семплеры DDIM
Снижение вычислительных затрат на каждом шаге: включая дистилляцию знаний, структурную обрезку, квантизацию, обрезку токенов и кэширование признаков
Среди них кэширование признаков пользуется большой популярностью благодаря своей эффективности и простоте, сохраняя признаки, вычисленные на предыдущих временных шагах, и повторно используя их на последующих шагах. Однако повторное использование признаков заставляет признаки на разных временных шагах иметь похожие значения, снижая динамичность признаков вдоль временных шагов, нарушая исходный процесс диффузии и, таким образом, снижая качество генерации.
Авторы через экспериментальные наблюдения обнаружили, что по сравнению с исходной Stable Diffusion модель с кэшированием признаков показывает значительное снижение различий в признаках между соседними временными шагами. Это поднимает критический вопрос: можно ли одновременно выполнять кэширование признаков и сохранять правильную динамичность признаков?
Предложен метод динамически осведомлённой обрезки токенов (DaTo): путём обрезки токенов, динамичность которых была снижена кэшированием признаков на разных временных шагах, и восстановления их токенами с высокой динамичностью, избегается снижение качества генерации, вызванное кэшированием признаков.
Разработана стратегия эволюционного поиска: предложен метод поиска оптимальной стратегии кэширования признаков и обрезки токенов через эволюционный подход, полностью раскрывая потенциал DaTo.
Достигнуто значительное повышение производительности: обширные эксперименты на Stable Diffusion и SDXL показывают, что без переподготовки и дополнительных данных можно достичь ускорения до 9× на Stable Diffusion без потери качества генерации.
Задача данной работы заключается в значительном ускорении процесса вывода модели Stable Diffusion при сохранении качества генерации изображений. Входные данные — текстовые подсказки, выходные данные — соответствующие высококачественные изображения, ограничение — отсутствие необходимости переподготовки модели.
Выбор токенов на основе патчей: изображение разбивается на неперекрывающиеся патчи размером s×s, в каждом патче выбирается токен с наивысшим DiffScore в качестве базового токена.
Выравнивание CFG:
Для обработки классификатора свободного руководства (CFG) позиции базовых токенов из условной генерации копируются в безусловную генерацию:
Коэффициент обрезки r ограничен {0,3, 0,4, 0,5, 0,6, 0,7}
Алгоритм эволюционного поиска:
Используется многоцелевой алгоритм оптимизации NSGA-II с целями оптимизации:
Задержка вывода
Качество генерации (FID)
Процесс поиска включает стандартные эволюционные операции: отбор, кроссовер, мутацию и т.д., в результате чего получается оптимальная стратегия, зависящая от шагов F(t).
Механизм восстановления динамичности: путём выборочной обрезки низкодинамичных токенов и восстановления их высокодинамичными токенами успешно восстанавливается распределение динамичности признаков, нарушенное кэшированием признаков.
Единая структура кэширования-обрезки: объединение кэширования признаков и обрезки токенов в единую структуру, независимую от обучения, реализует повторное использование информации на уровне времени и токенов.
Адаптивный поиск стратегии: для различных избыточных характеристик на разных временных шагах предлагается метод автоматического поиска оптимальной глубины кэширования и коэффициента обрезки.
Эффективность DiffScore:
При различных параметрах кэширования и коэффициентах обрезки использование DiffScore постоянно улучшает оценку FID, доказывая эффективность оценки временной разности шума.
Влияние выравнивания CFG:
С увеличением коэффициента обрезки выигрыш от конфигурации с выравниванием CFG постепенно увеличивается, при высоком коэффициенте обрезки (0,7) улучшение FID варьируется от 13 до 30 пунктов.
Восстановление динамичности признаков: DaTo успешно восстанавливает распределение различий в признаках до уровня, близкого к исходной Stable Diffusion
Эффект разреженного кодирования: умеренная обрезка токенов и кэширование признаков могут улучшить производительность модели, сосредоточиваясь на ключевых признаках
Обобщение стратегии: стратегия, найденная на SD v1.5, хорошо работает на SDXL и других наборах данных
Стоимость поиска: хотя ≤20 GPU часов приемлемо, всё ещё требуются дополнительные вычислительные ресурсы
Зависимость от оборудования: повышение производительности может варьироваться в зависимости от конфигурации оборудования
Ограничения в экстремальных условиях: чрезмерно высокий коэффициент обрезки или слишком низкая частота обновления кэша могут снизить производительность
Статья цитирует 46 связанных работ, охватывающих несколько областей, включая модели диффузии, сокращение токенов, механизмы кэширования и другие важные работы, обеспечивая прочную теоретическую базу и эталоны для сравнения данного исследования.
Общая оценка: Это высококачественная статья в области компьютерного зрения, предлагающая инновационное решение важной проблемы ускорения моделей диффузии. Метод хорошо спроектирован, эксперименты полны, практическая ценность значительна. Хотя в глубине теоретического анализа есть некоторые недостатки, её практический вклад и влияние заслуживают признания.