Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
- ID статьи: 2510.13331
- Название: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
- Авторы: Hong-Kai Zheng, Piji Li (Нанкинский университет аэронавтики и астронавтики)
- Категория: cs.CV
- Время публикации/Конференция: ICLR 2026
- Ссылка на статью: https://arxiv.org/abs/2510.13331
Vector Quantized Variational Autoencoders (VQ-VAE) осуществляют самообучение с учителем посредством задачи реконструкции, используя ближайший вектор из кодовой книги для представления непрерывного вектора. Однако в моделях VQ по-прежнему существуют проблемы, такие как коллапс кодовой книги. Для решения этих проблем существующие методы используют неявные статические кодовые книги или совместную оптимизацию всей кодовой книги, но эти подходы ограничивают способность обучения кодовой книги, что приводит к снижению качества реконструкции. В данной работе предлагается Group-VQ, метод групповой оптимизации кодовой книги. Каждая группа оптимизируется независимо, с совместной оптимизацией внутри группы. Этот подход улучшает компромисс между использованием кодовой книги и производительностью реконструкции. Кроме того, мы вводим метод переиспользования кодовой книги без обучения, позволяющий корректировать размер кодовой книги после обучения. В экспериментах по реконструкции изображений в различных условиях Group-VQ демонстрирует улучшенную производительность по метрикам реконструкции.
Vector Quantization (VQ) — это метод отображения непрерывных признаков в дискретные токены, широко применяемый в VQ-VAE. Однако традиционное обучение VQ сталкивается с проблемой низкого использования кодовой книги, когда используются и обновляются только некоторые кодовые векторы, что приводит к "коллапсу кодовой книги" и ограничивает способность кодирования модели.
- Vanilla VQ: каждый кодовый вектор обновляется независимо, что легко приводит к коллапсу кодовой книги
- Методы Joint VQ (такие как SimVQ, VQGAN-LC): совместная оптимизация всей кодовой книги посредством совместного использования параметров достигает 100% использования, но ограничивает способность обучения кодовой книги
Авторы экспериментально обнаружили, что хотя Joint VQ быстро достигает 100% использования кодовой книги, при одинаковом уровне использования качество реконструкции на самом деле ниже, чем у Vanilla VQ. Это указывает на компромисс между использованием кодовой книги и производительностью реконструкции, требующий более эффективной стратегии балансировки.
- Предложение метода Group-VQ: метод оптимизации кодовой книги на основе группировки, балансирующий использование и производительность реконструкции в моделях VQ
- Обобщение метода Joint VQ: переосмысление Joint VQ с точки зрения совместного использования параметров и введение метода переиспользования кодовой книги после обучения
- Корректировка кодовой книги без обучения: реализация гибкой корректировки размера кодовой книги после обучения без переобучения модели
- Комплексная экспериментальная проверка: верификация эффективности Group-VQ и переиспользования кодовой книги на задачах реконструкции изображений
Для изображения I∈RH×W×3 VQ-VAE сначала использует кодировщик для получения карты признаков Z∈Rh×w×d, затем квантизатор заменяет каждый вектор признаков z∈Rd на ближайший кодовый вектор из кодовой книги C={qi∣qi∈Rd,i=0,1,...,n−1}:
q=argminqi∈C∥z−qi∥,i=0,1,...,n−1
Group-VQ разделяет кодовую книгу C на k непересекающихся групп (подкодовых книг):
C=⋃j=0k−1Gj,Gj∩Gj′=∅ если j=j′
Каждая группа Gj обновляется независимо с совместной оптимизацией внутри группы. Для кодового вектора qjt∈Gj обновление градиента выглядит следующим образом:
∇qjtLcmt=∇qjtLj
Это гарантирует, что каждая группа получает градиенты только от кодовых векторов внутри неё.
Каждая группа Gj параметризуется посредством совместного использования параметров:
Gj=G^jWj+bj
где:
- G^j∈Rnj×rj: ядро кодовой книги (фиксированное распределение выборки)
- Wj∈Rrj×d: проектор (обучаемый)
- bj∈Rd: вектор смещения
- Vanilla VQ: k=n, каждый кодовый вектор — это одна группа
- Joint VQ: k=1, вся кодовая книга — одна группа
- Group-VQ: 1≤k≤n, балансирование двух крайних случаев
Используя свойства генеративной кодовой книги, после обучения можно переиспользовать ядро кодовой книги:
q~=v^Wj,v^∼N(0,I)
Поддерживает два режима:
- Переиспользование: полная замена кодовой книги
- Самораспространение: добавление новых кодовых векторов к исходной кодовой книге
- ImageNet-1k: основной набор данных
- MS-COCO: дополнительная проверка
- Разрешение входа: 128×128, коэффициент понижающей дискретизации f=8
- rFID (reconstruction FID): расстояние распределения между реконструированным и исходным изображением
- LPIPS(VGG16): перцептивная схожесть
- PSNR: пиковое отношение сигнал-шум
- SSIM: индекс структурного сходства
- VQGAN, ViT-VQGAN, VQGAN-FC
- FSQ, LFQ (методы с фиксированной кодовой книгой)
- VQGAN-LC, SimVQ (методы Joint VQ)
- Скорость обучения: 1×10⁻⁴
- Оптимизатор: Adam (β₁=0.5, β₂=0.9)
- Размер пакета: 32/GPU
- Оборудование: NVIDIA A5000 GPU
Сравнение производительности на ImageNet-1k (размер кодовой книги 65,536):
| Метод | Группы | Использование | rFID↓ | LPIPS↓ | PSNR↑ | SSIM↑ |
|---|
| VQGAN | 65,536 | 1.4% | 3.74 | 0.17 | 22.20 | 0.706 |
| SimVQ | 1 | 100.0% | 1.99 | 0.12 | 24.34 | 0.788 |
| Group-VQ | 64 | 99.9% | 1.86 | 0.11 | 24.37 | 0.787 |
Group-VQ достигает лучшей производительности по всем метрикам, значительно превосходя методы-базовые линии.
Влияние различного количества групп:
| Группы | 1 | 32 | 64 | 128 | 512 |
|---|
| Использование | 100% | 100% | 100% | 95.6% | 78.8% |
| rFID↓ | 6.45 | 6.05 | 6.09 | 6.11 | 6.28 |
Эксперименты показывают, что 32-64 группы — оптимальный выбор, балансирующий использование кодовой книги и производительность реконструкции.
Результаты корректировки размера кодовой книги:
| Метод | Размер кодовой книги | rFID↓ | PSNR↑ |
|---|
| Group-VQ | 65,536 | 1.87 | 24.32 |
| + Понижение | 32,768 | 2.16 | 24.02 |
| + Повышение | 131,072 | 1.79 | 24.49 |
| + Самораспространение | 131,072 | 1.76 | 24.51 |
Результаты подтверждают эффективность метода переиспользования кодовой книги, позволяющего гибко корректировать размер кодовой книги и получать ожидаемые изменения производительности.
Путём случайной проекции кодовых векторов в 2D-пространство обнаружено:
- Различные группы изучают различные распределения признаков
- Кодовые векторы внутри группы относительно похожи, различия между группами значительны
- Статистические характеристики каждой группы (среднее, дисперсия, частота использования) существенно отличаются
- Улучшения Straight-Through Estimator: оптимизация распространения градиентов
- Многоиндексное квантование: RQ-VAE, Product Quantization и др.
- Улучшения кодовой книги: основной фокус данной работы
- VQGAN-LC: использование предварительно обученных признаков для инициализации + слой проекции
- SimVQ: случайная инициализация + переиспользование матрицы
- LFQ/FSQ: фиксированная кодовая книга для предотвращения коллапса
В данной работе эти методы объединены как "Joint VQ, реализованный посредством совместного использования параметров", и на этой основе предложена стратегия групповой оптимизации.
- Компромисс между использованием кодовой книги и качеством реконструкции: 100% использование не обязательно приводит к лучшему результату реконструкции
- Групповая оптимизация — эффективная стратегия балансировки: Group-VQ обеспечивает гибкий контроль путём корректировки количества групп
- Переиспользование кодовой книги имеет практическую ценность: после обучения можно гибко корректировать размер кодовой книги
- Отсутствие проверки на генеративных задачах: тестирование только на задачах реконструкции, отсутствует проверка на генеративных моделях
- Требуется настройка количества групп: оптимальное количество групп зависит от конкретной задачи и набора данных
- Вычислительная сложность: оптимизация нескольких групп может увеличить время обучения
- Проверка эффективности Group-VQ на генеративных моделях (таких как авторегрессивные модели)
- Исследование стратегий адаптивного выбора количества групп
- Изучение комбинирования Group-VQ с другими методами улучшения VQ
- Ясный теоретический вклад: объединение существующих методов VQ с точки зрения групповой оптимизации, предоставление нового аналитического подхода
- Простой и эффективный метод: дизайн Group-VQ интуитивен, легко реализуется и понимается
- Полные эксперименты: комплексная проверка на нескольких наборах данных и архитектурах, детальные абляционные исследования
- Высокая практическая ценность: метод переиспользования кодовой книги решает потребность в гибкости при практическом применении
- Недостаточно глубокий теоретический анализ: отсутствует теоретическое объяснение того, почему групповая оптимизация более эффективна
- Ограниченная область применения: основное внимание на реконструкции изображений, эффективность на других модальностях и задачах неизвестна
- Отсутствует анализ вычислительных затрат: не проведён детальный анализ вычислительных расходов оптимизации нескольких групп
- Академическая ценность: предоставляет новый подход к оптимизации VQ, может вдохновить последующие работы
- Практическая ценность: метод переиспользования кодовой книги очень полезен при практическом развёртывании
- Воспроизводимость: авторы обещают предоставить код, что способствует распространению метода
- Кодирование изображений/видео: задачи сжатия, требующие высокого качества реконструкции
- Мультимодальное обучение: как универсальный компонент векторного квантования
- Генеративные модели: как токенизатор для предоставления дискретного представления генеративным моделям
Данная работа основана на следующих важных исследованиях:
- Van Den Oord et al. (2017) — оригинальная статья VQ-VAE
- Zhu et al. (2024b) — метод SimVQ
- Yu et al. (2023) — метод LFQ
- Mentzer et al. (2023) — метод FSQ
Резюме: Это статья с важным вкладом в область VQ. Метод Group-VQ простой и эффективный, предоставляет новый подход к оптимизации кодовой книги. Метод переиспользования кодовой книги имеет очень сильную практическую ценность. Хотя есть место для улучшения в теоретическом анализе и области применения, в целом это высокое качество исследовательской работы.