2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li

Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.

academic

Групповая оптимизация самораспространяющихся кодовых книг в моделях векторного квантования

Основная информация

ID статьи: 2510.13331
Название: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
Авторы: Hong-Kai Zheng, Piji Li (Нанкинский университет аэронавтики и астронавтики)
Категория: cs.CV
Время публикации/Конференция: ICLR 2026
Ссылка на статью: https://arxiv.org/abs/2510.13331

Аннотация

Vector Quantized Variational Autoencoders (VQ-VAE) осуществляют самообучение с учителем посредством задачи реконструкции, используя ближайший вектор из кодовой книги для представления непрерывного вектора. Однако в моделях VQ по-прежнему существуют проблемы, такие как коллапс кодовой книги. Для решения этих проблем существующие методы используют неявные статические кодовые книги или совместную оптимизацию всей кодовой книги, но эти подходы ограничивают способность обучения кодовой книги, что приводит к снижению качества реконструкции. В данной работе предлагается Group-VQ, метод групповой оптимизации кодовой книги. Каждая группа оптимизируется независимо, с совместной оптимизацией внутри группы. Этот подход улучшает компромисс между использованием кодовой книги и производительностью реконструкции. Кроме того, мы вводим метод переиспользования кодовой книги без обучения, позволяющий корректировать размер кодовой книги после обучения. В экспериментах по реконструкции изображений в различных условиях Group-VQ демонстрирует улучшенную производительность по метрикам реконструкции.

Исследовательский контекст и мотивация

Описание проблемы

Vector Quantization (VQ) — это метод отображения непрерывных признаков в дискретные токены, широко применяемый в VQ-VAE. Однако традиционное обучение VQ сталкивается с проблемой низкого использования кодовой книги, когда используются и обновляются только некоторые кодовые векторы, что приводит к "коллапсу кодовой книги" и ограничивает способность кодирования модели.

Ограничения существующих методов

Vanilla VQ: каждый кодовый вектор обновляется независимо, что легко приводит к коллапсу кодовой книги
Методы Joint VQ (такие как SimVQ, VQGAN-LC): совместная оптимизация всей кодовой книги посредством совместного использования параметров достигает 100% использования, но ограничивает способность обучения кодовой книги

Исследовательская мотивация

Авторы экспериментально обнаружили, что хотя Joint VQ быстро достигает 100% использования кодовой книги, при одинаковом уровне использования качество реконструкции на самом деле ниже, чем у Vanilla VQ. Это указывает на компромисс между использованием кодовой книги и производительностью реконструкции, требующий более эффективной стратегии балансировки.

Основные вклады

Предложение метода Group-VQ: метод оптимизации кодовой книги на основе группировки, балансирующий использование и производительность реконструкции в моделях VQ
Обобщение метода Joint VQ: переосмысление Joint VQ с точки зрения совместного использования параметров и введение метода переиспользования кодовой книги после обучения
Корректировка кодовой книги без обучения: реализация гибкой корректировки размера кодовой книги после обучения без переобучения модели
Комплексная экспериментальная проверка: верификация эффективности Group-VQ и переиспользования кодовой книги на задачах реконструкции изображений

Детальное описание метода

Определение задачи

Для изображения $I \in \mathbb{R}^{H \times W \times 3}$ VQ-VAE сначала использует кодировщик для получения карты признаков $Z \in \mathbb{R}^{h \times w \times d}$ , затем квантизатор заменяет каждый вектор признаков $z \in \mathbb{R}^d$ на ближайший кодовый вектор из кодовой книги $C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}$ :

$q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1$

Архитектура модели

Дизайн Group-VQ

Group-VQ разделяет кодовую книгу $C$ на $k$ непересекающихся групп (подкодовых книг):

$C = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ если } j \neq j'$

Каждая группа $G_j$ обновляется независимо с совместной оптимизацией внутри группы. Для кодового вектора $q_{jt} \in G_j$ обновление градиента выглядит следующим образом:

$\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j$

Это гарантирует, что каждая группа получает градиенты только от кодовых векторов внутри неё.

Параметризация кодовой книги

Каждая группа $G_j$ параметризуется посредством совместного использования параметров:

$G_j = \hat{G}_j W_j + b_j$

где:

$\hat{G}_j \in \mathbb{R}^{n_j \times r_j}$ : ядро кодовой книги (фиксированное распределение выборки)
$W_j \in \mathbb{R}^{r_j \times d}$ : проектор (обучаемый)
$b_j \in \mathbb{R}^d$ : вектор смещения

Технические инновации

1. Анализ с единой точки зрения

Vanilla VQ: $k = n$ , каждый кодовый вектор — это одна группа
Joint VQ: $k = 1$ , вся кодовая книга — одна группа
Group-VQ: $1 \leq k \leq n$ , балансирование двух крайних случаев

2. Механизм переиспользования кодовой книги

Используя свойства генеративной кодовой книги, после обучения можно переиспользовать ядро кодовой книги:

$\tilde{q} = \hat{v} W_j, \quad \hat{v} \sim \mathcal{N}(0, I)$

Поддерживает два режима:

Переиспользование: полная замена кодовой книги
Самораспространение: добавление новых кодовых векторов к исходной кодовой книге

Экспериментальная установка

Наборы данных

ImageNet-1k: основной набор данных
MS-COCO: дополнительная проверка
Разрешение входа: 128×128, коэффициент понижающей дискретизации f=8

Метрики оценки

rFID (reconstruction FID): расстояние распределения между реконструированным и исходным изображением
LPIPS(VGG16): перцептивная схожесть
PSNR: пиковое отношение сигнал-шум
SSIM: индекс структурного сходства

Методы сравнения

VQGAN, ViT-VQGAN, VQGAN-FC
FSQ, LFQ (методы с фиксированной кодовой книгой)
VQGAN-LC, SimVQ (методы Joint VQ)

Детали реализации

Скорость обучения: 1×10⁻⁴
Оптимизатор: Adam (β₁=0.5, β₂=0.9)
Размер пакета: 32/GPU
Оборудование: NVIDIA A5000 GPU

Результаты экспериментов

Основные результаты

Сравнение производительности на ImageNet-1k (размер кодовой книги 65,536):

Метод	Группы	Использование	rFID↓	LPIPS↓	PSNR↑	SSIM↑
VQGAN	65,536	1.4%	3.74	0.17	22.20	0.706
SimVQ	1	100.0%	1.99	0.12	24.34	0.788
Group-VQ	64	99.9%	1.86	0.11	24.37	0.787

Group-VQ достигает лучшей производительности по всем метрикам, значительно превосходя методы-базовые линии.

Абляционные исследования

Влияние различного количества групп:

Группы	1	32	64	128	512
Использование	100%	100%	100%	95.6%	78.8%
rFID↓	6.45	6.05	6.09	6.11	6.28

Эксперименты показывают, что 32-64 группы — оптимальный выбор, балансирующий использование кодовой книги и производительность реконструкции.

Эксперименты по переиспользованию кодовой книги

Результаты корректировки размера кодовой книги:

Метод	Размер кодовой книги	rFID↓	PSNR↑
Group-VQ	65,536	1.87	24.32
+ Понижение	32,768	2.16	24.02
+ Повышение	131,072	1.79	24.49
+ Самораспространение	131,072	1.76	24.51

Результаты подтверждают эффективность метода переиспользования кодовой книги, позволяющего гибко корректировать размер кодовой книги и получать ожидаемые изменения производительности.

Визуальный анализ

Путём случайной проекции кодовых векторов в 2D-пространство обнаружено:

Различные группы изучают различные распределения признаков
Кодовые векторы внутри группы относительно похожи, различия между группами значительны
Статистические характеристики каждой группы (среднее, дисперсия, частота использования) существенно отличаются

Связанные работы

Классификация методов улучшения VQ

Улучшения Straight-Through Estimator: оптимизация распространения градиентов
Многоиндексное квантование: RQ-VAE, Product Quantization и др.
Улучшения кодовой книги: основной фокус данной работы

Методы Joint VQ

VQGAN-LC: использование предварительно обученных признаков для инициализации + слой проекции
SimVQ: случайная инициализация + переиспользование матрицы
LFQ/FSQ: фиксированная кодовая книга для предотвращения коллапса

В данной работе эти методы объединены как "Joint VQ, реализованный посредством совместного использования параметров", и на этой основе предложена стратегия групповой оптимизации.

Заключение и обсуждение

Основные выводы

Компромисс между использованием кодовой книги и качеством реконструкции: 100% использование не обязательно приводит к лучшему результату реконструкции
Групповая оптимизация — эффективная стратегия балансировки: Group-VQ обеспечивает гибкий контроль путём корректировки количества групп
Переиспользование кодовой книги имеет практическую ценность: после обучения можно гибко корректировать размер кодовой книги

Ограничения

Отсутствие проверки на генеративных задачах: тестирование только на задачах реконструкции, отсутствует проверка на генеративных моделях
Требуется настройка количества групп: оптимальное количество групп зависит от конкретной задачи и набора данных
Вычислительная сложность: оптимизация нескольких групп может увеличить время обучения

Направления будущих исследований

Проверка эффективности Group-VQ на генеративных моделях (таких как авторегрессивные модели)
Исследование стратегий адаптивного выбора количества групп
Изучение комбинирования Group-VQ с другими методами улучшения VQ

Глубокая оценка

Преимущества

Ясный теоретический вклад: объединение существующих методов VQ с точки зрения групповой оптимизации, предоставление нового аналитического подхода
Простой и эффективный метод: дизайн Group-VQ интуитивен, легко реализуется и понимается
Полные эксперименты: комплексная проверка на нескольких наборах данных и архитектурах, детальные абляционные исследования
Высокая практическая ценность: метод переиспользования кодовой книги решает потребность в гибкости при практическом применении

Недостатки

Недостаточно глубокий теоретический анализ: отсутствует теоретическое объяснение того, почему групповая оптимизация более эффективна
Ограниченная область применения: основное внимание на реконструкции изображений, эффективность на других модальностях и задачах неизвестна
Отсутствует анализ вычислительных затрат: не проведён детальный анализ вычислительных расходов оптимизации нескольких групп

Влияние

Академическая ценность: предоставляет новый подход к оптимизации VQ, может вдохновить последующие работы
Практическая ценность: метод переиспользования кодовой книги очень полезен при практическом развёртывании
Воспроизводимость: авторы обещают предоставить код, что способствует распространению метода

Сценарии применения

Кодирование изображений/видео: задачи сжатия, требующие высокого качества реконструкции
Мультимодальное обучение: как универсальный компонент векторного квантования
Генеративные модели: как токенизатор для предоставления дискретного представления генеративным моделям

Библиография

Данная работа основана на следующих важных исследованиях:

Van Den Oord et al. (2017) — оригинальная статья VQ-VAE
Zhu et al. (2024b) — метод SimVQ
Yu et al. (2023) — метод LFQ
Mentzer et al. (2023) — метод FSQ

Резюме: Это статья с важным вкладом в область VQ. Метод Group-VQ простой и эффективный, предоставляет новый подход к оптимизации кодовой книги. Метод переиспользования кодовой книги имеет очень сильную практическую ценность. Хотя есть место для улучшения в теоретическом анализе и области применения, в целом это высокое качество исследовательской работы.