2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li

Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.

academic

Optimisation par Groupe pour Codebooks Auto-Extensibles dans les Modèles de Quantification Vectorielle

Informations Fondamentales

ID de l'article: 2510.13331
Titre: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
Auteurs: Hong-Kai Zheng, Piji Li (Université de l'Aéronautique et de l'Astronautique de Nanjing)
Classification: cs.CV
Date de publication/Conférence: ICLR 2026
Lien de l'article: https://arxiv.org/abs/2510.13331

Résumé

Les Autoencodeurs Variationnels à Quantification Vectorielle (VQ-VAE) réalisent l'apprentissage auto-supervisé par des tâches de reconstruction, en utilisant le vecteur le plus proche du codebook pour représenter les vecteurs continus. Cependant, des problèmes tels que l'effondrement du codebook persistent dans les modèles VQ. Pour résoudre ces problèmes, les méthodes existantes adoptent soit des codebooks statiques implicites, soit une optimisation conjointe de l'ensemble du codebook, mais ces approches limitent la capacité d'apprentissage du codebook, entraînant une dégradation de la qualité de reconstruction. Cet article propose Group-VQ, une optimisation par groupe du codebook. Chaque groupe est optimisé indépendamment, avec une optimisation conjointe au sein des groupes. Cette approche améliore le compromis entre l'utilisation du codebook et les performances de reconstruction. De plus, nous introduisons une méthode de rééchantillonnage du codebook sans entraînement, permettant l'ajustement de la taille du codebook après l'entraînement. Dans les expériences de reconstruction d'images dans diverses configurations, Group-VQ démontre des performances améliorées sur les métriques de reconstruction.

Contexte et Motivation de la Recherche

Description du Problème

La Quantification Vectorielle (VQ) est une technique qui mappe les caractéristiques continues vers des tokens discrets, largement appliquée dans les VQ-VAE. Cependant, l'entraînement VQ traditionnel fait face au problème du faible taux d'utilisation du codebook, c'est-à-dire que seule une partie des vecteurs de code sont utilisés et mis à jour, entraînant un "effondrement du codebook", qui limite la capacité d'encodage du modèle.

Limitations des Méthodes Existantes

VQ Vanilla: Chaque vecteur de code est mis à jour indépendamment, ce qui entraîne facilement un effondrement du codebook
Méthodes VQ Conjointes (telles que SimVQ, VQGAN-LC): L'optimisation conjointe de l'ensemble du codebook par partage de paramètres peut atteindre 100% d'utilisation, mais limite la capacité d'apprentissage du codebook

Motivation de la Recherche

Les auteurs découvrent expérimentalement que bien que VQ Conjointe atteigne rapidement 100% d'utilisation du codebook, sa qualité de reconstruction est inférieure à celle de VQ Vanilla au même taux d'utilisation. Cela indique qu'il existe un compromis entre l'utilisation du codebook et les performances de reconstruction, nécessitant une meilleure stratégie d'équilibre.

Contributions Principales

Proposition de la méthode Group-VQ: Une méthode d'optimisation du codebook basée sur le groupage, équilibrant l'utilisation et les performances de reconstruction dans les modèles VQ
Généralisation de la méthode VQ Conjointe: Réinterprétation de VQ Conjointe sous l'angle du partage de paramètres et introduction d'une méthode d'échantillonnage du codebook après entraînement
Ajustement du codebook sans entraînement: Permettre l'ajustement flexible de la taille du codebook après entraînement, sans nécessiter de réentraînement du modèle
Vérification expérimentale complète: Validation de l'efficacité de Group-VQ et du rééchantillonnage du codebook sur les tâches de reconstruction d'images

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une image $I \in \mathbb{R}^{H \times W \times 3}$ , le VQ-VAE utilise d'abord un encodeur pour obtenir une carte de caractéristiques $Z \in \mathbb{R}^{h \times w \times d}$ , puis le quantificateur remplace chaque vecteur de caractéristiques $z \in \mathbb{R}^d$ par le vecteur de code le plus proche du codebook $C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}$ :

$q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1$

Architecture du Modèle

Conception de Group-VQ

Group-VQ divise le codebook $C$ en $k$ groupes disjoints (sous-codebooks):

$C = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ si } j \neq j'$

Chaque groupe $G_j$ est mis à jour indépendamment, avec une optimisation conjointe au sein du groupe. Pour un vecteur de code $q_{jt} \in G_j$ , sa mise à jour de gradient est:

$\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j$

Cela garantit que chaque groupe n'est affecté que par les gradients générés par ses vecteurs de code internes.

Paramétrisation du Codebook

Chaque groupe $G_j$ est paramétrisé par des paramètres partagés:

$G_j = \hat{G}_j W_j + b_j$

Où:

$\hat{G}_j \in \mathbb{R}^{n_j \times r_j}$ : Noyau du codebook (échantillonné selon une distribution fixe)
$W_j \in \mathbb{R}^{r_j \times d}$ : Projecteur (apprenable)
$b_j \in \mathbb{R}^d$ : Vecteur de biais

Points d'Innovation Technique

1. Analyse sous une Perspective Unifiée

VQ Vanilla: $k = n$ , chaque vecteur de code forme un groupe
VQ Conjointe: $k = 1$ , l'ensemble du codebook forme un groupe
Group-VQ: $1 \leq k \leq n$ , équilibre les deux cas extrêmes

2. Mécanisme de Rééchantillonnage du Codebook

En exploitant les caractéristiques du codebook génératif, il est possible de rééchantillonner le noyau du codebook après entraînement:

$q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)$

Supportant deux modes:

Rééchantillonnage: Remplacement complet du codebook
Auto-extension: Ajout de nouveaux vecteurs de code au codebook existant

Configuration Expérimentale

Ensembles de Données

ImageNet-1k: Ensemble de données principal
MS-COCO: Validation supplémentaire
Résolution d'entrée: 128×128, facteur de sous-échantillonnage f=8

Métriques d'Évaluation

rFID (reconstruction FID): Distance de distribution entre les images reconstruites et les images originales
LPIPS(VGG16): Similarité perceptuelle
PSNR: Rapport signal sur bruit de crête
SSIM: Indice de similarité structurelle

Méthodes de Comparaison

VQGAN, ViT-VQGAN, VQGAN-FC
FSQ, LFQ (méthodes à codebook fixe)
VQGAN-LC, SimVQ (méthodes VQ Conjointe)

Détails d'Implémentation

Taux d'apprentissage: 1×10⁻⁴
Optimiseur: Adam (β₁=0.5, β₂=0.9)
Taille de batch: 32/GPU
Matériel: GPU NVIDIA A5000

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances sur ImageNet-1k (taille du codebook 65,536):

Méthode	Groupes	Utilisation	rFID↓	LPIPS↓	PSNR↑	SSIM↑
VQGAN	65,536	1.4%	3.74	0.17	22.20	0.706
SimVQ	1	100.0%	1.99	0.12	24.34	0.788
Group-VQ	64	99.9%	1.86	0.11	24.37	0.787

Group-VQ atteint les meilleures performances sur tous les indicateurs, surpassant significativement les méthodes de base.

Études d'Ablation

Impact du nombre de groupes:

Groupes	1	32	64	128	512
Utilisation	100%	100%	100%	95.6%	78.8%
rFID↓	6.45	6.05	6.09	6.11	6.28

Les expériences montrent que 32-64 groupes constituent le choix optimal, équilibrant l'utilisation du codebook et les performances de reconstruction.

Expériences de Rééchantillonnage du Codebook

Résultats d'ajustement de la taille du codebook:

Méthode	Taille du codebook	rFID↓	PSNR↑
Group-VQ	65,536	1.87	24.32
+ Sous-échantillonnage	32,768	2.16	24.02
+ Sur-échantillonnage	131,072	1.79	24.49
+ Auto-extension	131,072	1.76	24.51

Les résultats valident l'efficacité de la méthode de rééchantillonnage du codebook, permettant un ajustement flexible de la taille du codebook avec les variations de performance attendues.

Analyse de Visualisation

En projetant aléatoirement les vecteurs de code dans un espace 2D, on découvre que:

Différents groupes apprennent des distributions de caractéristiques différentes
Les vecteurs de code au sein d'un groupe sont relativement similaires, avec des différences importantes entre les groupes
Les propriétés statistiques de chaque groupe (moyenne, variance, fréquence d'utilisation) présentent des différences évidentes

Travaux Connexes

Classification des Méthodes d'Amélioration VQ

Améliorations de l'Estimateur Straight-Through: Optimisation de la propagation des gradients
Quantification Multi-Index: RQ-VAE, Product Quantization, etc.
Améliorations du Codebook: Direction principale de cet article

Méthodes VQ Conjointes

VQGAN-LC: Initialisation par caractéristiques pré-entraînées + couche de projection
SimVQ: Initialisation aléatoire + reparamétrisation matricielle
LFQ/FSQ: Codebook fixe pour éviter l'effondrement

Cet article unifie ces méthodes comme "VQ Conjointe réalisée par partage de paramètres" et propose une stratégie d'optimisation par groupage sur cette base.

Conclusions et Discussion

Conclusions Principales

Compromis entre l'utilisation du codebook et la qualité de reconstruction: 100% d'utilisation ne garantit pas les meilleures performances de reconstruction
L'optimisation par groupage est une stratégie d'équilibre efficace: Group-VQ réalise un contrôle flexible en ajustant le nombre de groupes
Le rééchantillonnage du codebook offre une valeur pratique: Permet l'ajustement flexible de la taille du codebook après entraînement

Limitations

Pas de vérification sur les tâches de génération: Testé uniquement sur les tâches de reconstruction, manquant de vérification sur les modèles génératifs
Le choix du nombre de groupes nécessite un ajustement: Le nombre optimal de groupes dépend de la tâche et de l'ensemble de données spécifiques
Complexité de calcul: L'optimisation multi-groupes peut augmenter le temps d'entraînement

Directions Futures

Vérifier l'efficacité de Group-VQ sur les modèles génératifs (tels que les modèles autorégressifs)
Explorer des stratégies de sélection adaptative du nombre de groupes
Étudier la combinaison de Group-VQ avec d'autres méthodes d'amélioration VQ

Évaluation Approfondie

Points Forts

Contributions théoriques claires: Unification de la compréhension des méthodes VQ existantes sous l'angle de l'optimisation par groupes, offrant une nouvelle perspective analytique
Méthode simple et efficace: Group-VQ est intuitif dans sa conception, facile à implémenter et à comprendre
Expériences complètes: Vérification exhaustive sur plusieurs ensembles de données et architectures, avec des études d'ablation détaillées
Valeur pratique élevée: La méthode de rééchantillonnage du codebook répond aux besoins de flexibilité dans les applications réelles

Insuffisances

Analyse théorique insuffisante: Manque d'explication théorique sur pourquoi l'optimisation par groupes est plus efficace
Portée d'application limitée: Principalement axée sur la reconstruction d'images, l'efficacité sur d'autres modalités et tâches reste inconnue
Analyse des frais de calcul manquante: Pas d'analyse détaillée des coûts de calcul de l'optimisation multi-groupes

Impact

Valeur académique: Fournit une nouvelle perspective d'optimisation pour la recherche VQ, susceptible d'inspirer les travaux ultérieurs
Valeur pratique: La méthode de rééchantillonnage du codebook est très précieuse dans le déploiement réel
Reproductibilité: Les auteurs s'engagent à fournir le code, favorisant la diffusion de la méthode

Scénarios d'Application

Codage d'images/vidéos: Tâches de compression nécessitant une reconstruction de haute qualité
Apprentissage multimodal: Comme composant de quantification vectorielle générique
Modèles génératifs: Comme tokenizer fournissant des représentations discrètes aux modèles génératifs

Références

Cet article s'appuie principalement sur les travaux importants suivants:

Van Den Oord et al. (2017) - Article original VQ-VAE
Zhu et al. (2024b) - Méthode SimVQ
Yu et al. (2023) - Méthode LFQ
Mentzer et al. (2023) - Méthode FSQ

Résumé: Cet article apporte des contributions importantes au domaine VQ. La méthode Group-VQ est simple et efficace, offrant une nouvelle perspective pour l'optimisation du codebook. La méthode de rééchantillonnage du codebook possède une forte valeur pratique. Bien qu'il y ait encore de la place pour amélioration dans l'analyse théorique et la portée d'application, c'est globalement un travail de recherche de haute qualité.