2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li
Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
academic

Optimisation par Groupe pour Codebooks Auto-Extensibles dans les Modèles de Quantification Vectorielle

Informations Fondamentales

  • ID de l'article: 2510.13331
  • Titre: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
  • Auteurs: Hong-Kai Zheng, Piji Li (Université de l'Aéronautique et de l'Astronautique de Nanjing)
  • Classification: cs.CV
  • Date de publication/Conférence: ICLR 2026
  • Lien de l'article: https://arxiv.org/abs/2510.13331

Résumé

Les Autoencodeurs Variationnels à Quantification Vectorielle (VQ-VAE) réalisent l'apprentissage auto-supervisé par des tâches de reconstruction, en utilisant le vecteur le plus proche du codebook pour représenter les vecteurs continus. Cependant, des problèmes tels que l'effondrement du codebook persistent dans les modèles VQ. Pour résoudre ces problèmes, les méthodes existantes adoptent soit des codebooks statiques implicites, soit une optimisation conjointe de l'ensemble du codebook, mais ces approches limitent la capacité d'apprentissage du codebook, entraînant une dégradation de la qualité de reconstruction. Cet article propose Group-VQ, une optimisation par groupe du codebook. Chaque groupe est optimisé indépendamment, avec une optimisation conjointe au sein des groupes. Cette approche améliore le compromis entre l'utilisation du codebook et les performances de reconstruction. De plus, nous introduisons une méthode de rééchantillonnage du codebook sans entraînement, permettant l'ajustement de la taille du codebook après l'entraînement. Dans les expériences de reconstruction d'images dans diverses configurations, Group-VQ démontre des performances améliorées sur les métriques de reconstruction.

Contexte et Motivation de la Recherche

Description du Problème

La Quantification Vectorielle (VQ) est une technique qui mappe les caractéristiques continues vers des tokens discrets, largement appliquée dans les VQ-VAE. Cependant, l'entraînement VQ traditionnel fait face au problème du faible taux d'utilisation du codebook, c'est-à-dire que seule une partie des vecteurs de code sont utilisés et mis à jour, entraînant un "effondrement du codebook", qui limite la capacité d'encodage du modèle.

Limitations des Méthodes Existantes

  1. VQ Vanilla: Chaque vecteur de code est mis à jour indépendamment, ce qui entraîne facilement un effondrement du codebook
  2. Méthodes VQ Conjointes (telles que SimVQ, VQGAN-LC): L'optimisation conjointe de l'ensemble du codebook par partage de paramètres peut atteindre 100% d'utilisation, mais limite la capacité d'apprentissage du codebook

Motivation de la Recherche

Les auteurs découvrent expérimentalement que bien que VQ Conjointe atteigne rapidement 100% d'utilisation du codebook, sa qualité de reconstruction est inférieure à celle de VQ Vanilla au même taux d'utilisation. Cela indique qu'il existe un compromis entre l'utilisation du codebook et les performances de reconstruction, nécessitant une meilleure stratégie d'équilibre.

Contributions Principales

  1. Proposition de la méthode Group-VQ: Une méthode d'optimisation du codebook basée sur le groupage, équilibrant l'utilisation et les performances de reconstruction dans les modèles VQ
  2. Généralisation de la méthode VQ Conjointe: Réinterprétation de VQ Conjointe sous l'angle du partage de paramètres et introduction d'une méthode d'échantillonnage du codebook après entraînement
  3. Ajustement du codebook sans entraînement: Permettre l'ajustement flexible de la taille du codebook après entraînement, sans nécessiter de réentraînement du modèle
  4. Vérification expérimentale complète: Validation de l'efficacité de Group-VQ et du rééchantillonnage du codebook sur les tâches de reconstruction d'images

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une image IRH×W×3I \in \mathbb{R}^{H \times W \times 3}, le VQ-VAE utilise d'abord un encodeur pour obtenir une carte de caractéristiques ZRh×w×dZ \in \mathbb{R}^{h \times w \times d}, puis le quantificateur remplace chaque vecteur de caractéristiques zRdz \in \mathbb{R}^d par le vecteur de code le plus proche du codebook C={qiqiRd,i=0,1,...,n1}C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}:

q=argminqiCzqi,i=0,1,...,n1q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1

Architecture du Modèle

Conception de Group-VQ

Group-VQ divise le codebook CC en kk groupes disjoints (sous-codebooks):

C=j=0k1Gj,GjGj= si jjC = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ si } j \neq j'

Chaque groupe GjG_j est mis à jour indépendamment, avec une optimisation conjointe au sein du groupe. Pour un vecteur de code qjtGjq_{jt} \in G_j, sa mise à jour de gradient est:

qjtLcmt=qjtLj\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j

Cela garantit que chaque groupe n'est affecté que par les gradients générés par ses vecteurs de code internes.

Paramétrisation du Codebook

Chaque groupe GjG_j est paramétrisé par des paramètres partagés:

Gj=G^jWj+bjG_j = \hat{G}_j W_j + b_j

Où:

  • G^jRnj×rj\hat{G}_j \in \mathbb{R}^{n_j \times r_j}: Noyau du codebook (échantillonné selon une distribution fixe)
  • WjRrj×dW_j \in \mathbb{R}^{r_j \times d}: Projecteur (apprenable)
  • bjRdb_j \in \mathbb{R}^d: Vecteur de biais

Points d'Innovation Technique

1. Analyse sous une Perspective Unifiée

  • VQ Vanilla: k=nk = n, chaque vecteur de code forme un groupe
  • VQ Conjointe: k=1k = 1, l'ensemble du codebook forme un groupe
  • Group-VQ: 1kn1 \leq k \leq n, équilibre les deux cas extrêmes

2. Mécanisme de Rééchantillonnage du Codebook

En exploitant les caractéristiques du codebook génératif, il est possible de rééchantillonner le noyau du codebook après entraînement:

q~=v^Wj,v^N(0,I)q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)

Supportant deux modes:

  • Rééchantillonnage: Remplacement complet du codebook
  • Auto-extension: Ajout de nouveaux vecteurs de code au codebook existant

Configuration Expérimentale

Ensembles de Données

  • ImageNet-1k: Ensemble de données principal
  • MS-COCO: Validation supplémentaire
  • Résolution d'entrée: 128×128, facteur de sous-échantillonnage f=8

Métriques d'Évaluation

  • rFID (reconstruction FID): Distance de distribution entre les images reconstruites et les images originales
  • LPIPS(VGG16): Similarité perceptuelle
  • PSNR: Rapport signal sur bruit de crête
  • SSIM: Indice de similarité structurelle

Méthodes de Comparaison

  • VQGAN, ViT-VQGAN, VQGAN-FC
  • FSQ, LFQ (méthodes à codebook fixe)
  • VQGAN-LC, SimVQ (méthodes VQ Conjointe)

Détails d'Implémentation

  • Taux d'apprentissage: 1×10⁻⁴
  • Optimiseur: Adam (β₁=0.5, β₂=0.9)
  • Taille de batch: 32/GPU
  • Matériel: GPU NVIDIA A5000

Résultats Expérimentaux

Résultats Principaux

Comparaison des performances sur ImageNet-1k (taille du codebook 65,536):

MéthodeGroupesUtilisationrFID↓LPIPS↓PSNR↑SSIM↑
VQGAN65,5361.4%3.740.1722.200.706
SimVQ1100.0%1.990.1224.340.788
Group-VQ6499.9%1.860.1124.370.787

Group-VQ atteint les meilleures performances sur tous les indicateurs, surpassant significativement les méthodes de base.

Études d'Ablation

Impact du nombre de groupes:

Groupes13264128512
Utilisation100%100%100%95.6%78.8%
rFID↓6.456.056.096.116.28

Les expériences montrent que 32-64 groupes constituent le choix optimal, équilibrant l'utilisation du codebook et les performances de reconstruction.

Expériences de Rééchantillonnage du Codebook

Résultats d'ajustement de la taille du codebook:

MéthodeTaille du codebookrFID↓PSNR↑
Group-VQ65,5361.8724.32
+ Sous-échantillonnage32,7682.1624.02
+ Sur-échantillonnage131,0721.7924.49
+ Auto-extension131,0721.7624.51

Les résultats valident l'efficacité de la méthode de rééchantillonnage du codebook, permettant un ajustement flexible de la taille du codebook avec les variations de performance attendues.

Analyse de Visualisation

En projetant aléatoirement les vecteurs de code dans un espace 2D, on découvre que:

  1. Différents groupes apprennent des distributions de caractéristiques différentes
  2. Les vecteurs de code au sein d'un groupe sont relativement similaires, avec des différences importantes entre les groupes
  3. Les propriétés statistiques de chaque groupe (moyenne, variance, fréquence d'utilisation) présentent des différences évidentes

Travaux Connexes

Classification des Méthodes d'Amélioration VQ

  1. Améliorations de l'Estimateur Straight-Through: Optimisation de la propagation des gradients
  2. Quantification Multi-Index: RQ-VAE, Product Quantization, etc.
  3. Améliorations du Codebook: Direction principale de cet article

Méthodes VQ Conjointes

  • VQGAN-LC: Initialisation par caractéristiques pré-entraînées + couche de projection
  • SimVQ: Initialisation aléatoire + reparamétrisation matricielle
  • LFQ/FSQ: Codebook fixe pour éviter l'effondrement

Cet article unifie ces méthodes comme "VQ Conjointe réalisée par partage de paramètres" et propose une stratégie d'optimisation par groupage sur cette base.

Conclusions et Discussion

Conclusions Principales

  1. Compromis entre l'utilisation du codebook et la qualité de reconstruction: 100% d'utilisation ne garantit pas les meilleures performances de reconstruction
  2. L'optimisation par groupage est une stratégie d'équilibre efficace: Group-VQ réalise un contrôle flexible en ajustant le nombre de groupes
  3. Le rééchantillonnage du codebook offre une valeur pratique: Permet l'ajustement flexible de la taille du codebook après entraînement

Limitations

  1. Pas de vérification sur les tâches de génération: Testé uniquement sur les tâches de reconstruction, manquant de vérification sur les modèles génératifs
  2. Le choix du nombre de groupes nécessite un ajustement: Le nombre optimal de groupes dépend de la tâche et de l'ensemble de données spécifiques
  3. Complexité de calcul: L'optimisation multi-groupes peut augmenter le temps d'entraînement

Directions Futures

  1. Vérifier l'efficacité de Group-VQ sur les modèles génératifs (tels que les modèles autorégressifs)
  2. Explorer des stratégies de sélection adaptative du nombre de groupes
  3. Étudier la combinaison de Group-VQ avec d'autres méthodes d'amélioration VQ

Évaluation Approfondie

Points Forts

  1. Contributions théoriques claires: Unification de la compréhension des méthodes VQ existantes sous l'angle de l'optimisation par groupes, offrant une nouvelle perspective analytique
  2. Méthode simple et efficace: Group-VQ est intuitif dans sa conception, facile à implémenter et à comprendre
  3. Expériences complètes: Vérification exhaustive sur plusieurs ensembles de données et architectures, avec des études d'ablation détaillées
  4. Valeur pratique élevée: La méthode de rééchantillonnage du codebook répond aux besoins de flexibilité dans les applications réelles

Insuffisances

  1. Analyse théorique insuffisante: Manque d'explication théorique sur pourquoi l'optimisation par groupes est plus efficace
  2. Portée d'application limitée: Principalement axée sur la reconstruction d'images, l'efficacité sur d'autres modalités et tâches reste inconnue
  3. Analyse des frais de calcul manquante: Pas d'analyse détaillée des coûts de calcul de l'optimisation multi-groupes

Impact

  1. Valeur académique: Fournit une nouvelle perspective d'optimisation pour la recherche VQ, susceptible d'inspirer les travaux ultérieurs
  2. Valeur pratique: La méthode de rééchantillonnage du codebook est très précieuse dans le déploiement réel
  3. Reproductibilité: Les auteurs s'engagent à fournir le code, favorisant la diffusion de la méthode

Scénarios d'Application

  1. Codage d'images/vidéos: Tâches de compression nécessitant une reconstruction de haute qualité
  2. Apprentissage multimodal: Comme composant de quantification vectorielle générique
  3. Modèles génératifs: Comme tokenizer fournissant des représentations discrètes aux modèles génératifs

Références

Cet article s'appuie principalement sur les travaux importants suivants:

  1. Van Den Oord et al. (2017) - Article original VQ-VAE
  2. Zhu et al. (2024b) - Méthode SimVQ
  3. Yu et al. (2023) - Méthode LFQ
  4. Mentzer et al. (2023) - Méthode FSQ

Résumé: Cet article apporte des contributions importantes au domaine VQ. La méthode Group-VQ est simple et efficace, offrant une nouvelle perspective pour l'optimisation du codebook. La méthode de rééchantillonnage du codebook possède une forte valeur pratique. Bien qu'il y ait encore de la place pour amélioration dans l'analyse théorique et la portée d'application, c'est globalement un travail de recherche de haute qualité.