Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
- ID Articolo: 2510.13331
- Titolo: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
- Autori: Hong-Kai Zheng, Piji Li (Nanjing University of Aeronautics and Astronautics)
- Classificazione: cs.CV
- Data di Pubblicazione/Conferenza: ICLR 2026
- Link Articolo: https://arxiv.org/abs/2510.13331
I Vector Quantized Variational Autoencoders (VQ-VAE) eseguono l'apprendimento auto-supervisionato attraverso compiti di ricostruzione, utilizzando il vettore più vicino nel codebook per rappresentare vettori continui. Tuttavia, i modelli VQ presentano ancora problemi come il collasso del codebook. Per affrontare questi problemi, i metodi esistenti adottano codebook statici impliciti o ottimizzazione congiunta dell'intero codebook, ma questi approcci limitano la capacità di apprendimento del codebook, causando una diminuzione della qualità della ricostruzione. Questo articolo propone Group-VQ, un'ottimizzazione per gruppi del codebook. Ogni gruppo viene ottimizzato indipendentemente, con ottimizzazione congiunta all'interno dei gruppi. Questo approccio migliora il compromesso tra l'utilizzo del codebook e le prestazioni di ricostruzione. Inoltre, introduciamo un metodo di ricampionamento del codebook senza addestramento, che consente l'adeguamento della dimensione del codebook dopo l'addestramento. Negli esperimenti di ricostruzione di immagini in varie configurazioni, Group-VQ mostra prestazioni migliorate nelle metriche di ricostruzione.
La Quantizzazione Vettoriale (VQ) è una tecnica che mappa caratteristiche continue a token discreti, ampiamente applicata nei VQ-VAE. Tuttavia, l'addestramento VQ tradizionale affronta il problema dell'utilizzo ridotto del codebook, ovvero solo una parte dei vettori di codice viene utilizzata e aggiornata, causando il "collasso del codebook", che limita la capacità di codifica del modello.
- VQ Vanilla: Ogni vettore di codice viene aggiornato indipendentemente, facilmente soggetto al collasso del codebook
- Metodi VQ Congiunto (come SimVQ, VQGAN-LC): Attraverso l'ottimizzazione congiunta dell'intero codebook con parametri condivisi, sebbene raggiungano il 100% di utilizzo, limitano la capacità di apprendimento del codebook
Gli autori hanno scoperto attraverso esperimenti che, sebbene VQ Congiunto raggiunga rapidamente il 100% di utilizzo del codebook, a parità di utilizzo, la sua qualità di ricostruzione è effettivamente inferiore a VQ Vanilla. Ciò indica che esiste un compromesso tra l'utilizzo del codebook e le prestazioni di ricostruzione, richiedendo una strategia di equilibrio migliore.
- Propone il metodo Group-VQ: Un metodo di ottimizzazione del codebook basato su gruppi che equilibra l'utilizzo e le prestazioni di ricostruzione nei modelli VQ
- Generalizza il metodo VQ Congiunto: Reinterpreta VQ Congiunto dalla prospettiva dei parametri condivisi e introduce il metodo di campionamento del codebook post-addestramento
- Adeguamento del codebook senza addestramento: Consente l'adeguamento flessibile della dimensione del codebook dopo l'addestramento, senza necessità di riaddestrare il modello
- Verifica sperimentale completa: Valida l'efficacia di Group-VQ e del ricampionamento del codebook nei compiti di ricostruzione di immagini
Data un'immagine I∈RH×W×3, VQ-VAE utilizza prima un encoder per ottenere una mappa di caratteristiche Z∈Rh×w×d, quindi il quantizzatore sostituisce ogni vettore di caratteristiche z∈Rd con il vettore di codice più vicino nel codebook C={qi∣qi∈Rd,i=0,1,...,n−1}:
q=argminqi∈C∥z−qi∥,i=0,1,...,n−1
Group-VQ divide il codebook C in k gruppi (sub-codebook) disgiunti:
C=⋃j=0k−1Gj,Gj∩Gj′=∅ se j=j′
Ogni gruppo Gj viene aggiornato indipendentemente, con ottimizzazione congiunta all'interno del gruppo. Per il vettore di codice qjt∈Gj, l'aggiornamento del gradiente è:
∇qjtLcmt=∇qjtLj
Ciò garantisce che ogni gruppo sia influenzato solo dai gradienti generati dai suoi vettori di codice interni.
Ogni gruppo Gj viene parametrizzato attraverso parametri condivisi:
Gj=G^jWj+bj
dove:
- G^j∈Rnj×rj: nucleo del codebook (campionato da distribuzione fissa)
- Wj∈Rrj×d: proiettore (apprendibile)
- bj∈Rd: vettore di bias
- VQ Vanilla: k=n, ogni vettore di codice è un gruppo
- VQ Congiunto: k=1, l'intero codebook è un gruppo
- Group-VQ: 1≤k≤n, equilibra i due casi estremi
Sfruttando le caratteristiche del codebook generativo, è possibile ricampionare il nucleo del codebook dopo l'addestramento:
q~=v^Wj,v^∼N(0,I)
Supporta due modalità:
- Ricampionamento: Sostituzione completa del codebook
- Auto-estensione: Aggiunta di nuovi vettori di codice al codebook originale
- ImageNet-1k: Dataset principale
- MS-COCO: Verifica supplementare
- Risoluzione di input: 128×128, fattore di downsampling f=8
- rFID (reconstruction FID): Distanza di distribuzione tra immagini ricostruite e originali
- LPIPS(VGG16): Similarità percettiva
- PSNR: Rapporto segnale-rumore di picco
- SSIM: Indice di similarità strutturale
- VQGAN, ViT-VQGAN, VQGAN-FC
- FSQ, LFQ (metodi con codebook fisso)
- VQGAN-LC, SimVQ (metodi VQ Congiunto)
- Tasso di apprendimento: 1×10⁻⁴
- Ottimizzatore: Adam (β₁=0.5, β₂=0.9)
- Dimensione batch: 32/GPU
- Hardware: NVIDIA A5000 GPU
Confronto delle prestazioni su ImageNet-1k (dimensione codebook 65.536):
| Metodo | Gruppi | Utilizzo | rFID↓ | LPIPS↓ | PSNR↑ | SSIM↑ |
|---|
| VQGAN | 65.536 | 1,4% | 3,74 | 0,17 | 22,20 | 0,706 |
| SimVQ | 1 | 100,0% | 1,99 | 0,12 | 24,34 | 0,788 |
| Group-VQ | 64 | 99,9% | 1,86 | 0,11 | 24,37 | 0,787 |
Group-VQ ha raggiunto le migliori prestazioni in tutte le metriche, superando significativamente i metodi baseline.
Impatto del numero di gruppi:
| Gruppi | 1 | 32 | 64 | 128 | 512 |
|---|
| Utilizzo | 100% | 100% | 100% | 95,6% | 78,8% |
| rFID↓ | 6,45 | 6,05 | 6,09 | 6,11 | 6,28 |
Gli esperimenti indicano che 32-64 gruppi rappresentano la scelta ottimale, equilibrando l'utilizzo del codebook e le prestazioni di ricostruzione.
Risultati dell'adeguamento della dimensione del codebook:
| Metodo | Dimensione Codebook | rFID↓ | PSNR↑ |
|---|
| Group-VQ | 65.536 | 1,87 | 24,32 |
| + Downsampling | 32.768 | 2,16 | 24,02 |
| + Upsampling | 131.072 | 1,79 | 24,49 |
| + Auto-estensione | 131.072 | 1,76 | 24,51 |
I risultati verificano l'efficacia del metodo di ricampionamento del codebook, consentendo l'adeguamento flessibile della dimensione del codebook con i cambiamenti di prestazioni previsti.
Attraverso la proiezione casuale dei vettori di codice nello spazio 2D, si scopre che:
- Diversi gruppi apprendono distribuzioni di caratteristiche diverse
- I vettori di codice all'interno dei gruppi sono relativamente simili, con differenze significative tra i gruppi
- Le proprietà statistiche di ogni gruppo (media, varianza, frequenza di utilizzo) mostrano differenze evidenti
- Miglioramenti dello Straight-Through Estimator: Ottimizzazione della propagazione del gradiente
- Quantizzazione Multi-Indice: RQ-VAE, Product Quantization, ecc.
- Miglioramenti del Codebook: Direzione principale di questo articolo
- VQGAN-LC: Inizializzazione con caratteristiche pre-addestrate + strato di proiezione
- SimVQ: Inizializzazione casuale + riparametrizzazione matriciale
- LFQ/FSQ: Codebook fisso per evitare il collasso
Questo articolo unifica questi metodi come "VQ Congiunto realizzato attraverso parametri condivisi" e propone una strategia di ottimizzazione per gruppi su questa base.
- Esiste un compromesso tra utilizzo del codebook e qualità di ricostruzione: Il 100% di utilizzo non necessariamente porta ai migliori risultati di ricostruzione
- L'ottimizzazione per gruppi è una strategia di equilibrio efficace: Group-VQ realizza il controllo flessibile attraverso l'adeguamento del numero di gruppi
- Il ricampionamento del codebook fornisce valore pratico: Consente l'adeguamento flessibile della dimensione del codebook dopo l'addestramento
- Non verificato nei compiti generativi: Testato solo nei compiti di ricostruzione, mancanza di verifica nei modelli generativi
- La scelta del numero di gruppi richiede ottimizzazione: Il numero ottimale di gruppi dipende dal compito specifico e dal dataset
- Complessità computazionale: L'ottimizzazione multi-gruppo potrebbe aumentare il tempo di addestramento
- Verificare l'efficacia di Group-VQ nei modelli generativi (come modelli autoregressivi)
- Esplorare strategie di selezione adattiva del numero di gruppi
- Ricercare la combinazione di Group-VQ con altri metodi di miglioramento VQ
- Contributo teorico chiaro: Unifica la comprensione dei metodi VQ esistenti dalla prospettiva dell'ottimizzazione per gruppi, fornendo una nuova prospettiva analitica
- Metodo semplice ed efficace: La progettazione di Group-VQ è intuitiva, facile da implementare e comprendere
- Esperimenti completi: Verifica completa su più dataset e architetture, esperimenti di ablazione dettagliati
- Alto valore pratico: Il metodo di ricampionamento del codebook affronta le esigenze di flessibilità nelle applicazioni pratiche
- Analisi teorica non sufficientemente approfondita: Manca una spiegazione teorica del perché l'ottimizzazione per gruppi sia più efficace
- Ambito di applicabilità limitato: Focalizzato principalmente sulla ricostruzione di immagini, l'efficacia su altre modalità e compiti è sconosciuta
- Analisi del costo computazionale mancante: Non analizza in dettaglio il costo computazionale dell'ottimizzazione multi-gruppo
- Valore accademico: Fornisce una nuova prospettiva di ottimizzazione per la ricerca VQ, potenzialmente ispirando lavori successivi
- Valore pratico: Il metodo di ricampionamento del codebook è molto prezioso nel deployment pratico
- Riproducibilità: Gli autori si impegnano a fornire il codice, favorendo la diffusione del metodo
- Codifica di immagini/video: Compiti di compressione che richiedono ricostruzione di alta qualità
- Apprendimento multimodale: Come componente di quantizzazione vettoriale universale
- Modelli generativi: Come tokenizer per fornire rappresentazioni discrete ai modelli generativi
Questo articolo si basa principalmente sui seguenti lavori importanti:
- Van Den Oord et al. (2017) - Articolo originale VQ-VAE
- Zhu et al. (2024b) - Metodo SimVQ
- Yu et al. (2023) - Metodo LFQ
- Mentzer et al. (2023) - Metodo FSQ
Sintesi: Questo è un articolo con contributi importanti nel campo VQ. Il metodo Group-VQ è semplice ed efficace, fornendo una nuova prospettiva per l'ottimizzazione del codebook. Il metodo di ricampionamento del codebook ha un valore pratico molto forte. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'ambito di applicabilità, nel complesso si tratta di un lavoro di ricerca di alta qualità.