2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li

Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.

academic

Ottimizzazione per Gruppi di Codebook Auto-Estensibili in Modelli Vector Quantized

Informazioni Fondamentali

ID Articolo: 2510.13331
Titolo: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
Autori: Hong-Kai Zheng, Piji Li (Nanjing University of Aeronautics and Astronautics)
Classificazione: cs.CV
Data di Pubblicazione/Conferenza: ICLR 2026
Link Articolo: https://arxiv.org/abs/2510.13331

Riassunto

I Vector Quantized Variational Autoencoders (VQ-VAE) eseguono l'apprendimento auto-supervisionato attraverso compiti di ricostruzione, utilizzando il vettore più vicino nel codebook per rappresentare vettori continui. Tuttavia, i modelli VQ presentano ancora problemi come il collasso del codebook. Per affrontare questi problemi, i metodi esistenti adottano codebook statici impliciti o ottimizzazione congiunta dell'intero codebook, ma questi approcci limitano la capacità di apprendimento del codebook, causando una diminuzione della qualità della ricostruzione. Questo articolo propone Group-VQ, un'ottimizzazione per gruppi del codebook. Ogni gruppo viene ottimizzato indipendentemente, con ottimizzazione congiunta all'interno dei gruppi. Questo approccio migliora il compromesso tra l'utilizzo del codebook e le prestazioni di ricostruzione. Inoltre, introduciamo un metodo di ricampionamento del codebook senza addestramento, che consente l'adeguamento della dimensione del codebook dopo l'addestramento. Negli esperimenti di ricostruzione di immagini in varie configurazioni, Group-VQ mostra prestazioni migliorate nelle metriche di ricostruzione.

Contesto di Ricerca e Motivazione

Descrizione del Problema

La Quantizzazione Vettoriale (VQ) è una tecnica che mappa caratteristiche continue a token discreti, ampiamente applicata nei VQ-VAE. Tuttavia, l'addestramento VQ tradizionale affronta il problema dell'utilizzo ridotto del codebook, ovvero solo una parte dei vettori di codice viene utilizzata e aggiornata, causando il "collasso del codebook", che limita la capacità di codifica del modello.

Limitazioni dei Metodi Esistenti

VQ Vanilla: Ogni vettore di codice viene aggiornato indipendentemente, facilmente soggetto al collasso del codebook
Metodi VQ Congiunto (come SimVQ, VQGAN-LC): Attraverso l'ottimizzazione congiunta dell'intero codebook con parametri condivisi, sebbene raggiungano il 100% di utilizzo, limitano la capacità di apprendimento del codebook

Motivazione della Ricerca

Gli autori hanno scoperto attraverso esperimenti che, sebbene VQ Congiunto raggiunga rapidamente il 100% di utilizzo del codebook, a parità di utilizzo, la sua qualità di ricostruzione è effettivamente inferiore a VQ Vanilla. Ciò indica che esiste un compromesso tra l'utilizzo del codebook e le prestazioni di ricostruzione, richiedendo una strategia di equilibrio migliore.

Contributi Fondamentali

Propone il metodo Group-VQ: Un metodo di ottimizzazione del codebook basato su gruppi che equilibra l'utilizzo e le prestazioni di ricostruzione nei modelli VQ
Generalizza il metodo VQ Congiunto: Reinterpreta VQ Congiunto dalla prospettiva dei parametri condivisi e introduce il metodo di campionamento del codebook post-addestramento
Adeguamento del codebook senza addestramento: Consente l'adeguamento flessibile della dimensione del codebook dopo l'addestramento, senza necessità di riaddestrare il modello
Verifica sperimentale completa: Valida l'efficacia di Group-VQ e del ricampionamento del codebook nei compiti di ricostruzione di immagini

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data un'immagine $I \in \mathbb{R}^{H \times W \times 3}$ , VQ-VAE utilizza prima un encoder per ottenere una mappa di caratteristiche $Z \in \mathbb{R}^{h \times w \times d}$ , quindi il quantizzatore sostituisce ogni vettore di caratteristiche $z \in \mathbb{R}^d$ con il vettore di codice più vicino nel codebook $C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}$ :

$q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1$

Architettura del Modello

Progettazione di Group-VQ

Group-VQ divide il codebook $C$ in $k$ gruppi (sub-codebook) disgiunti:

$C = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ se } j \neq j'$

Ogni gruppo $G_j$ viene aggiornato indipendentemente, con ottimizzazione congiunta all'interno del gruppo. Per il vettore di codice $q_{jt} \in G_j$ , l'aggiornamento del gradiente è:

$\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j$

Ciò garantisce che ogni gruppo sia influenzato solo dai gradienti generati dai suoi vettori di codice interni.

Parametrizzazione del Codebook

Ogni gruppo $G_j$ viene parametrizzato attraverso parametri condivisi:

$G_j = \hat{G}_j W_j + b_j$

dove:

$\hat{G}_j \in \mathbb{R}^{n_j \times r_j}$ : nucleo del codebook (campionato da distribuzione fissa)
$W_j \in \mathbb{R}^{r_j \times d}$ : proiettore (apprendibile)
$b_j \in \mathbb{R}^d$ : vettore di bias

Punti di Innovazione Tecnica

1. Analisi da Prospettiva Unificata

VQ Vanilla: $k = n$ , ogni vettore di codice è un gruppo
VQ Congiunto: $k = 1$ , l'intero codebook è un gruppo
Group-VQ: $1 \leq k \leq n$ , equilibra i due casi estremi

2. Meccanismo di Ricampionamento del Codebook

Sfruttando le caratteristiche del codebook generativo, è possibile ricampionare il nucleo del codebook dopo l'addestramento:

$q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)$

Supporta due modalità:

Ricampionamento: Sostituzione completa del codebook
Auto-estensione: Aggiunta di nuovi vettori di codice al codebook originale

Configurazione Sperimentale

Dataset

ImageNet-1k: Dataset principale
MS-COCO: Verifica supplementare
Risoluzione di input: 128×128, fattore di downsampling f=8

Metriche di Valutazione

rFID (reconstruction FID): Distanza di distribuzione tra immagini ricostruite e originali
LPIPS(VGG16): Similarità percettiva
PSNR: Rapporto segnale-rumore di picco
SSIM: Indice di similarità strutturale

Metodi di Confronto

VQGAN, ViT-VQGAN, VQGAN-FC
FSQ, LFQ (metodi con codebook fisso)
VQGAN-LC, SimVQ (metodi VQ Congiunto)

Dettagli di Implementazione

Tasso di apprendimento: 1×10⁻⁴
Ottimizzatore: Adam (β₁=0.5, β₂=0.9)
Dimensione batch: 32/GPU
Hardware: NVIDIA A5000 GPU

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni su ImageNet-1k (dimensione codebook 65.536):

Metodo	Gruppi	Utilizzo	rFID↓	LPIPS↓	PSNR↑	SSIM↑
VQGAN	65.536	1,4%	3,74	0,17	22,20	0,706
SimVQ	1	100,0%	1,99	0,12	24,34	0,788
Group-VQ	64	99,9%	1,86	0,11	24,37	0,787

Group-VQ ha raggiunto le migliori prestazioni in tutte le metriche, superando significativamente i metodi baseline.

Esperimenti di Ablazione

Impatto del numero di gruppi:

Gruppi	1	32	64	128	512
Utilizzo	100%	100%	100%	95,6%	78,8%
rFID↓	6,45	6,05	6,09	6,11	6,28

Gli esperimenti indicano che 32-64 gruppi rappresentano la scelta ottimale, equilibrando l'utilizzo del codebook e le prestazioni di ricostruzione.

Esperimenti di Ricampionamento del Codebook

Risultati dell'adeguamento della dimensione del codebook:

Metodo	Dimensione Codebook	rFID↓	PSNR↑
Group-VQ	65.536	1,87	24,32
+ Downsampling	32.768	2,16	24,02
+ Upsampling	131.072	1,79	24,49
+ Auto-estensione	131.072	1,76	24,51

I risultati verificano l'efficacia del metodo di ricampionamento del codebook, consentendo l'adeguamento flessibile della dimensione del codebook con i cambiamenti di prestazioni previsti.

Analisi di Visualizzazione

Attraverso la proiezione casuale dei vettori di codice nello spazio 2D, si scopre che:

Diversi gruppi apprendono distribuzioni di caratteristiche diverse
I vettori di codice all'interno dei gruppi sono relativamente simili, con differenze significative tra i gruppi
Le proprietà statistiche di ogni gruppo (media, varianza, frequenza di utilizzo) mostrano differenze evidenti

Lavori Correlati

Classificazione dei Metodi di Miglioramento VQ

Miglioramenti dello Straight-Through Estimator: Ottimizzazione della propagazione del gradiente
Quantizzazione Multi-Indice: RQ-VAE, Product Quantization, ecc.
Miglioramenti del Codebook: Direzione principale di questo articolo

Metodi VQ Congiunto

VQGAN-LC: Inizializzazione con caratteristiche pre-addestrate + strato di proiezione
SimVQ: Inizializzazione casuale + riparametrizzazione matriciale
LFQ/FSQ: Codebook fisso per evitare il collasso

Questo articolo unifica questi metodi come "VQ Congiunto realizzato attraverso parametri condivisi" e propone una strategia di ottimizzazione per gruppi su questa base.

Conclusioni e Discussione

Conclusioni Principali

Esiste un compromesso tra utilizzo del codebook e qualità di ricostruzione: Il 100% di utilizzo non necessariamente porta ai migliori risultati di ricostruzione
L'ottimizzazione per gruppi è una strategia di equilibrio efficace: Group-VQ realizza il controllo flessibile attraverso l'adeguamento del numero di gruppi
Il ricampionamento del codebook fornisce valore pratico: Consente l'adeguamento flessibile della dimensione del codebook dopo l'addestramento

Limitazioni

Non verificato nei compiti generativi: Testato solo nei compiti di ricostruzione, mancanza di verifica nei modelli generativi
La scelta del numero di gruppi richiede ottimizzazione: Il numero ottimale di gruppi dipende dal compito specifico e dal dataset
Complessità computazionale: L'ottimizzazione multi-gruppo potrebbe aumentare il tempo di addestramento

Direzioni Future

Verificare l'efficacia di Group-VQ nei modelli generativi (come modelli autoregressivi)
Esplorare strategie di selezione adattiva del numero di gruppi
Ricercare la combinazione di Group-VQ con altri metodi di miglioramento VQ

Valutazione Approfondita

Punti di Forza

Contributo teorico chiaro: Unifica la comprensione dei metodi VQ esistenti dalla prospettiva dell'ottimizzazione per gruppi, fornendo una nuova prospettiva analitica
Metodo semplice ed efficace: La progettazione di Group-VQ è intuitiva, facile da implementare e comprendere
Esperimenti completi: Verifica completa su più dataset e architetture, esperimenti di ablazione dettagliati
Alto valore pratico: Il metodo di ricampionamento del codebook affronta le esigenze di flessibilità nelle applicazioni pratiche

Insufficienze

Analisi teorica non sufficientemente approfondita: Manca una spiegazione teorica del perché l'ottimizzazione per gruppi sia più efficace
Ambito di applicabilità limitato: Focalizzato principalmente sulla ricostruzione di immagini, l'efficacia su altre modalità e compiti è sconosciuta
Analisi del costo computazionale mancante: Non analizza in dettaglio il costo computazionale dell'ottimizzazione multi-gruppo

Impatto

Valore accademico: Fornisce una nuova prospettiva di ottimizzazione per la ricerca VQ, potenzialmente ispirando lavori successivi
Valore pratico: Il metodo di ricampionamento del codebook è molto prezioso nel deployment pratico
Riproducibilità: Gli autori si impegnano a fornire il codice, favorendo la diffusione del metodo

Scenari Applicabili

Codifica di immagini/video: Compiti di compressione che richiedono ricostruzione di alta qualità
Apprendimento multimodale: Come componente di quantizzazione vettoriale universale
Modelli generativi: Come tokenizer per fornire rappresentazioni discrete ai modelli generativi

Riferimenti Bibliografici

Questo articolo si basa principalmente sui seguenti lavori importanti:

Van Den Oord et al. (2017) - Articolo originale VQ-VAE
Zhu et al. (2024b) - Metodo SimVQ
Yu et al. (2023) - Metodo LFQ
Mentzer et al. (2023) - Metodo FSQ

Sintesi: Questo è un articolo con contributi importanti nel campo VQ. Il metodo Group-VQ è semplice ed efficace, fornendo una nuova prospettiva per l'ottimizzazione del codebook. Il metodo di ricampionamento del codebook ha un valore pratico molto forte. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'ambito di applicabilità, nel complesso si tratta di un lavoro di ricerca di alta qualità.