2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li
Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
academic

Ottimizzazione per Gruppi di Codebook Auto-Estensibili in Modelli Vector Quantized

Informazioni Fondamentali

  • ID Articolo: 2510.13331
  • Titolo: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
  • Autori: Hong-Kai Zheng, Piji Li (Nanjing University of Aeronautics and Astronautics)
  • Classificazione: cs.CV
  • Data di Pubblicazione/Conferenza: ICLR 2026
  • Link Articolo: https://arxiv.org/abs/2510.13331

Riassunto

I Vector Quantized Variational Autoencoders (VQ-VAE) eseguono l'apprendimento auto-supervisionato attraverso compiti di ricostruzione, utilizzando il vettore più vicino nel codebook per rappresentare vettori continui. Tuttavia, i modelli VQ presentano ancora problemi come il collasso del codebook. Per affrontare questi problemi, i metodi esistenti adottano codebook statici impliciti o ottimizzazione congiunta dell'intero codebook, ma questi approcci limitano la capacità di apprendimento del codebook, causando una diminuzione della qualità della ricostruzione. Questo articolo propone Group-VQ, un'ottimizzazione per gruppi del codebook. Ogni gruppo viene ottimizzato indipendentemente, con ottimizzazione congiunta all'interno dei gruppi. Questo approccio migliora il compromesso tra l'utilizzo del codebook e le prestazioni di ricostruzione. Inoltre, introduciamo un metodo di ricampionamento del codebook senza addestramento, che consente l'adeguamento della dimensione del codebook dopo l'addestramento. Negli esperimenti di ricostruzione di immagini in varie configurazioni, Group-VQ mostra prestazioni migliorate nelle metriche di ricostruzione.

Contesto di Ricerca e Motivazione

Descrizione del Problema

La Quantizzazione Vettoriale (VQ) è una tecnica che mappa caratteristiche continue a token discreti, ampiamente applicata nei VQ-VAE. Tuttavia, l'addestramento VQ tradizionale affronta il problema dell'utilizzo ridotto del codebook, ovvero solo una parte dei vettori di codice viene utilizzata e aggiornata, causando il "collasso del codebook", che limita la capacità di codifica del modello.

Limitazioni dei Metodi Esistenti

  1. VQ Vanilla: Ogni vettore di codice viene aggiornato indipendentemente, facilmente soggetto al collasso del codebook
  2. Metodi VQ Congiunto (come SimVQ, VQGAN-LC): Attraverso l'ottimizzazione congiunta dell'intero codebook con parametri condivisi, sebbene raggiungano il 100% di utilizzo, limitano la capacità di apprendimento del codebook

Motivazione della Ricerca

Gli autori hanno scoperto attraverso esperimenti che, sebbene VQ Congiunto raggiunga rapidamente il 100% di utilizzo del codebook, a parità di utilizzo, la sua qualità di ricostruzione è effettivamente inferiore a VQ Vanilla. Ciò indica che esiste un compromesso tra l'utilizzo del codebook e le prestazioni di ricostruzione, richiedendo una strategia di equilibrio migliore.

Contributi Fondamentali

  1. Propone il metodo Group-VQ: Un metodo di ottimizzazione del codebook basato su gruppi che equilibra l'utilizzo e le prestazioni di ricostruzione nei modelli VQ
  2. Generalizza il metodo VQ Congiunto: Reinterpreta VQ Congiunto dalla prospettiva dei parametri condivisi e introduce il metodo di campionamento del codebook post-addestramento
  3. Adeguamento del codebook senza addestramento: Consente l'adeguamento flessibile della dimensione del codebook dopo l'addestramento, senza necessità di riaddestrare il modello
  4. Verifica sperimentale completa: Valida l'efficacia di Group-VQ e del ricampionamento del codebook nei compiti di ricostruzione di immagini

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data un'immagine IRH×W×3I \in \mathbb{R}^{H \times W \times 3}, VQ-VAE utilizza prima un encoder per ottenere una mappa di caratteristiche ZRh×w×dZ \in \mathbb{R}^{h \times w \times d}, quindi il quantizzatore sostituisce ogni vettore di caratteristiche zRdz \in \mathbb{R}^d con il vettore di codice più vicino nel codebook C={qiqiRd,i=0,1,...,n1}C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}:

q=argminqiCzqi,i=0,1,...,n1q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1

Architettura del Modello

Progettazione di Group-VQ

Group-VQ divide il codebook CC in kk gruppi (sub-codebook) disgiunti:

C=j=0k1Gj,GjGj= se jjC = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ se } j \neq j'

Ogni gruppo GjG_j viene aggiornato indipendentemente, con ottimizzazione congiunta all'interno del gruppo. Per il vettore di codice qjtGjq_{jt} \in G_j, l'aggiornamento del gradiente è:

qjtLcmt=qjtLj\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j

Ciò garantisce che ogni gruppo sia influenzato solo dai gradienti generati dai suoi vettori di codice interni.

Parametrizzazione del Codebook

Ogni gruppo GjG_j viene parametrizzato attraverso parametri condivisi:

Gj=G^jWj+bjG_j = \hat{G}_j W_j + b_j

dove:

  • G^jRnj×rj\hat{G}_j \in \mathbb{R}^{n_j \times r_j}: nucleo del codebook (campionato da distribuzione fissa)
  • WjRrj×dW_j \in \mathbb{R}^{r_j \times d}: proiettore (apprendibile)
  • bjRdb_j \in \mathbb{R}^d: vettore di bias

Punti di Innovazione Tecnica

1. Analisi da Prospettiva Unificata

  • VQ Vanilla: k=nk = n, ogni vettore di codice è un gruppo
  • VQ Congiunto: k=1k = 1, l'intero codebook è un gruppo
  • Group-VQ: 1kn1 \leq k \leq n, equilibra i due casi estremi

2. Meccanismo di Ricampionamento del Codebook

Sfruttando le caratteristiche del codebook generativo, è possibile ricampionare il nucleo del codebook dopo l'addestramento:

q~=v^Wj,v^N(0,I)q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)

Supporta due modalità:

  • Ricampionamento: Sostituzione completa del codebook
  • Auto-estensione: Aggiunta di nuovi vettori di codice al codebook originale

Configurazione Sperimentale

Dataset

  • ImageNet-1k: Dataset principale
  • MS-COCO: Verifica supplementare
  • Risoluzione di input: 128×128, fattore di downsampling f=8

Metriche di Valutazione

  • rFID (reconstruction FID): Distanza di distribuzione tra immagini ricostruite e originali
  • LPIPS(VGG16): Similarità percettiva
  • PSNR: Rapporto segnale-rumore di picco
  • SSIM: Indice di similarità strutturale

Metodi di Confronto

  • VQGAN, ViT-VQGAN, VQGAN-FC
  • FSQ, LFQ (metodi con codebook fisso)
  • VQGAN-LC, SimVQ (metodi VQ Congiunto)

Dettagli di Implementazione

  • Tasso di apprendimento: 1×10⁻⁴
  • Ottimizzatore: Adam (β₁=0.5, β₂=0.9)
  • Dimensione batch: 32/GPU
  • Hardware: NVIDIA A5000 GPU

Risultati Sperimentali

Risultati Principali

Confronto delle prestazioni su ImageNet-1k (dimensione codebook 65.536):

MetodoGruppiUtilizzorFID↓LPIPS↓PSNR↑SSIM↑
VQGAN65.5361,4%3,740,1722,200,706
SimVQ1100,0%1,990,1224,340,788
Group-VQ6499,9%1,860,1124,370,787

Group-VQ ha raggiunto le migliori prestazioni in tutte le metriche, superando significativamente i metodi baseline.

Esperimenti di Ablazione

Impatto del numero di gruppi:

Gruppi13264128512
Utilizzo100%100%100%95,6%78,8%
rFID↓6,456,056,096,116,28

Gli esperimenti indicano che 32-64 gruppi rappresentano la scelta ottimale, equilibrando l'utilizzo del codebook e le prestazioni di ricostruzione.

Esperimenti di Ricampionamento del Codebook

Risultati dell'adeguamento della dimensione del codebook:

MetodoDimensione CodebookrFID↓PSNR↑
Group-VQ65.5361,8724,32
+ Downsampling32.7682,1624,02
+ Upsampling131.0721,7924,49
+ Auto-estensione131.0721,7624,51

I risultati verificano l'efficacia del metodo di ricampionamento del codebook, consentendo l'adeguamento flessibile della dimensione del codebook con i cambiamenti di prestazioni previsti.

Analisi di Visualizzazione

Attraverso la proiezione casuale dei vettori di codice nello spazio 2D, si scopre che:

  1. Diversi gruppi apprendono distribuzioni di caratteristiche diverse
  2. I vettori di codice all'interno dei gruppi sono relativamente simili, con differenze significative tra i gruppi
  3. Le proprietà statistiche di ogni gruppo (media, varianza, frequenza di utilizzo) mostrano differenze evidenti

Lavori Correlati

Classificazione dei Metodi di Miglioramento VQ

  1. Miglioramenti dello Straight-Through Estimator: Ottimizzazione della propagazione del gradiente
  2. Quantizzazione Multi-Indice: RQ-VAE, Product Quantization, ecc.
  3. Miglioramenti del Codebook: Direzione principale di questo articolo

Metodi VQ Congiunto

  • VQGAN-LC: Inizializzazione con caratteristiche pre-addestrate + strato di proiezione
  • SimVQ: Inizializzazione casuale + riparametrizzazione matriciale
  • LFQ/FSQ: Codebook fisso per evitare il collasso

Questo articolo unifica questi metodi come "VQ Congiunto realizzato attraverso parametri condivisi" e propone una strategia di ottimizzazione per gruppi su questa base.

Conclusioni e Discussione

Conclusioni Principali

  1. Esiste un compromesso tra utilizzo del codebook e qualità di ricostruzione: Il 100% di utilizzo non necessariamente porta ai migliori risultati di ricostruzione
  2. L'ottimizzazione per gruppi è una strategia di equilibrio efficace: Group-VQ realizza il controllo flessibile attraverso l'adeguamento del numero di gruppi
  3. Il ricampionamento del codebook fornisce valore pratico: Consente l'adeguamento flessibile della dimensione del codebook dopo l'addestramento

Limitazioni

  1. Non verificato nei compiti generativi: Testato solo nei compiti di ricostruzione, mancanza di verifica nei modelli generativi
  2. La scelta del numero di gruppi richiede ottimizzazione: Il numero ottimale di gruppi dipende dal compito specifico e dal dataset
  3. Complessità computazionale: L'ottimizzazione multi-gruppo potrebbe aumentare il tempo di addestramento

Direzioni Future

  1. Verificare l'efficacia di Group-VQ nei modelli generativi (come modelli autoregressivi)
  2. Esplorare strategie di selezione adattiva del numero di gruppi
  3. Ricercare la combinazione di Group-VQ con altri metodi di miglioramento VQ

Valutazione Approfondita

Punti di Forza

  1. Contributo teorico chiaro: Unifica la comprensione dei metodi VQ esistenti dalla prospettiva dell'ottimizzazione per gruppi, fornendo una nuova prospettiva analitica
  2. Metodo semplice ed efficace: La progettazione di Group-VQ è intuitiva, facile da implementare e comprendere
  3. Esperimenti completi: Verifica completa su più dataset e architetture, esperimenti di ablazione dettagliati
  4. Alto valore pratico: Il metodo di ricampionamento del codebook affronta le esigenze di flessibilità nelle applicazioni pratiche

Insufficienze

  1. Analisi teorica non sufficientemente approfondita: Manca una spiegazione teorica del perché l'ottimizzazione per gruppi sia più efficace
  2. Ambito di applicabilità limitato: Focalizzato principalmente sulla ricostruzione di immagini, l'efficacia su altre modalità e compiti è sconosciuta
  3. Analisi del costo computazionale mancante: Non analizza in dettaglio il costo computazionale dell'ottimizzazione multi-gruppo

Impatto

  1. Valore accademico: Fornisce una nuova prospettiva di ottimizzazione per la ricerca VQ, potenzialmente ispirando lavori successivi
  2. Valore pratico: Il metodo di ricampionamento del codebook è molto prezioso nel deployment pratico
  3. Riproducibilità: Gli autori si impegnano a fornire il codice, favorendo la diffusione del metodo

Scenari Applicabili

  1. Codifica di immagini/video: Compiti di compressione che richiedono ricostruzione di alta qualità
  2. Apprendimento multimodale: Come componente di quantizzazione vettoriale universale
  3. Modelli generativi: Come tokenizer per fornire rappresentazioni discrete ai modelli generativi

Riferimenti Bibliografici

Questo articolo si basa principalmente sui seguenti lavori importanti:

  1. Van Den Oord et al. (2017) - Articolo originale VQ-VAE
  2. Zhu et al. (2024b) - Metodo SimVQ
  3. Yu et al. (2023) - Metodo LFQ
  4. Mentzer et al. (2023) - Metodo FSQ

Sintesi: Questo è un articolo con contributi importanti nel campo VQ. Il metodo Group-VQ è semplice ed efficace, fornendo una nuova prospettiva per l'ottimizzazione del codebook. Il metodo di ricampionamento del codebook ha un valore pratico molto forte. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e nell'ambito di applicabilità, nel complesso si tratta di un lavoro di ricerca di alta qualità.