2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li

Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.

academic

Gruppenweise Optimierung für selbsterweiterbare Codebücher in vektorquantisierten Modellen

Grundlegende Informationen

Papier-ID: 2510.13331
Titel: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
Autoren: Hong-Kai Zheng, Piji Li (Nanjing University of Aeronautics and Astronautics)
Klassifizierung: cs.CV
Veröffentlichungszeit/Konferenz: ICLR 2026
Papierlink: https://arxiv.org/abs/2510.13331

Zusammenfassung

Vector Quantized Variational Autoencoders (VQ-VAEs) führen selbstüberwachtes Lernen durch Rekonstruktionsaufgaben durch und verwenden die nächsten Vektoren im Codebuch zur Darstellung kontinuierlicher Vektoren. Allerdings treten in VQ-Modellen noch Probleme wie Codebuch-Kollaps auf. Um diese Probleme zu beheben, verwenden bestehende Methoden entweder implizite statische Codebücher oder optimieren das gesamte Codebuch gemeinsam, aber diese Methoden begrenzen die Lernfähigkeit des Codebuchs und führen zu schlechterer Rekonstruktionsqualität. Dieses Papier schlägt Group-VQ vor, eine gruppenweise Optimierung des Codebuchs. Jede Gruppe wird unabhängig optimiert, während innerhalb der Gruppen eine gemeinsame Optimierung stattfindet. Dieser Ansatz verbessert den Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsleistung. Darüber hinaus führen wir eine trainingsfreie Codebuch-Resampling-Methode ein, die eine Anpassung der Codebuchgröße nach dem Training ermöglicht. In Bildrekonstruktionsexperimenten unter verschiedenen Einstellungen zeigt Group-VQ verbesserte Leistung bei Rekonstruktionsmetriken.

Forschungshintergrund und Motivation

Problembeschreibung

Vector Quantization (VQ) ist eine Technik zur Abbildung kontinuierlicher Merkmale auf diskrete Token, die in VQ-VAE weit verbreitet ist. Allerdings sieht sich das traditionelle VQ-Training dem Problem der niedrigen Codebuch-Auslastung gegenüber, d.h. nur ein Teil der Code-Vektoren wird verwendet und aktualisiert, was zu einem "Codebuch-Kollaps" führt und die Codierungsfähigkeit des Modells einschränkt.

Einschränkungen bestehender Methoden

Vanilla VQ: Jeder Code-Vektor wird unabhängig aktualisiert, was leicht zu Codebuch-Kollaps führt
Joint VQ-Methoden (wie SimVQ, VQGAN-LC): Durch gemeinsame Parameter wird das gesamte Codebuch gemeinsam optimiert, was zwar 100% Auslastung erreichen kann, aber die Lernfähigkeit des Codebuchs einschränkt

Forschungsmotivation

Die Autoren entdeckten durch Experimente, dass Joint VQ zwar schnell 100% Codebuch-Auslastung erreicht, aber bei gleicher Auslastung tatsächlich schlechtere Rekonstruktionsqualität als Vanilla VQ aufweist. Dies zeigt, dass ein Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsleistung besteht, und eine bessere Ausgleichsstrategie erforderlich ist.

Kernbeiträge

Vorschlag der Group-VQ-Methode: Eine gruppenbasierte Codebuch-Optimierungsmethode, die Auslastung und Rekonstruktionsleistung in VQ-Modellen ausgleicht
Verallgemeinerung der Joint VQ-Methode: Neuinterpretation von Joint VQ aus der Perspektive gemeinsamer Parameter und Einführung einer Codebuch-Sampling-Methode nach dem Training
Trainingsfreie Codebuch-Anpassung: Ermöglicht flexible Anpassung der Codebuchgröße nach dem Training ohne Neutraining des Modells
Umfassende experimentelle Validierung: Validierung der Wirksamkeit von Group-VQ und Codebuch-Resampling bei Bildrekonstruktionsaufgaben

Methodische Erklärung

Aufgabendefinition

Gegeben ein Bild $I \in \mathbb{R}^{H \times W \times 3}$ verwendet VQ-VAE zunächst einen Encoder, um die Feature-Map $Z \in \mathbb{R}^{h \times w \times d}$ zu erhalten, dann ersetzt der Quantisierer jeden Feature-Vektor $z \in \mathbb{R}^d$ durch den nächsten Code-Vektor im Codebuch $C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}$ :

$q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1$

Modellarchitektur

Group-VQ-Design

Group-VQ unterteilt das Codebuch $C$ in $k$ disjunkte Gruppen (Unter-Codebücher):

$C = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ wenn } j \neq j'$

Jede Gruppe $G_j$ wird unabhängig aktualisiert, wobei innerhalb der Gruppen gemeinsame Optimierung verwendet wird. Für einen Code-Vektor $q_{jt} \in G_j$ ist die Gradient-Aktualisierung:

$\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j$

Dies stellt sicher, dass jede Gruppe nur von Gradienten beeinflusst wird, die von ihren internen Code-Vektoren erzeugt werden.

Codebuch-Parametrisierung

Jede Gruppe $G_j$ wird durch gemeinsame Parameter parametrisiert:

$G_j = \hat{G}_j W_j + b_j$

wobei:

$\hat{G}_j \in \mathbb{R}^{n_j \times r_j}$ : Codebuch-Kern (aus fester Verteilung gesampelt)
$W_j \in \mathbb{R}^{r_j \times d}$ : Projektor (trainierbar)
$b_j \in \mathbb{R}^d$ : Bias-Vektor

Technische Innovationspunkte

1. Einheitliche Perspektive der Analyse

Vanilla VQ: $k = n$ , jeder Code-Vektor ist eine Gruppe
Joint VQ: $k = 1$ , das gesamte Codebuch ist eine Gruppe
Group-VQ: $1 \leq k \leq n$ , gleicht beide Extremfälle aus

2. Codebuch-Resampling-Mechanismus

Unter Nutzung der Eigenschaften des generativen Codebuchs kann das Codebuch nach dem Training neu gesampelt werden:

$\tilde{q} = \hat{v} W_j, \quad \hat{v} \sim \mathcal{N}(0, I)$

Unterstützt zwei Modi:

Resampling: Vollständiger Austausch des Codebuchs
Selbsterweiterung: Hinzufügen neuer Code-Vektoren zur Basis des ursprünglichen Codebuchs

Experimentelle Einrichtung

Datensätze

ImageNet-1k: Hauptdatensatz
MS-COCO: Zusätzliche Validierung
Eingabeauflösung: 128×128, Downsampling-Faktor f=8

Evaluierungsmetriken

rFID (Rekonstruktions-FID): Verteilungsabstand zwischen rekonstruiertem und Originalbild
LPIPS(VGG16): Wahrnehmungsähnlichkeit
PSNR: Spitzensignal-Rausch-Verhältnis
SSIM: Strukturelle Ähnlichkeitsindex

Vergleichsmethoden

VQGAN, ViT-VQGAN, VQGAN-FC
FSQ, LFQ (Methoden mit festem Codebuch)
VQGAN-LC, SimVQ (Joint VQ-Methoden)

Implementierungsdetails

Lernrate: 1×10⁻⁴
Optimierer: Adam (β₁=0,5, β₂=0,9)
Batch-Größe: 32/GPU
Hardware: NVIDIA A5000 GPU

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf ImageNet-1k (Codebuchgröße 65.536):

Methode	Gruppen	Auslastung	rFID↓	LPIPS↓	PSNR↑	SSIM↑
VQGAN	65.536	1,4%	3,74	0,17	22,20	0,706
SimVQ	1	100,0%	1,99	0,12	24,34	0,788
Group-VQ	64	99,9%	1,86	0,11	24,37	0,787

Group-VQ erreicht bei allen Metriken die beste Leistung und ist deutlich überlegen gegenüber Baseline-Methoden.

Ablationsstudien

Auswirkung unterschiedlicher Gruppenzahlen:

Gruppen	1	32	64	128	512
Auslastung	100%	100%	100%	95,6%	78,8%
rFID↓	6,45	6,05	6,09	6,11	6,28

Experimente zeigen, dass 32-64 Gruppen die optimale Wahl darstellen und Codebuch-Auslastung und Rekonstruktionsleistung ausgleichen.

Codebuch-Resampling-Experimente

Ergebnisse der Codebuchgrößenanpassung:

Methode	Codebuchgröße	rFID↓	PSNR↑
Group-VQ	65.536	1,87	24,32
+ Downsampling	32.768	2,16	24,02
+ Upsampling	131.072	1,79	24,49
+ Selbsterweiterung	131.072	1,76	24,51

Die Ergebnisse validieren die Wirksamkeit der Codebuch-Resampling-Methode und ermöglichen flexible Anpassung der Codebuchgröße mit erwarteten Leistungsänderungen.

Visualisierungsanalyse

Durch zufällige Projektion von Code-Vektoren in den 2D-Raum wurde festgestellt:

Verschiedene Gruppen lernen unterschiedliche Merkmalsverteilungen
Code-Vektoren innerhalb von Gruppen sind relativ ähnlich, zwischen Gruppen besteht großer Unterschied
Statistische Eigenschaften jeder Gruppe (Mittelwert, Varianz, Nutzungshäufigkeit) unterscheiden sich deutlich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsqualität: 100% Auslastung führt nicht unbedingt zu optimalen Rekonstruktionsergebnissen
Gruppenoptimierung ist eine effektive Ausgleichsstrategie: Group-VQ ermöglicht flexible Kontrolle durch Anpassung der Gruppenzahl
Codebuch-Resampling bietet praktischen Wert: Flexible Anpassung der Codebuchgröße nach dem Training

Einschränkungen

Keine Validierung bei Generierungsaufgaben: Nur auf Rekonstruktionsaufgaben getestet, fehlt Validierung bei generativen Modellen
Gruppenzahlwahl erfordert Optimierung: Optimale Gruppenzahl hängt von spezifischen Aufgaben und Datensätzen ab
Rechenkomplexität: Multi-Gruppen-Optimierung kann Trainingszeit erhöhen

Zukünftige Richtungen

Validierung der Group-VQ-Effektivität bei generativen Modellen (wie autoregressiven Modellen)
Erforschung adaptiver Strategien zur Gruppenzahlwahl
Untersuchung der Kombination von Group-VQ mit anderen VQ-Verbesserungsmethoden

Tiefgreifende Bewertung

Stärken

Klare theoretische Beiträge: Einheitliche Interpretation bestehender VQ-Methoden aus der Perspektive der Gruppenoptimierung bietet neue Analyseperspektive
Einfache und effektive Methode: Group-VQ-Design ist intuitiv, leicht zu implementieren und zu verstehen
Umfassende Experimente: Vollständige Validierung über mehrere Datensätze und Architekturen mit detaillierten Ablationsstudien
Hoher praktischer Wert: Die Codebuch-Resampling-Methode erfüllt praktische Anforderungen an Flexibilität

Mängel

Theoretische Analyse nicht ausreichend tiefgreifend: Mangel an theoretischer Erklärung, warum Gruppenoptimierung effektiver ist
Begrenzte Anwendungsbereiche: Konzentriert sich hauptsächlich auf Bildrekonstruktion, Effektivität bei anderen Modalitäten und Aufgaben unbekannt
Fehlende Analyse der Rechenkosten: Detaillierte Analyse der Rechenkosten der Multi-Gruppen-Optimierung fehlt

Einfluss

Akademischer Wert: Bietet neue Optimierungsperspektive für VQ-Forschung, kann nachfolgende Arbeiten inspirieren
Praktischer Wert: Codebuch-Resampling-Methode hat großen Wert bei praktischer Bereitstellung
Reproduzierbarkeit: Autoren versprechen Code-Veröffentlichung, förderlich für Methodenverbreitung

Anwendungsszenarien

Bild-/Videokodierung: Kompressionaufgaben mit hoher Rekonstruktionsqualität
Multimodale Lernvorgänge: Als universelle Vektorquantisierungskomponente
Generative Modelle: Als Tokenizer zur Bereitstellung diskreter Darstellungen für generative Modelle

Literaturverzeichnis

Dieses Papier basiert hauptsächlich auf folgenden wichtigen Arbeiten:

Van Den Oord et al. (2017) - Originalpapier zu VQ-VAE
Zhu et al. (2024b) - SimVQ-Methode
Yu et al. (2023) - LFQ-Methode
Mentzer et al. (2023) - FSQ-Methode

Zusammenfassung: Dies ist ein Papier mit wichtigen Beiträgen im VQ-Bereich. Die Group-VQ-Methode ist einfach und effektiv und bietet neue Ideen für Codebuch-Optimierung. Die Codebuch-Resampling-Methode hat starken praktischen Wert. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Anwendungsbereichen gibt, ist dies insgesamt eine hochwertige Forschungsarbeit.