Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
- Papier-ID: 2510.13331
- Titel: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
- Autoren: Hong-Kai Zheng, Piji Li (Nanjing University of Aeronautics and Astronautics)
- Klassifizierung: cs.CV
- Veröffentlichungszeit/Konferenz: ICLR 2026
- Papierlink: https://arxiv.org/abs/2510.13331
Vector Quantized Variational Autoencoders (VQ-VAEs) führen selbstüberwachtes Lernen durch Rekonstruktionsaufgaben durch und verwenden die nächsten Vektoren im Codebuch zur Darstellung kontinuierlicher Vektoren. Allerdings treten in VQ-Modellen noch Probleme wie Codebuch-Kollaps auf. Um diese Probleme zu beheben, verwenden bestehende Methoden entweder implizite statische Codebücher oder optimieren das gesamte Codebuch gemeinsam, aber diese Methoden begrenzen die Lernfähigkeit des Codebuchs und führen zu schlechterer Rekonstruktionsqualität. Dieses Papier schlägt Group-VQ vor, eine gruppenweise Optimierung des Codebuchs. Jede Gruppe wird unabhängig optimiert, während innerhalb der Gruppen eine gemeinsame Optimierung stattfindet. Dieser Ansatz verbessert den Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsleistung. Darüber hinaus führen wir eine trainingsfreie Codebuch-Resampling-Methode ein, die eine Anpassung der Codebuchgröße nach dem Training ermöglicht. In Bildrekonstruktionsexperimenten unter verschiedenen Einstellungen zeigt Group-VQ verbesserte Leistung bei Rekonstruktionsmetriken.
Vector Quantization (VQ) ist eine Technik zur Abbildung kontinuierlicher Merkmale auf diskrete Token, die in VQ-VAE weit verbreitet ist. Allerdings sieht sich das traditionelle VQ-Training dem Problem der niedrigen Codebuch-Auslastung gegenüber, d.h. nur ein Teil der Code-Vektoren wird verwendet und aktualisiert, was zu einem "Codebuch-Kollaps" führt und die Codierungsfähigkeit des Modells einschränkt.
- Vanilla VQ: Jeder Code-Vektor wird unabhängig aktualisiert, was leicht zu Codebuch-Kollaps führt
- Joint VQ-Methoden (wie SimVQ, VQGAN-LC): Durch gemeinsame Parameter wird das gesamte Codebuch gemeinsam optimiert, was zwar 100% Auslastung erreichen kann, aber die Lernfähigkeit des Codebuchs einschränkt
Die Autoren entdeckten durch Experimente, dass Joint VQ zwar schnell 100% Codebuch-Auslastung erreicht, aber bei gleicher Auslastung tatsächlich schlechtere Rekonstruktionsqualität als Vanilla VQ aufweist. Dies zeigt, dass ein Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsleistung besteht, und eine bessere Ausgleichsstrategie erforderlich ist.
- Vorschlag der Group-VQ-Methode: Eine gruppenbasierte Codebuch-Optimierungsmethode, die Auslastung und Rekonstruktionsleistung in VQ-Modellen ausgleicht
- Verallgemeinerung der Joint VQ-Methode: Neuinterpretation von Joint VQ aus der Perspektive gemeinsamer Parameter und Einführung einer Codebuch-Sampling-Methode nach dem Training
- Trainingsfreie Codebuch-Anpassung: Ermöglicht flexible Anpassung der Codebuchgröße nach dem Training ohne Neutraining des Modells
- Umfassende experimentelle Validierung: Validierung der Wirksamkeit von Group-VQ und Codebuch-Resampling bei Bildrekonstruktionsaufgaben
Gegeben ein Bild I∈RH×W×3 verwendet VQ-VAE zunächst einen Encoder, um die Feature-Map Z∈Rh×w×d zu erhalten, dann ersetzt der Quantisierer jeden Feature-Vektor z∈Rd durch den nächsten Code-Vektor im Codebuch C={qi∣qi∈Rd,i=0,1,...,n−1}:
q=argminqi∈C∥z−qi∥,i=0,1,...,n−1
Group-VQ unterteilt das Codebuch C in k disjunkte Gruppen (Unter-Codebücher):
C=⋃j=0k−1Gj,Gj∩Gj′=∅ wenn j=j′
Jede Gruppe Gj wird unabhängig aktualisiert, wobei innerhalb der Gruppen gemeinsame Optimierung verwendet wird. Für einen Code-Vektor qjt∈Gj ist die Gradient-Aktualisierung:
∇qjtLcmt=∇qjtLj
Dies stellt sicher, dass jede Gruppe nur von Gradienten beeinflusst wird, die von ihren internen Code-Vektoren erzeugt werden.
Jede Gruppe Gj wird durch gemeinsame Parameter parametrisiert:
Gj=G^jWj+bj
wobei:
- G^j∈Rnj×rj: Codebuch-Kern (aus fester Verteilung gesampelt)
- Wj∈Rrj×d: Projektor (trainierbar)
- bj∈Rd: Bias-Vektor
- Vanilla VQ: k=n, jeder Code-Vektor ist eine Gruppe
- Joint VQ: k=1, das gesamte Codebuch ist eine Gruppe
- Group-VQ: 1≤k≤n, gleicht beide Extremfälle aus
Unter Nutzung der Eigenschaften des generativen Codebuchs kann das Codebuch nach dem Training neu gesampelt werden:
q~=v^Wj,v^∼N(0,I)
Unterstützt zwei Modi:
- Resampling: Vollständiger Austausch des Codebuchs
- Selbsterweiterung: Hinzufügen neuer Code-Vektoren zur Basis des ursprünglichen Codebuchs
- ImageNet-1k: Hauptdatensatz
- MS-COCO: Zusätzliche Validierung
- Eingabeauflösung: 128×128, Downsampling-Faktor f=8
- rFID (Rekonstruktions-FID): Verteilungsabstand zwischen rekonstruiertem und Originalbild
- LPIPS(VGG16): Wahrnehmungsähnlichkeit
- PSNR: Spitzensignal-Rausch-Verhältnis
- SSIM: Strukturelle Ähnlichkeitsindex
- VQGAN, ViT-VQGAN, VQGAN-FC
- FSQ, LFQ (Methoden mit festem Codebuch)
- VQGAN-LC, SimVQ (Joint VQ-Methoden)
- Lernrate: 1×10⁻⁴
- Optimierer: Adam (β₁=0,5, β₂=0,9)
- Batch-Größe: 32/GPU
- Hardware: NVIDIA A5000 GPU
Leistungsvergleich auf ImageNet-1k (Codebuchgröße 65.536):
| Methode | Gruppen | Auslastung | rFID↓ | LPIPS↓ | PSNR↑ | SSIM↑ |
|---|
| VQGAN | 65.536 | 1,4% | 3,74 | 0,17 | 22,20 | 0,706 |
| SimVQ | 1 | 100,0% | 1,99 | 0,12 | 24,34 | 0,788 |
| Group-VQ | 64 | 99,9% | 1,86 | 0,11 | 24,37 | 0,787 |
Group-VQ erreicht bei allen Metriken die beste Leistung und ist deutlich überlegen gegenüber Baseline-Methoden.
Auswirkung unterschiedlicher Gruppenzahlen:
| Gruppen | 1 | 32 | 64 | 128 | 512 |
|---|
| Auslastung | 100% | 100% | 100% | 95,6% | 78,8% |
| rFID↓ | 6,45 | 6,05 | 6,09 | 6,11 | 6,28 |
Experimente zeigen, dass 32-64 Gruppen die optimale Wahl darstellen und Codebuch-Auslastung und Rekonstruktionsleistung ausgleichen.
Ergebnisse der Codebuchgrößenanpassung:
| Methode | Codebuchgröße | rFID↓ | PSNR↑ |
|---|
| Group-VQ | 65.536 | 1,87 | 24,32 |
| + Downsampling | 32.768 | 2,16 | 24,02 |
| + Upsampling | 131.072 | 1,79 | 24,49 |
| + Selbsterweiterung | 131.072 | 1,76 | 24,51 |
Die Ergebnisse validieren die Wirksamkeit der Codebuch-Resampling-Methode und ermöglichen flexible Anpassung der Codebuchgröße mit erwarteten Leistungsänderungen.
Durch zufällige Projektion von Code-Vektoren in den 2D-Raum wurde festgestellt:
- Verschiedene Gruppen lernen unterschiedliche Merkmalsverteilungen
- Code-Vektoren innerhalb von Gruppen sind relativ ähnlich, zwischen Gruppen besteht großer Unterschied
- Statistische Eigenschaften jeder Gruppe (Mittelwert, Varianz, Nutzungshäufigkeit) unterscheiden sich deutlich
- Straight-Through Estimator-Verbesserungen: Optimierung der Gradientenausbreitung
- Multi-Index-Quantisierung: RQ-VAE, Product Quantization usw.
- Codebuch-Verbesserungen: Fokus dieses Papiers
- VQGAN-LC: Verwendung vorgefilterte Merkmale zur Initialisierung + Projektionsschicht
- SimVQ: Zufällige Initialisierung + Matrixumparametrisierung
- LFQ/FSQ: Festgelegtes Codebuch zur Vermeidung von Kollaps
Dieses Papier vereinheitlicht diese Methoden als "Joint VQ durch gemeinsame Parameter implementiert" und schlägt auf dieser Grundlage eine Gruppen-Optimierungsstrategie vor.
- Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsqualität: 100% Auslastung führt nicht unbedingt zu optimalen Rekonstruktionsergebnissen
- Gruppenoptimierung ist eine effektive Ausgleichsstrategie: Group-VQ ermöglicht flexible Kontrolle durch Anpassung der Gruppenzahl
- Codebuch-Resampling bietet praktischen Wert: Flexible Anpassung der Codebuchgröße nach dem Training
- Keine Validierung bei Generierungsaufgaben: Nur auf Rekonstruktionsaufgaben getestet, fehlt Validierung bei generativen Modellen
- Gruppenzahlwahl erfordert Optimierung: Optimale Gruppenzahl hängt von spezifischen Aufgaben und Datensätzen ab
- Rechenkomplexität: Multi-Gruppen-Optimierung kann Trainingszeit erhöhen
- Validierung der Group-VQ-Effektivität bei generativen Modellen (wie autoregressiven Modellen)
- Erforschung adaptiver Strategien zur Gruppenzahlwahl
- Untersuchung der Kombination von Group-VQ mit anderen VQ-Verbesserungsmethoden
- Klare theoretische Beiträge: Einheitliche Interpretation bestehender VQ-Methoden aus der Perspektive der Gruppenoptimierung bietet neue Analyseperspektive
- Einfache und effektive Methode: Group-VQ-Design ist intuitiv, leicht zu implementieren und zu verstehen
- Umfassende Experimente: Vollständige Validierung über mehrere Datensätze und Architekturen mit detaillierten Ablationsstudien
- Hoher praktischer Wert: Die Codebuch-Resampling-Methode erfüllt praktische Anforderungen an Flexibilität
- Theoretische Analyse nicht ausreichend tiefgreifend: Mangel an theoretischer Erklärung, warum Gruppenoptimierung effektiver ist
- Begrenzte Anwendungsbereiche: Konzentriert sich hauptsächlich auf Bildrekonstruktion, Effektivität bei anderen Modalitäten und Aufgaben unbekannt
- Fehlende Analyse der Rechenkosten: Detaillierte Analyse der Rechenkosten der Multi-Gruppen-Optimierung fehlt
- Akademischer Wert: Bietet neue Optimierungsperspektive für VQ-Forschung, kann nachfolgende Arbeiten inspirieren
- Praktischer Wert: Codebuch-Resampling-Methode hat großen Wert bei praktischer Bereitstellung
- Reproduzierbarkeit: Autoren versprechen Code-Veröffentlichung, förderlich für Methodenverbreitung
- Bild-/Videokodierung: Kompressionaufgaben mit hoher Rekonstruktionsqualität
- Multimodale Lernvorgänge: Als universelle Vektorquantisierungskomponente
- Generative Modelle: Als Tokenizer zur Bereitstellung diskreter Darstellungen für generative Modelle
Dieses Papier basiert hauptsächlich auf folgenden wichtigen Arbeiten:
- Van Den Oord et al. (2017) - Originalpapier zu VQ-VAE
- Zhu et al. (2024b) - SimVQ-Methode
- Yu et al. (2023) - LFQ-Methode
- Mentzer et al. (2023) - FSQ-Methode
Zusammenfassung: Dies ist ein Papier mit wichtigen Beiträgen im VQ-Bereich. Die Group-VQ-Methode ist einfach und effektiv und bietet neue Ideen für Codebuch-Optimierung. Die Codebuch-Resampling-Methode hat starken praktischen Wert. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Anwendungsbereichen gibt, ist dies insgesamt eine hochwertige Forschungsarbeit.