2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li
Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
academic

Gruppenweise Optimierung für selbsterweiterbare Codebücher in vektorquantisierten Modellen

Grundlegende Informationen

  • Papier-ID: 2510.13331
  • Titel: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
  • Autoren: Hong-Kai Zheng, Piji Li (Nanjing University of Aeronautics and Astronautics)
  • Klassifizierung: cs.CV
  • Veröffentlichungszeit/Konferenz: ICLR 2026
  • Papierlink: https://arxiv.org/abs/2510.13331

Zusammenfassung

Vector Quantized Variational Autoencoders (VQ-VAEs) führen selbstüberwachtes Lernen durch Rekonstruktionsaufgaben durch und verwenden die nächsten Vektoren im Codebuch zur Darstellung kontinuierlicher Vektoren. Allerdings treten in VQ-Modellen noch Probleme wie Codebuch-Kollaps auf. Um diese Probleme zu beheben, verwenden bestehende Methoden entweder implizite statische Codebücher oder optimieren das gesamte Codebuch gemeinsam, aber diese Methoden begrenzen die Lernfähigkeit des Codebuchs und führen zu schlechterer Rekonstruktionsqualität. Dieses Papier schlägt Group-VQ vor, eine gruppenweise Optimierung des Codebuchs. Jede Gruppe wird unabhängig optimiert, während innerhalb der Gruppen eine gemeinsame Optimierung stattfindet. Dieser Ansatz verbessert den Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsleistung. Darüber hinaus führen wir eine trainingsfreie Codebuch-Resampling-Methode ein, die eine Anpassung der Codebuchgröße nach dem Training ermöglicht. In Bildrekonstruktionsexperimenten unter verschiedenen Einstellungen zeigt Group-VQ verbesserte Leistung bei Rekonstruktionsmetriken.

Forschungshintergrund und Motivation

Problembeschreibung

Vector Quantization (VQ) ist eine Technik zur Abbildung kontinuierlicher Merkmale auf diskrete Token, die in VQ-VAE weit verbreitet ist. Allerdings sieht sich das traditionelle VQ-Training dem Problem der niedrigen Codebuch-Auslastung gegenüber, d.h. nur ein Teil der Code-Vektoren wird verwendet und aktualisiert, was zu einem "Codebuch-Kollaps" führt und die Codierungsfähigkeit des Modells einschränkt.

Einschränkungen bestehender Methoden

  1. Vanilla VQ: Jeder Code-Vektor wird unabhängig aktualisiert, was leicht zu Codebuch-Kollaps führt
  2. Joint VQ-Methoden (wie SimVQ, VQGAN-LC): Durch gemeinsame Parameter wird das gesamte Codebuch gemeinsam optimiert, was zwar 100% Auslastung erreichen kann, aber die Lernfähigkeit des Codebuchs einschränkt

Forschungsmotivation

Die Autoren entdeckten durch Experimente, dass Joint VQ zwar schnell 100% Codebuch-Auslastung erreicht, aber bei gleicher Auslastung tatsächlich schlechtere Rekonstruktionsqualität als Vanilla VQ aufweist. Dies zeigt, dass ein Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsleistung besteht, und eine bessere Ausgleichsstrategie erforderlich ist.

Kernbeiträge

  1. Vorschlag der Group-VQ-Methode: Eine gruppenbasierte Codebuch-Optimierungsmethode, die Auslastung und Rekonstruktionsleistung in VQ-Modellen ausgleicht
  2. Verallgemeinerung der Joint VQ-Methode: Neuinterpretation von Joint VQ aus der Perspektive gemeinsamer Parameter und Einführung einer Codebuch-Sampling-Methode nach dem Training
  3. Trainingsfreie Codebuch-Anpassung: Ermöglicht flexible Anpassung der Codebuchgröße nach dem Training ohne Neutraining des Modells
  4. Umfassende experimentelle Validierung: Validierung der Wirksamkeit von Group-VQ und Codebuch-Resampling bei Bildrekonstruktionsaufgaben

Methodische Erklärung

Aufgabendefinition

Gegeben ein Bild IRH×W×3I \in \mathbb{R}^{H \times W \times 3} verwendet VQ-VAE zunächst einen Encoder, um die Feature-Map ZRh×w×dZ \in \mathbb{R}^{h \times w \times d} zu erhalten, dann ersetzt der Quantisierer jeden Feature-Vektor zRdz \in \mathbb{R}^d durch den nächsten Code-Vektor im Codebuch C={qiqiRd,i=0,1,...,n1}C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}:

q=argminqiCzqi,i=0,1,...,n1q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1

Modellarchitektur

Group-VQ-Design

Group-VQ unterteilt das Codebuch CC in kk disjunkte Gruppen (Unter-Codebücher):

C=j=0k1Gj,GjGj= wenn jjC = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ wenn } j \neq j'

Jede Gruppe GjG_j wird unabhängig aktualisiert, wobei innerhalb der Gruppen gemeinsame Optimierung verwendet wird. Für einen Code-Vektor qjtGjq_{jt} \in G_j ist die Gradient-Aktualisierung:

qjtLcmt=qjtLj\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j

Dies stellt sicher, dass jede Gruppe nur von Gradienten beeinflusst wird, die von ihren internen Code-Vektoren erzeugt werden.

Codebuch-Parametrisierung

Jede Gruppe GjG_j wird durch gemeinsame Parameter parametrisiert:

Gj=G^jWj+bjG_j = \hat{G}_j W_j + b_j

wobei:

  • G^jRnj×rj\hat{G}_j \in \mathbb{R}^{n_j \times r_j}: Codebuch-Kern (aus fester Verteilung gesampelt)
  • WjRrj×dW_j \in \mathbb{R}^{r_j \times d}: Projektor (trainierbar)
  • bjRdb_j \in \mathbb{R}^d: Bias-Vektor

Technische Innovationspunkte

1. Einheitliche Perspektive der Analyse

  • Vanilla VQ: k=nk = n, jeder Code-Vektor ist eine Gruppe
  • Joint VQ: k=1k = 1, das gesamte Codebuch ist eine Gruppe
  • Group-VQ: 1kn1 \leq k \leq n, gleicht beide Extremfälle aus

2. Codebuch-Resampling-Mechanismus

Unter Nutzung der Eigenschaften des generativen Codebuchs kann das Codebuch nach dem Training neu gesampelt werden:

q~=v^Wj,v^N(0,I)\tilde{q} = \hat{v} W_j, \quad \hat{v} \sim \mathcal{N}(0, I)

Unterstützt zwei Modi:

  • Resampling: Vollständiger Austausch des Codebuchs
  • Selbsterweiterung: Hinzufügen neuer Code-Vektoren zur Basis des ursprünglichen Codebuchs

Experimentelle Einrichtung

Datensätze

  • ImageNet-1k: Hauptdatensatz
  • MS-COCO: Zusätzliche Validierung
  • Eingabeauflösung: 128×128, Downsampling-Faktor f=8

Evaluierungsmetriken

  • rFID (Rekonstruktions-FID): Verteilungsabstand zwischen rekonstruiertem und Originalbild
  • LPIPS(VGG16): Wahrnehmungsähnlichkeit
  • PSNR: Spitzensignal-Rausch-Verhältnis
  • SSIM: Strukturelle Ähnlichkeitsindex

Vergleichsmethoden

  • VQGAN, ViT-VQGAN, VQGAN-FC
  • FSQ, LFQ (Methoden mit festem Codebuch)
  • VQGAN-LC, SimVQ (Joint VQ-Methoden)

Implementierungsdetails

  • Lernrate: 1×10⁻⁴
  • Optimierer: Adam (β₁=0,5, β₂=0,9)
  • Batch-Größe: 32/GPU
  • Hardware: NVIDIA A5000 GPU

Experimentelle Ergebnisse

Hauptergebnisse

Leistungsvergleich auf ImageNet-1k (Codebuchgröße 65.536):

MethodeGruppenAuslastungrFID↓LPIPS↓PSNR↑SSIM↑
VQGAN65.5361,4%3,740,1722,200,706
SimVQ1100,0%1,990,1224,340,788
Group-VQ6499,9%1,860,1124,370,787

Group-VQ erreicht bei allen Metriken die beste Leistung und ist deutlich überlegen gegenüber Baseline-Methoden.

Ablationsstudien

Auswirkung unterschiedlicher Gruppenzahlen:

Gruppen13264128512
Auslastung100%100%100%95,6%78,8%
rFID↓6,456,056,096,116,28

Experimente zeigen, dass 32-64 Gruppen die optimale Wahl darstellen und Codebuch-Auslastung und Rekonstruktionsleistung ausgleichen.

Codebuch-Resampling-Experimente

Ergebnisse der Codebuchgrößenanpassung:

MethodeCodebuchgrößerFID↓PSNR↑
Group-VQ65.5361,8724,32
+ Downsampling32.7682,1624,02
+ Upsampling131.0721,7924,49
+ Selbsterweiterung131.0721,7624,51

Die Ergebnisse validieren die Wirksamkeit der Codebuch-Resampling-Methode und ermöglichen flexible Anpassung der Codebuchgröße mit erwarteten Leistungsänderungen.

Visualisierungsanalyse

Durch zufällige Projektion von Code-Vektoren in den 2D-Raum wurde festgestellt:

  1. Verschiedene Gruppen lernen unterschiedliche Merkmalsverteilungen
  2. Code-Vektoren innerhalb von Gruppen sind relativ ähnlich, zwischen Gruppen besteht großer Unterschied
  3. Statistische Eigenschaften jeder Gruppe (Mittelwert, Varianz, Nutzungshäufigkeit) unterscheiden sich deutlich

Verwandte Arbeiten

Klassifizierung von VQ-Verbesserungsmethoden

  1. Straight-Through Estimator-Verbesserungen: Optimierung der Gradientenausbreitung
  2. Multi-Index-Quantisierung: RQ-VAE, Product Quantization usw.
  3. Codebuch-Verbesserungen: Fokus dieses Papiers

Joint VQ-Methoden

  • VQGAN-LC: Verwendung vorgefilterte Merkmale zur Initialisierung + Projektionsschicht
  • SimVQ: Zufällige Initialisierung + Matrixumparametrisierung
  • LFQ/FSQ: Festgelegtes Codebuch zur Vermeidung von Kollaps

Dieses Papier vereinheitlicht diese Methoden als "Joint VQ durch gemeinsame Parameter implementiert" und schlägt auf dieser Grundlage eine Gruppen-Optimierungsstrategie vor.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Kompromiss zwischen Codebuch-Auslastung und Rekonstruktionsqualität: 100% Auslastung führt nicht unbedingt zu optimalen Rekonstruktionsergebnissen
  2. Gruppenoptimierung ist eine effektive Ausgleichsstrategie: Group-VQ ermöglicht flexible Kontrolle durch Anpassung der Gruppenzahl
  3. Codebuch-Resampling bietet praktischen Wert: Flexible Anpassung der Codebuchgröße nach dem Training

Einschränkungen

  1. Keine Validierung bei Generierungsaufgaben: Nur auf Rekonstruktionsaufgaben getestet, fehlt Validierung bei generativen Modellen
  2. Gruppenzahlwahl erfordert Optimierung: Optimale Gruppenzahl hängt von spezifischen Aufgaben und Datensätzen ab
  3. Rechenkomplexität: Multi-Gruppen-Optimierung kann Trainingszeit erhöhen

Zukünftige Richtungen

  1. Validierung der Group-VQ-Effektivität bei generativen Modellen (wie autoregressiven Modellen)
  2. Erforschung adaptiver Strategien zur Gruppenzahlwahl
  3. Untersuchung der Kombination von Group-VQ mit anderen VQ-Verbesserungsmethoden

Tiefgreifende Bewertung

Stärken

  1. Klare theoretische Beiträge: Einheitliche Interpretation bestehender VQ-Methoden aus der Perspektive der Gruppenoptimierung bietet neue Analyseperspektive
  2. Einfache und effektive Methode: Group-VQ-Design ist intuitiv, leicht zu implementieren und zu verstehen
  3. Umfassende Experimente: Vollständige Validierung über mehrere Datensätze und Architekturen mit detaillierten Ablationsstudien
  4. Hoher praktischer Wert: Die Codebuch-Resampling-Methode erfüllt praktische Anforderungen an Flexibilität

Mängel

  1. Theoretische Analyse nicht ausreichend tiefgreifend: Mangel an theoretischer Erklärung, warum Gruppenoptimierung effektiver ist
  2. Begrenzte Anwendungsbereiche: Konzentriert sich hauptsächlich auf Bildrekonstruktion, Effektivität bei anderen Modalitäten und Aufgaben unbekannt
  3. Fehlende Analyse der Rechenkosten: Detaillierte Analyse der Rechenkosten der Multi-Gruppen-Optimierung fehlt

Einfluss

  1. Akademischer Wert: Bietet neue Optimierungsperspektive für VQ-Forschung, kann nachfolgende Arbeiten inspirieren
  2. Praktischer Wert: Codebuch-Resampling-Methode hat großen Wert bei praktischer Bereitstellung
  3. Reproduzierbarkeit: Autoren versprechen Code-Veröffentlichung, förderlich für Methodenverbreitung

Anwendungsszenarien

  1. Bild-/Videokodierung: Kompressionaufgaben mit hoher Rekonstruktionsqualität
  2. Multimodale Lernvorgänge: Als universelle Vektorquantisierungskomponente
  3. Generative Modelle: Als Tokenizer zur Bereitstellung diskreter Darstellungen für generative Modelle

Literaturverzeichnis

Dieses Papier basiert hauptsächlich auf folgenden wichtigen Arbeiten:

  1. Van Den Oord et al. (2017) - Originalpapier zu VQ-VAE
  2. Zhu et al. (2024b) - SimVQ-Methode
  3. Yu et al. (2023) - LFQ-Methode
  4. Mentzer et al. (2023) - FSQ-Methode

Zusammenfassung: Dies ist ein Papier mit wichtigen Beiträgen im VQ-Bereich. Die Group-VQ-Methode ist einfach und effektiv und bietet neue Ideen für Codebuch-Optimierung. Die Codebuch-Resampling-Methode hat starken praktischen Wert. Obwohl es noch Raum für Verbesserungen in theoretischer Analyse und Anwendungsbereichen gibt, ist dies insgesamt eine hochwertige Forschungsarbeit.