2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li

Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.

academic

Optimización por Grupos para Libros de Códigos Auto-Extensibles en Modelos de Cuantización Vectorial

Información Básica

ID del Artículo: 2510.13331
Título: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
Autores: Hong-Kai Zheng, Piji Li (Universidad de Aeronáutica y Astronáutica de Nanjing)
Clasificación: cs.CV
Fecha de Publicación/Conferencia: ICLR 2026
Enlace del Artículo: https://arxiv.org/abs/2510.13331

Resumen

Los Autoencodificadores Variacionales de Cuantización Vectorial (VQ-VAE) realizan aprendizaje autosupervisado mediante tareas de reconstrucción, utilizando el vector más cercano en el libro de códigos para representar vectores continuos. Sin embargo, aún existen problemas como el colapso del libro de códigos en modelos VQ. Para abordar estos problemas, los métodos existentes emplean libros de códigos estáticos implícitos u optimización conjunta de todo el libro de códigos, pero estos enfoques limitan la capacidad de aprendizaje del libro de códigos, resultando en una disminución de la calidad de reconstrucción. Este artículo propone Group-VQ, una optimización por grupos del libro de códigos. Cada grupo se optimiza independientemente, con optimización conjunta dentro de los grupos. Este enfoque mejora el equilibrio entre la utilización del libro de códigos y el rendimiento de reconstrucción. Además, introducimos un método de remuestreo del libro de códigos sin entrenamiento que permite ajustar el tamaño del libro de códigos después del entrenamiento. En experimentos de reconstrucción de imágenes bajo diversas configuraciones, Group-VQ demuestra un rendimiento mejorado en métricas de reconstrucción.

Antecedentes de Investigación y Motivación

Descripción del Problema

La Cuantización Vectorial (VQ) es una técnica que mapea características continuas a tokens discretos, ampliamente aplicada en VQ-VAE. Sin embargo, el entrenamiento VQ tradicional enfrenta el problema de baja utilización del libro de códigos, es decir, solo una parte de los vectores de códigos se utilizan y actualizan, causando "colapso del libro de códigos", lo que limita la capacidad de codificación del modelo.

Limitaciones de Métodos Existentes

VQ Vanilla: Cada vector de código se actualiza independientemente, propenso a causar colapso del libro de códigos
Métodos VQ Conjuntos (como SimVQ, VQGAN-LC): Optimizan todo el libro de códigos conjuntamente mediante parámetros compartidos, logrando 100% de utilización, pero limitando la capacidad de aprendizaje del libro de códigos

Motivación de la Investigación

Los autores descubren experimentalmente que aunque VQ Conjunto logra rápidamente 100% de utilización del libro de códigos, con la misma utilización, su calidad de reconstrucción es inferior a la de VQ Vanilla. Esto indica que existe un equilibrio entre la utilización del libro de códigos y el rendimiento de reconstrucción, requiriendo una estrategia de equilibrio mejorada.

Contribuciones Principales

Propuesta del Método Group-VQ: Método de optimización del libro de códigos basado en grupos que equilibra la utilización y el rendimiento de reconstrucción en modelos VQ
Generalización del Método VQ Conjunto: Reinterpretación de VQ Conjunto desde la perspectiva de parámetros compartidos e introducción de método de muestreo del libro de códigos posterior al entrenamiento
Ajuste del Libro de Códigos sin Entrenamiento: Permite ajustar flexiblemente el tamaño del libro de códigos después del entrenamiento sin necesidad de reentrenamiento
Verificación Experimental Integral: Valida la efectividad de Group-VQ y remuestreo del libro de códigos en tareas de reconstrucción de imágenes

Explicación Detallada del Método

Definición de la Tarea

Dada una imagen $I \in \mathbb{R}^{H \times W \times 3}$ , VQ-VAE primero utiliza un codificador para obtener un mapa de características $Z \in \mathbb{R}^{h \times w \times d}$ , luego el cuantificador reemplaza cada vector de características $z \in \mathbb{R}^d$ con el vector de código más cercano en el libro de códigos $C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}$ :

$q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1$

Arquitectura del Modelo

Diseño de Group-VQ

Group-VQ divide el libro de códigos $C$ en $k$ grupos disjuntos (sub-libros de códigos):

$C = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ si } j \neq j'$

Cada grupo $G_j$ se actualiza independientemente, con optimización conjunta dentro del grupo. Para el vector de código $q_{jt} \in G_j$ , su actualización de gradiente es:

$\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j$

Esto asegura que cada grupo solo sea afectado por gradientes generados por sus vectores de código internos.

Parametrización del Libro de Códigos

Cada grupo $G_j$ se parametriza mediante parámetros compartidos:

$G_j = \hat{G}_j W_j + b_j$

Donde:

$\hat{G}_j \in \mathbb{R}^{n_j \times r_j}$ : Núcleo del libro de códigos (muestreo de distribución fija)
$W_j \in \mathbb{R}^{r_j \times d}$ : Proyector (aprendible)
$b_j \in \mathbb{R}^d$ : Vector de sesgo

Puntos de Innovación Técnica

1. Análisis desde una Perspectiva Unificada

VQ Vanilla: $k = n$ , cada vector de código es un grupo
VQ Conjunto: $k = 1$ , todo el libro de códigos es un grupo
Group-VQ: $1 \leq k \leq n$ , equilibra ambos casos extremos

2. Mecanismo de Remuestreo del Libro de Códigos

Utilizando las características del libro de códigos generativo, se puede remuestrear el núcleo del libro de códigos después del entrenamiento:

$q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)$

Soporta dos modos:

Remuestreo: Reemplazo completo del libro de códigos
Auto-extensión: Agregar nuevos vectores de código basándose en el libro de códigos original

Configuración Experimental

Conjuntos de Datos

ImageNet-1k: Conjunto de datos principal
MS-COCO: Validación complementaria
Resolución de Entrada: 128×128, factor de submuestreo f=8

Métricas de Evaluación

rFID (FID de reconstrucción): Distancia de distribución entre imagen reconstruida e imagen original
LPIPS(VGG16): Similitud perceptual
PSNR: Relación de señal a ruido de pico
SSIM: Índice de similitud estructural

Métodos de Comparación

VQGAN, ViT-VQGAN, VQGAN-FC
FSQ, LFQ (métodos de libro de códigos fijo)
VQGAN-LC, SimVQ (métodos VQ Conjunto)

Detalles de Implementación

Tasa de aprendizaje: 1×10⁻⁴
Optimizador: Adam (β₁=0.5, β₂=0.9)
Tamaño de lote: 32/GPU
Hardware: GPU NVIDIA A5000

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento en ImageNet-1k (tamaño del libro de códigos 65,536):

Método	Grupos	Utilización	rFID↓	LPIPS↓	PSNR↑	SSIM↑
VQGAN	65,536	1.4%	3.74	0.17	22.20	0.706
SimVQ	1	100.0%	1.99	0.12	24.34	0.788
Group-VQ	64	99.9%	1.86	0.11	24.37	0.787

Group-VQ logra el mejor rendimiento en todas las métricas, superando significativamente los métodos de referencia.

Experimentos de Ablación

Impacto del Número de Grupos:

Grupos	1	32	64	128	512
Utilización	100%	100%	100%	95.6%	78.8%
rFID↓	6.45	6.05	6.09	6.11	6.28

Los experimentos muestran que 32-64 grupos es la opción óptima, equilibrando la utilización del libro de códigos y el rendimiento de reconstrucción.

Experimentos de Remuestreo del Libro de Códigos

Resultados de Ajuste del Tamaño del Libro de Códigos:

Método	Tamaño del Libro de Códigos	rFID↓	PSNR↑
Group-VQ	65,536	1.87	24.32
+ Submuestreo	32,768	2.16	24.02
+ Sobremuestreo	131,072	1.79	24.49
+ Auto-extensión	131,072	1.76	24.51

Los resultados validan la efectividad del método de remuestreo del libro de códigos, permitiendo ajustar flexiblemente el tamaño del libro de códigos y obtener cambios de rendimiento esperados.

Análisis de Visualización

Mediante proyección aleatoria de vectores de código a espacio 2D, se descubre que:

Diferentes grupos aprenden distribuciones de características diferentes
Los vectores de código dentro de grupos son relativamente similares, con diferencias significativas entre grupos
Las características estadísticas de cada grupo (media, varianza, frecuencia de uso) muestran diferencias obvias

Trabajo Relacionado

Clasificación de Métodos de Mejora VQ

Mejoras del Estimador Straight-Through: Optimización de propagación de gradientes
Cuantización Multi-Índice: RQ-VAE, Product Quantization, etc.
Mejora del Libro de Códigos: Enfoque principal de este artículo

Métodos VQ Conjunto

VQGAN-LC: Inicialización con características preentrenadas + capa de proyección
SimVQ: Inicialización aleatoria + reparametrización de matriz
LFQ/FSQ: Libro de códigos fijo para evitar colapso

Este artículo unifica estos métodos como "VQ Conjunto implementado mediante parámetros compartidos" e introduce una estrategia de optimización por grupos basada en esto.

Conclusiones y Discusión

Conclusiones Principales

Existe un equilibrio entre utilización del libro de códigos y calidad de reconstrucción: 100% de utilización no necesariamente produce el mejor efecto de reconstrucción
La optimización por grupos es una estrategia de equilibrio efectiva: Group-VQ logra control flexible ajustando el número de grupos
El remuestreo del libro de códigos proporciona valor práctico: Permite ajustar flexiblemente el tamaño del libro de códigos después del entrenamiento

Limitaciones

No verificado en tareas generativas: Solo probado en tareas de reconstrucción, falta verificación de modelos generativos
La selección del número de grupos requiere ajuste: El número óptimo de grupos depende de la tarea y conjunto de datos específicos
Complejidad computacional: La optimización de múltiples grupos puede aumentar el tiempo de entrenamiento

Direcciones Futuras

Verificar la efectividad de Group-VQ en modelos generativos (como modelos autorregresivos)
Explorar estrategias de selección adaptativa del número de grupos
Investigar la combinación de Group-VQ con otros métodos de mejora VQ

Evaluación Profunda

Ventajas

Contribución Teórica Clara: Unifica la comprensión de métodos VQ existentes desde la perspectiva de optimización por grupos, proporcionando una nueva perspectiva analítica
Método Simple y Efectivo: El diseño de Group-VQ es intuitivo, fácil de implementar y comprender
Experimentos Exhaustivos: Verificación integral en múltiples conjuntos de datos y arquitecturas, con experimentos de ablación detallados
Alto Valor Práctico: El método de remuestreo del libro de códigos aborda la necesidad de flexibilidad en aplicaciones prácticas

Insuficiencias

Análisis Teórico Insuficiente: Falta explicación teórica de por qué la optimización por grupos es más efectiva
Rango de Aplicabilidad Limitado: Se enfoca principalmente en reconstrucción de imágenes, con efectividad desconocida en otras modalidades y tareas
Análisis de Costo Computacional Faltante: No analiza detalladamente el costo computacional de la optimización de múltiples grupos

Impacto

Valor Académico: Proporciona nuevas ideas de optimización para investigación VQ, potencialmente inspirando trabajos posteriores
Valor Práctico: El método de remuestreo del libro de códigos es muy valioso en despliegue real
Reproducibilidad: Los autores se comprometen a proporcionar código, facilitando la promoción del método

Escenarios de Aplicación

Codificación de Imagen/Video: Tareas de compresión que requieren reconstrucción de alta calidad
Aprendizaje Multimodal: Como componente de cuantización vectorial universal
Modelos Generativos: Como tokenizador para proporcionar representación discreta a modelos generativos

Referencias

Este artículo se basa principalmente en los siguientes trabajos importantes:

Van Den Oord et al. (2017) - Artículo original de VQ-VAE
Zhu et al. (2024b) - Método SimVQ
Yu et al. (2023) - Método LFQ
Mentzer et al. (2023) - Método FSQ

Resumen: Este es un artículo con contribuciones importantes en el campo VQ. El método Group-VQ es simple pero efectivo, proporcionando nuevas ideas para optimización del libro de códigos. El método de remuestreo del libro de códigos tiene un valor práctico muy fuerte. Aunque hay espacio para mejora en análisis teórico y rango de aplicabilidad, en general es un trabajo de investigación de alta calidad.