Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
- ID del Artículo: 2510.13331
- Título: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
- Autores: Hong-Kai Zheng, Piji Li (Universidad de Aeronáutica y Astronáutica de Nanjing)
- Clasificación: cs.CV
- Fecha de Publicación/Conferencia: ICLR 2026
- Enlace del Artículo: https://arxiv.org/abs/2510.13331
Los Autoencodificadores Variacionales de Cuantización Vectorial (VQ-VAE) realizan aprendizaje autosupervisado mediante tareas de reconstrucción, utilizando el vector más cercano en el libro de códigos para representar vectores continuos. Sin embargo, aún existen problemas como el colapso del libro de códigos en modelos VQ. Para abordar estos problemas, los métodos existentes emplean libros de códigos estáticos implícitos u optimización conjunta de todo el libro de códigos, pero estos enfoques limitan la capacidad de aprendizaje del libro de códigos, resultando en una disminución de la calidad de reconstrucción. Este artículo propone Group-VQ, una optimización por grupos del libro de códigos. Cada grupo se optimiza independientemente, con optimización conjunta dentro de los grupos. Este enfoque mejora el equilibrio entre la utilización del libro de códigos y el rendimiento de reconstrucción. Además, introducimos un método de remuestreo del libro de códigos sin entrenamiento que permite ajustar el tamaño del libro de códigos después del entrenamiento. En experimentos de reconstrucción de imágenes bajo diversas configuraciones, Group-VQ demuestra un rendimiento mejorado en métricas de reconstrucción.
La Cuantización Vectorial (VQ) es una técnica que mapea características continuas a tokens discretos, ampliamente aplicada en VQ-VAE. Sin embargo, el entrenamiento VQ tradicional enfrenta el problema de baja utilización del libro de códigos, es decir, solo una parte de los vectores de códigos se utilizan y actualizan, causando "colapso del libro de códigos", lo que limita la capacidad de codificación del modelo.
- VQ Vanilla: Cada vector de código se actualiza independientemente, propenso a causar colapso del libro de códigos
- Métodos VQ Conjuntos (como SimVQ, VQGAN-LC): Optimizan todo el libro de códigos conjuntamente mediante parámetros compartidos, logrando 100% de utilización, pero limitando la capacidad de aprendizaje del libro de códigos
Los autores descubren experimentalmente que aunque VQ Conjunto logra rápidamente 100% de utilización del libro de códigos, con la misma utilización, su calidad de reconstrucción es inferior a la de VQ Vanilla. Esto indica que existe un equilibrio entre la utilización del libro de códigos y el rendimiento de reconstrucción, requiriendo una estrategia de equilibrio mejorada.
- Propuesta del Método Group-VQ: Método de optimización del libro de códigos basado en grupos que equilibra la utilización y el rendimiento de reconstrucción en modelos VQ
- Generalización del Método VQ Conjunto: Reinterpretación de VQ Conjunto desde la perspectiva de parámetros compartidos e introducción de método de muestreo del libro de códigos posterior al entrenamiento
- Ajuste del Libro de Códigos sin Entrenamiento: Permite ajustar flexiblemente el tamaño del libro de códigos después del entrenamiento sin necesidad de reentrenamiento
- Verificación Experimental Integral: Valida la efectividad de Group-VQ y remuestreo del libro de códigos en tareas de reconstrucción de imágenes
Dada una imagen I∈RH×W×3, VQ-VAE primero utiliza un codificador para obtener un mapa de características Z∈Rh×w×d, luego el cuantificador reemplaza cada vector de características z∈Rd con el vector de código más cercano en el libro de códigos C={qi∣qi∈Rd,i=0,1,...,n−1}:
q=argminqi∈C∥z−qi∥,i=0,1,...,n−1
Group-VQ divide el libro de códigos C en k grupos disjuntos (sub-libros de códigos):
C=⋃j=0k−1Gj,Gj∩Gj′=∅ si j=j′
Cada grupo Gj se actualiza independientemente, con optimización conjunta dentro del grupo. Para el vector de código qjt∈Gj, su actualización de gradiente es:
∇qjtLcmt=∇qjtLj
Esto asegura que cada grupo solo sea afectado por gradientes generados por sus vectores de código internos.
Cada grupo Gj se parametriza mediante parámetros compartidos:
Gj=G^jWj+bj
Donde:
- G^j∈Rnj×rj: Núcleo del libro de códigos (muestreo de distribución fija)
- Wj∈Rrj×d: Proyector (aprendible)
- bj∈Rd: Vector de sesgo
- VQ Vanilla: k=n, cada vector de código es un grupo
- VQ Conjunto: k=1, todo el libro de códigos es un grupo
- Group-VQ: 1≤k≤n, equilibra ambos casos extremos
Utilizando las características del libro de códigos generativo, se puede remuestrear el núcleo del libro de códigos después del entrenamiento:
q~=v^Wj,v^∼N(0,I)
Soporta dos modos:
- Remuestreo: Reemplazo completo del libro de códigos
- Auto-extensión: Agregar nuevos vectores de código basándose en el libro de códigos original
- ImageNet-1k: Conjunto de datos principal
- MS-COCO: Validación complementaria
- Resolución de Entrada: 128×128, factor de submuestreo f=8
- rFID (FID de reconstrucción): Distancia de distribución entre imagen reconstruida e imagen original
- LPIPS(VGG16): Similitud perceptual
- PSNR: Relación de señal a ruido de pico
- SSIM: Índice de similitud estructural
- VQGAN, ViT-VQGAN, VQGAN-FC
- FSQ, LFQ (métodos de libro de códigos fijo)
- VQGAN-LC, SimVQ (métodos VQ Conjunto)
- Tasa de aprendizaje: 1×10⁻⁴
- Optimizador: Adam (β₁=0.5, β₂=0.9)
- Tamaño de lote: 32/GPU
- Hardware: GPU NVIDIA A5000
Comparación de Rendimiento en ImageNet-1k (tamaño del libro de códigos 65,536):
| Método | Grupos | Utilización | rFID↓ | LPIPS↓ | PSNR↑ | SSIM↑ |
|---|
| VQGAN | 65,536 | 1.4% | 3.74 | 0.17 | 22.20 | 0.706 |
| SimVQ | 1 | 100.0% | 1.99 | 0.12 | 24.34 | 0.788 |
| Group-VQ | 64 | 99.9% | 1.86 | 0.11 | 24.37 | 0.787 |
Group-VQ logra el mejor rendimiento en todas las métricas, superando significativamente los métodos de referencia.
Impacto del Número de Grupos:
| Grupos | 1 | 32 | 64 | 128 | 512 |
|---|
| Utilización | 100% | 100% | 100% | 95.6% | 78.8% |
| rFID↓ | 6.45 | 6.05 | 6.09 | 6.11 | 6.28 |
Los experimentos muestran que 32-64 grupos es la opción óptima, equilibrando la utilización del libro de códigos y el rendimiento de reconstrucción.
Resultados de Ajuste del Tamaño del Libro de Códigos:
| Método | Tamaño del Libro de Códigos | rFID↓ | PSNR↑ |
|---|
| Group-VQ | 65,536 | 1.87 | 24.32 |
| + Submuestreo | 32,768 | 2.16 | 24.02 |
| + Sobremuestreo | 131,072 | 1.79 | 24.49 |
| + Auto-extensión | 131,072 | 1.76 | 24.51 |
Los resultados validan la efectividad del método de remuestreo del libro de códigos, permitiendo ajustar flexiblemente el tamaño del libro de códigos y obtener cambios de rendimiento esperados.
Mediante proyección aleatoria de vectores de código a espacio 2D, se descubre que:
- Diferentes grupos aprenden distribuciones de características diferentes
- Los vectores de código dentro de grupos son relativamente similares, con diferencias significativas entre grupos
- Las características estadísticas de cada grupo (media, varianza, frecuencia de uso) muestran diferencias obvias
- Mejoras del Estimador Straight-Through: Optimización de propagación de gradientes
- Cuantización Multi-Índice: RQ-VAE, Product Quantization, etc.
- Mejora del Libro de Códigos: Enfoque principal de este artículo
- VQGAN-LC: Inicialización con características preentrenadas + capa de proyección
- SimVQ: Inicialización aleatoria + reparametrización de matriz
- LFQ/FSQ: Libro de códigos fijo para evitar colapso
Este artículo unifica estos métodos como "VQ Conjunto implementado mediante parámetros compartidos" e introduce una estrategia de optimización por grupos basada en esto.
- Existe un equilibrio entre utilización del libro de códigos y calidad de reconstrucción: 100% de utilización no necesariamente produce el mejor efecto de reconstrucción
- La optimización por grupos es una estrategia de equilibrio efectiva: Group-VQ logra control flexible ajustando el número de grupos
- El remuestreo del libro de códigos proporciona valor práctico: Permite ajustar flexiblemente el tamaño del libro de códigos después del entrenamiento
- No verificado en tareas generativas: Solo probado en tareas de reconstrucción, falta verificación de modelos generativos
- La selección del número de grupos requiere ajuste: El número óptimo de grupos depende de la tarea y conjunto de datos específicos
- Complejidad computacional: La optimización de múltiples grupos puede aumentar el tiempo de entrenamiento
- Verificar la efectividad de Group-VQ en modelos generativos (como modelos autorregresivos)
- Explorar estrategias de selección adaptativa del número de grupos
- Investigar la combinación de Group-VQ con otros métodos de mejora VQ
- Contribución Teórica Clara: Unifica la comprensión de métodos VQ existentes desde la perspectiva de optimización por grupos, proporcionando una nueva perspectiva analítica
- Método Simple y Efectivo: El diseño de Group-VQ es intuitivo, fácil de implementar y comprender
- Experimentos Exhaustivos: Verificación integral en múltiples conjuntos de datos y arquitecturas, con experimentos de ablación detallados
- Alto Valor Práctico: El método de remuestreo del libro de códigos aborda la necesidad de flexibilidad en aplicaciones prácticas
- Análisis Teórico Insuficiente: Falta explicación teórica de por qué la optimización por grupos es más efectiva
- Rango de Aplicabilidad Limitado: Se enfoca principalmente en reconstrucción de imágenes, con efectividad desconocida en otras modalidades y tareas
- Análisis de Costo Computacional Faltante: No analiza detalladamente el costo computacional de la optimización de múltiples grupos
- Valor Académico: Proporciona nuevas ideas de optimización para investigación VQ, potencialmente inspirando trabajos posteriores
- Valor Práctico: El método de remuestreo del libro de códigos es muy valioso en despliegue real
- Reproducibilidad: Los autores se comprometen a proporcionar código, facilitando la promoción del método
- Codificación de Imagen/Video: Tareas de compresión que requieren reconstrucción de alta calidad
- Aprendizaje Multimodal: Como componente de cuantización vectorial universal
- Modelos Generativos: Como tokenizador para proporcionar representación discreta a modelos generativos
Este artículo se basa principalmente en los siguientes trabajos importantes:
- Van Den Oord et al. (2017) - Artículo original de VQ-VAE
- Zhu et al. (2024b) - Método SimVQ
- Yu et al. (2023) - Método LFQ
- Mentzer et al. (2023) - Método FSQ
Resumen: Este es un artículo con contribuciones importantes en el campo VQ. El método Group-VQ es simple pero efectivo, proporcionando nuevas ideas para optimización del libro de códigos. El método de remuestreo del libro de códigos tiene un valor práctico muy fuerte. Aunque hay espacio para mejora en análisis teórico y rango de aplicabilidad, en general es un trabajo de investigación de alta calidad.