2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li
Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
academic

Optimización por Grupos para Libros de Códigos Auto-Extensibles en Modelos de Cuantización Vectorial

Información Básica

  • ID del Artículo: 2510.13331
  • Título: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
  • Autores: Hong-Kai Zheng, Piji Li (Universidad de Aeronáutica y Astronáutica de Nanjing)
  • Clasificación: cs.CV
  • Fecha de Publicación/Conferencia: ICLR 2026
  • Enlace del Artículo: https://arxiv.org/abs/2510.13331

Resumen

Los Autoencodificadores Variacionales de Cuantización Vectorial (VQ-VAE) realizan aprendizaje autosupervisado mediante tareas de reconstrucción, utilizando el vector más cercano en el libro de códigos para representar vectores continuos. Sin embargo, aún existen problemas como el colapso del libro de códigos en modelos VQ. Para abordar estos problemas, los métodos existentes emplean libros de códigos estáticos implícitos u optimización conjunta de todo el libro de códigos, pero estos enfoques limitan la capacidad de aprendizaje del libro de códigos, resultando en una disminución de la calidad de reconstrucción. Este artículo propone Group-VQ, una optimización por grupos del libro de códigos. Cada grupo se optimiza independientemente, con optimización conjunta dentro de los grupos. Este enfoque mejora el equilibrio entre la utilización del libro de códigos y el rendimiento de reconstrucción. Además, introducimos un método de remuestreo del libro de códigos sin entrenamiento que permite ajustar el tamaño del libro de códigos después del entrenamiento. En experimentos de reconstrucción de imágenes bajo diversas configuraciones, Group-VQ demuestra un rendimiento mejorado en métricas de reconstrucción.

Antecedentes de Investigación y Motivación

Descripción del Problema

La Cuantización Vectorial (VQ) es una técnica que mapea características continuas a tokens discretos, ampliamente aplicada en VQ-VAE. Sin embargo, el entrenamiento VQ tradicional enfrenta el problema de baja utilización del libro de códigos, es decir, solo una parte de los vectores de códigos se utilizan y actualizan, causando "colapso del libro de códigos", lo que limita la capacidad de codificación del modelo.

Limitaciones de Métodos Existentes

  1. VQ Vanilla: Cada vector de código se actualiza independientemente, propenso a causar colapso del libro de códigos
  2. Métodos VQ Conjuntos (como SimVQ, VQGAN-LC): Optimizan todo el libro de códigos conjuntamente mediante parámetros compartidos, logrando 100% de utilización, pero limitando la capacidad de aprendizaje del libro de códigos

Motivación de la Investigación

Los autores descubren experimentalmente que aunque VQ Conjunto logra rápidamente 100% de utilización del libro de códigos, con la misma utilización, su calidad de reconstrucción es inferior a la de VQ Vanilla. Esto indica que existe un equilibrio entre la utilización del libro de códigos y el rendimiento de reconstrucción, requiriendo una estrategia de equilibrio mejorada.

Contribuciones Principales

  1. Propuesta del Método Group-VQ: Método de optimización del libro de códigos basado en grupos que equilibra la utilización y el rendimiento de reconstrucción en modelos VQ
  2. Generalización del Método VQ Conjunto: Reinterpretación de VQ Conjunto desde la perspectiva de parámetros compartidos e introducción de método de muestreo del libro de códigos posterior al entrenamiento
  3. Ajuste del Libro de Códigos sin Entrenamiento: Permite ajustar flexiblemente el tamaño del libro de códigos después del entrenamiento sin necesidad de reentrenamiento
  4. Verificación Experimental Integral: Valida la efectividad de Group-VQ y remuestreo del libro de códigos en tareas de reconstrucción de imágenes

Explicación Detallada del Método

Definición de la Tarea

Dada una imagen IRH×W×3I \in \mathbb{R}^{H \times W \times 3}, VQ-VAE primero utiliza un codificador para obtener un mapa de características ZRh×w×dZ \in \mathbb{R}^{h \times w \times d}, luego el cuantificador reemplaza cada vector de características zRdz \in \mathbb{R}^d con el vector de código más cercano en el libro de códigos C={qiqiRd,i=0,1,...,n1}C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}:

q=argminqiCzqi,i=0,1,...,n1q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1

Arquitectura del Modelo

Diseño de Group-VQ

Group-VQ divide el libro de códigos CC en kk grupos disjuntos (sub-libros de códigos):

C=j=0k1Gj,GjGj= si jjC = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ si } j \neq j'

Cada grupo GjG_j se actualiza independientemente, con optimización conjunta dentro del grupo. Para el vector de código qjtGjq_{jt} \in G_j, su actualización de gradiente es:

qjtLcmt=qjtLj\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j

Esto asegura que cada grupo solo sea afectado por gradientes generados por sus vectores de código internos.

Parametrización del Libro de Códigos

Cada grupo GjG_j se parametriza mediante parámetros compartidos:

Gj=G^jWj+bjG_j = \hat{G}_j W_j + b_j

Donde:

  • G^jRnj×rj\hat{G}_j \in \mathbb{R}^{n_j \times r_j}: Núcleo del libro de códigos (muestreo de distribución fija)
  • WjRrj×dW_j \in \mathbb{R}^{r_j \times d}: Proyector (aprendible)
  • bjRdb_j \in \mathbb{R}^d: Vector de sesgo

Puntos de Innovación Técnica

1. Análisis desde una Perspectiva Unificada

  • VQ Vanilla: k=nk = n, cada vector de código es un grupo
  • VQ Conjunto: k=1k = 1, todo el libro de códigos es un grupo
  • Group-VQ: 1kn1 \leq k \leq n, equilibra ambos casos extremos

2. Mecanismo de Remuestreo del Libro de Códigos

Utilizando las características del libro de códigos generativo, se puede remuestrear el núcleo del libro de códigos después del entrenamiento:

q~=v^Wj,v^N(0,I)q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)

Soporta dos modos:

  • Remuestreo: Reemplazo completo del libro de códigos
  • Auto-extensión: Agregar nuevos vectores de código basándose en el libro de códigos original

Configuración Experimental

Conjuntos de Datos

  • ImageNet-1k: Conjunto de datos principal
  • MS-COCO: Validación complementaria
  • Resolución de Entrada: 128×128, factor de submuestreo f=8

Métricas de Evaluación

  • rFID (FID de reconstrucción): Distancia de distribución entre imagen reconstruida e imagen original
  • LPIPS(VGG16): Similitud perceptual
  • PSNR: Relación de señal a ruido de pico
  • SSIM: Índice de similitud estructural

Métodos de Comparación

  • VQGAN, ViT-VQGAN, VQGAN-FC
  • FSQ, LFQ (métodos de libro de códigos fijo)
  • VQGAN-LC, SimVQ (métodos VQ Conjunto)

Detalles de Implementación

  • Tasa de aprendizaje: 1×10⁻⁴
  • Optimizador: Adam (β₁=0.5, β₂=0.9)
  • Tamaño de lote: 32/GPU
  • Hardware: GPU NVIDIA A5000

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento en ImageNet-1k (tamaño del libro de códigos 65,536):

MétodoGruposUtilizaciónrFID↓LPIPS↓PSNR↑SSIM↑
VQGAN65,5361.4%3.740.1722.200.706
SimVQ1100.0%1.990.1224.340.788
Group-VQ6499.9%1.860.1124.370.787

Group-VQ logra el mejor rendimiento en todas las métricas, superando significativamente los métodos de referencia.

Experimentos de Ablación

Impacto del Número de Grupos:

Grupos13264128512
Utilización100%100%100%95.6%78.8%
rFID↓6.456.056.096.116.28

Los experimentos muestran que 32-64 grupos es la opción óptima, equilibrando la utilización del libro de códigos y el rendimiento de reconstrucción.

Experimentos de Remuestreo del Libro de Códigos

Resultados de Ajuste del Tamaño del Libro de Códigos:

MétodoTamaño del Libro de CódigosrFID↓PSNR↑
Group-VQ65,5361.8724.32
+ Submuestreo32,7682.1624.02
+ Sobremuestreo131,0721.7924.49
+ Auto-extensión131,0721.7624.51

Los resultados validan la efectividad del método de remuestreo del libro de códigos, permitiendo ajustar flexiblemente el tamaño del libro de códigos y obtener cambios de rendimiento esperados.

Análisis de Visualización

Mediante proyección aleatoria de vectores de código a espacio 2D, se descubre que:

  1. Diferentes grupos aprenden distribuciones de características diferentes
  2. Los vectores de código dentro de grupos son relativamente similares, con diferencias significativas entre grupos
  3. Las características estadísticas de cada grupo (media, varianza, frecuencia de uso) muestran diferencias obvias

Trabajo Relacionado

Clasificación de Métodos de Mejora VQ

  1. Mejoras del Estimador Straight-Through: Optimización de propagación de gradientes
  2. Cuantización Multi-Índice: RQ-VAE, Product Quantization, etc.
  3. Mejora del Libro de Códigos: Enfoque principal de este artículo

Métodos VQ Conjunto

  • VQGAN-LC: Inicialización con características preentrenadas + capa de proyección
  • SimVQ: Inicialización aleatoria + reparametrización de matriz
  • LFQ/FSQ: Libro de códigos fijo para evitar colapso

Este artículo unifica estos métodos como "VQ Conjunto implementado mediante parámetros compartidos" e introduce una estrategia de optimización por grupos basada en esto.

Conclusiones y Discusión

Conclusiones Principales

  1. Existe un equilibrio entre utilización del libro de códigos y calidad de reconstrucción: 100% de utilización no necesariamente produce el mejor efecto de reconstrucción
  2. La optimización por grupos es una estrategia de equilibrio efectiva: Group-VQ logra control flexible ajustando el número de grupos
  3. El remuestreo del libro de códigos proporciona valor práctico: Permite ajustar flexiblemente el tamaño del libro de códigos después del entrenamiento

Limitaciones

  1. No verificado en tareas generativas: Solo probado en tareas de reconstrucción, falta verificación de modelos generativos
  2. La selección del número de grupos requiere ajuste: El número óptimo de grupos depende de la tarea y conjunto de datos específicos
  3. Complejidad computacional: La optimización de múltiples grupos puede aumentar el tiempo de entrenamiento

Direcciones Futuras

  1. Verificar la efectividad de Group-VQ en modelos generativos (como modelos autorregresivos)
  2. Explorar estrategias de selección adaptativa del número de grupos
  3. Investigar la combinación de Group-VQ con otros métodos de mejora VQ

Evaluación Profunda

Ventajas

  1. Contribución Teórica Clara: Unifica la comprensión de métodos VQ existentes desde la perspectiva de optimización por grupos, proporcionando una nueva perspectiva analítica
  2. Método Simple y Efectivo: El diseño de Group-VQ es intuitivo, fácil de implementar y comprender
  3. Experimentos Exhaustivos: Verificación integral en múltiples conjuntos de datos y arquitecturas, con experimentos de ablación detallados
  4. Alto Valor Práctico: El método de remuestreo del libro de códigos aborda la necesidad de flexibilidad en aplicaciones prácticas

Insuficiencias

  1. Análisis Teórico Insuficiente: Falta explicación teórica de por qué la optimización por grupos es más efectiva
  2. Rango de Aplicabilidad Limitado: Se enfoca principalmente en reconstrucción de imágenes, con efectividad desconocida en otras modalidades y tareas
  3. Análisis de Costo Computacional Faltante: No analiza detalladamente el costo computacional de la optimización de múltiples grupos

Impacto

  1. Valor Académico: Proporciona nuevas ideas de optimización para investigación VQ, potencialmente inspirando trabajos posteriores
  2. Valor Práctico: El método de remuestreo del libro de códigos es muy valioso en despliegue real
  3. Reproducibilidad: Los autores se comprometen a proporcionar código, facilitando la promoción del método

Escenarios de Aplicación

  1. Codificación de Imagen/Video: Tareas de compresión que requieren reconstrucción de alta calidad
  2. Aprendizaje Multimodal: Como componente de cuantización vectorial universal
  3. Modelos Generativos: Como tokenizador para proporcionar representación discreta a modelos generativos

Referencias

Este artículo se basa principalmente en los siguientes trabajos importantes:

  1. Van Den Oord et al. (2017) - Artículo original de VQ-VAE
  2. Zhu et al. (2024b) - Método SimVQ
  3. Yu et al. (2023) - Método LFQ
  4. Mentzer et al. (2023) - Método FSQ

Resumen: Este es un artículo con contribuciones importantes en el campo VQ. El método Group-VQ es simple pero efectivo, proporcionando nuevas ideas para optimización del libro de códigos. El método de remuestreo del libro de códigos tiene un valor práctico muy fuerte. Aunque hay espacio para mejora en análisis teórico y rango de aplicabilidad, en general es un trabajo de investigación de alta calidad.