2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li
Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
academic

벡터 양자화 모델에서 자체 확장 가능한 코드북을 위한 그룹별 최적화

기본 정보

  • 논문 ID: 2510.13331
  • 제목: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
  • 저자: Hong-Kai Zheng, Piji Li (난징항공항천대학교)
  • 분류: cs.CV
  • 발표 시간/학회: ICLR 2026
  • 논문 링크: https://arxiv.org/abs/2510.13331

초록

벡터 양자화 변분 자동인코더(VQ-VAE)는 재구성 작업을 통해 자기 지도 학습을 수행하며, 코드북의 가장 가까운 벡터를 사용하여 연속 벡터를 표현합니다. 그러나 VQ 모델에는 여전히 코드북 붕괴 등의 문제가 존재합니다. 이러한 문제를 해결하기 위해 기존 방법들은 암시적 정적 코드북이나 전체 코드북의 결합 최적화를 채택하지만, 이러한 방법들은 코드북의 학습 능력을 제한하여 재구성 품질 저하를 초래합니다. 본 논문은 코드북을 그룹별로 최적화하는 Group-VQ를 제안합니다. 각 그룹은 독립적으로 최적화되며, 그룹 내에서는 결합 최적화가 수행됩니다. 이러한 방법은 코드북 활용률과 재구성 성능 간의 균형을 개선합니다. 또한 훈련 불필요한 코드북 재샘플링 방법을 도입하여 훈련 후 코드북 크기 조정을 가능하게 합니다. 다양한 설정에서의 이미지 재구성 실험에서 Group-VQ는 재구성 지표에서 개선된 성능을 보여줍니다.

연구 배경 및 동기

문제 설명

벡터 양자화(VQ)는 연속 특징을 이산 토큰으로 매핑하는 기술로, VQ-VAE에서 광범위하게 적용됩니다. 그러나 전통적인 VQ 훈련은 낮은 코드북 활용률 문제에 직면하고 있으며, 이는 일부 코드 벡터만 사용되고 업데이트되어 "코드북 붕괴"를 초래하고 모델의 인코딩 능력을 제한합니다.

기존 방법의 한계

  1. 기본 VQ: 각 코드 벡터가 독립적으로 업데이트되어 코드북 붕괴가 쉽게 발생
  2. 결합 VQ 방법 (SimVQ, VQGAN-LC 등): 공유 매개변수를 통해 전체 코드북을 결합 최적화하여 100% 활용률을 달성할 수 있지만, 코드북의 학습 능력을 제한

연구 동기

저자들은 실험을 통해 결합 VQ가 빠르게 100% 코드북 활용률에 도달할 수 있지만, 동일한 활용률에서 재구성 품질이 기본 VQ보다 오히려 낮다는 것을 발견했습니다. 이는 코드북 활용률과 재구성 성능 간에 트레이드오프가 존재하며, 더 나은 균형 전략이 필요함을 시사합니다.

핵심 기여

  1. Group-VQ 방법 제안: VQ 모델에서 활용률과 재구성 성능을 균형 있게 조정하는 그룹 기반 코드북 최적화 방법
  2. 결합 VQ 방법 일반화: 공유 매개변수 관점에서 결합 VQ를 재해석하고 훈련 후 코드북 샘플링 방법 도입
  3. 훈련 불필요한 코드북 조정: 모델 재훈련 없이 훈련 후 유연하게 코드북 크기 조정 가능
  4. 포괄적 실험 검증: 이미지 재구성 작업에서 Group-VQ와 코드북 재샘플링의 효과 검증

방법 상세 설명

작업 정의

이미지 IRH×W×3I \in \mathbb{R}^{H \times W \times 3}가 주어졌을 때, VQ-VAE는 먼저 인코더를 사용하여 특징 맵 ZRh×w×dZ \in \mathbb{R}^{h \times w \times d}을 얻은 후, 양자화기를 통해 각 특징 벡터 zRdz \in \mathbb{R}^d를 코드북 C={qiqiRd,i=0,1,...,n1}C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}의 가장 가까운 코드 벡터로 대체합니다:

q=argminqiCzqi,i=0,1,...,n1q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1

모델 아키텍처

Group-VQ 설계

Group-VQ는 코드북 CCkk개의 서로 겹치지 않는 그룹(부분 코드북)으로 분할합니다:

C=j=0k1Gj,GjGj= if jjC = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ if } j \neq j'

각 그룹 GjG_j는 독립적으로 업데이트되며, 그룹 내에서는 결합 최적화가 수행됩니다. 코드 벡터 qjtGjq_{jt} \in G_j의 그래디언트 업데이트는 다음과 같습니다:

qjtLcmt=qjtLj\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j

이는 각 그룹이 내부 코드 벡터에서 생성된 그래디언트의 영향만 받도록 보장합니다.

코드북 매개변수화

각 그룹 GjG_j는 공유 매개변수를 통해 매개변수화됩니다:

Gj=G^jWj+bjG_j = \hat{G}_j W_j + b_j

여기서:

  • G^jRnj×rj\hat{G}_j \in \mathbb{R}^{n_j \times r_j}: 코드북 핵심(고정 분포 샘플링)
  • WjRrj×dW_j \in \mathbb{R}^{r_j \times d}: 프로젝터(학습 가능)
  • bjRdb_j \in \mathbb{R}^d: 편향 벡터

기술 혁신 포인트

1. 통합 관점에서의 분석

  • 기본 VQ: k=nk = n, 각 코드 벡터가 하나의 그룹
  • 결합 VQ: k=1k = 1, 전체 코드북이 하나의 그룹
  • Group-VQ: 1kn1 \leq k \leq n, 두 극단 사이의 균형

2. 코드북 재샘플링 메커니즘

생성식 코드북의 특성을 활용하여 훈련 후 코드북 핵심을 재샘플링할 수 있습니다:

q~=v^Wj,v^N(0,I)\tilde{q} = \hat{v} W_j, \quad \hat{v} \sim \mathcal{N}(0, I)

두 가지 모드를 지원합니다:

  • 재샘플링: 코드북 완전 교체
  • 자체 확장: 원래 코드북을 기반으로 새로운 코드 벡터 추가

실험 설정

데이터셋

  • ImageNet-1k: 주요 데이터셋
  • MS-COCO: 보충 검증
  • 입력 해상도: 128×128, 다운샘플링 계수 f=8

평가 지표

  • rFID (재구성 FID): 재구성 이미지와 원본 이미지의 분포 거리
  • LPIPS(VGG16): 지각 유사성
  • PSNR: 최대 신호 대 잡음비
  • SSIM: 구조 유사성 지수

비교 방법

  • VQGAN, ViT-VQGAN, VQGAN-FC
  • FSQ, LFQ (고정 코드북 방법)
  • VQGAN-LC, SimVQ (결합 VQ 방법)

구현 세부사항

  • 학습률: 1×10⁻⁴
  • 최적화기: Adam (β₁=0.5, β₂=0.9)
  • 배치 크기: 32/GPU
  • 하드웨어: NVIDIA A5000 GPU

실험 결과

주요 결과

ImageNet-1k에서의 성능 비교 (코드북 크기 65,536):

방법그룹 수활용률rFID↓LPIPS↓PSNR↑SSIM↑
VQGAN65,5361.4%3.740.1722.200.706
SimVQ1100.0%1.990.1224.340.788
Group-VQ6499.9%1.860.1124.370.787

Group-VQ는 모든 지표에서 최고의 성능을 달성하여 기준 방법들을 크게 능가합니다.

소거 실험

다양한 그룹 수의 영향:

그룹 수13264128512
활용률100%100%100%95.6%78.8%
rFID↓6.456.056.096.116.28

실험은 32-64개의 그룹 수가 최적 선택이며, 코드북 활용률과 재구성 성능을 균형 있게 조정함을 보여줍니다.

코드북 재샘플링 실험

코드북 크기 조정 결과:

방법코드북 크기rFID↓PSNR↑
Group-VQ65,5361.8724.32
+ 다운샘플링32,7682.1624.02
+ 업샘플링131,0721.7924.49
+ 자체 확장131,0721.7624.51

결과는 코드북 재샘플링 방법의 효과를 검증하며, 코드북 크기를 유연하게 조정하고 예상된 성능 변화를 얻을 수 있음을 보여줍니다.

시각화 분석

무작위 투영을 통해 코드 벡터를 2D 공간으로 시각화하면 다음을 발견할 수 있습니다:

  1. 다양한 그룹이 서로 다른 특징 분포를 학습
  2. 그룹 내 코드 벡터는 상대적으로 유사하고, 그룹 간에는 큰 차이
  3. 각 그룹의 통계적 특성(평균, 분산, 사용 빈도)에 명백한 차이

관련 연구

VQ 개선 방법 분류

  1. 직진 추정기 개선: 그래디언트 전파 최적화
  2. 다중 인덱스 양자화: RQ-VAE, 곱 양자화 등
  3. 코드북 개선: 본 논문이 중점을 두는 방향

결합 VQ 방법

  • VQGAN-LC: 사전 훈련된 특징 초기화 + 프로젝션 계층
  • SimVQ: 무작위 초기화 + 행렬 재매개변수화
  • LFQ/FSQ: 붕괴를 피하기 위한 고정 코드북

본 논문은 이러한 방법들을 "공유 매개변수를 통해 구현된 결합 VQ"로 통합하고, 이를 기반으로 그룹별 최적화 전략을 제안합니다.

결론 및 논의

주요 결론

  1. 코드북 활용률과 재구성 품질 간의 트레이드오프: 100% 활용률이 반드시 최고의 재구성 효과를 가져오지는 않음
  2. 그룹별 최적화는 효과적인 균형 전략: Group-VQ는 그룹 수 조정을 통해 유연한 제어 구현
  3. 코드북 재샘플링은 실용적 가치 제공: 훈련 후 유연하게 코드북 크기 조정 가능

한계

  1. 생성 작업에서 검증 부재: 재구성 작업에서만 테스트되었으며, 생성 모델 검증 부족
  2. 그룹 수 선택 필요: 최적 그룹 수는 특정 작업과 데이터셋에 따라 달라짐
  3. 계산 복잡도: 다중 그룹 최적화가 훈련 시간을 증가시킬 수 있음

향후 방향

  1. 생성 모델(자회귀 모델 등)에서 Group-VQ 효과 검증
  2. 자적응 그룹 수 선택 전략 탐색
  3. Group-VQ와 다른 VQ 개선 방법의 결합 연구

심층 평가

장점

  1. 이론적 기여 명확: 그룹 최적화 관점에서 기존 VQ 방법을 통합하여 새로운 분석 관점 제공
  2. 방법 간단하고 효과적: Group-VQ 설계가 직관적이고 구현 및 이해가 용이
  3. 실험 충분: 다중 데이터셋, 다중 아키텍처의 포괄적 검증, 상세한 소거 실험
  4. 실용적 가치 높음: 코드북 재샘플링 방법이 실제 응용에서의 유연성 요구 해결

부족한 점

  1. 이론적 분석 부족: 그룹별 최적화가 더 효과적인 이유에 대한 이론적 설명 부족
  2. 적용 범위 제한: 주로 이미지 재구성에 중점을 두며, 다른 모달리티 및 작업에서의 효과 미지
  3. 계산 오버헤드 분석 누락: 다중 그룹 최적화의 계산 비용에 대한 상세 분석 부재

영향력

  1. 학술적 가치: VQ 연구에 새로운 최적화 사고를 제공하여 후속 연구에 영감 가능
  2. 실용적 가치: 코드북 재샘플링 방법이 실제 배포에서 매우 유용
  3. 재현성: 저자가 코드 공개를 약속하여 방법 확산에 유리

적용 시나리오

  1. 이미지/비디오 인코딩: 높은 품질의 재구성이 필요한 압축 작업
  2. 다중 모달 학습: 범용 벡터 양자화 구성 요소로 사용
  3. 생성 모델: 생성 모델을 위한 토크나이저로 이산 표현 제공

참고 문헌

본 논문은 주로 다음의 중요한 연구를 기반으로 합니다:

  1. Van Den Oord et al. (2017) - VQ-VAE 원본 논문
  2. Zhu et al. (2024b) - SimVQ 방법
  3. Yu et al. (2023) - LFQ 방법
  4. Mentzer et al. (2023) - FSQ 방법

요약: 이는 VQ 분야에서 중요한 기여를 하는 논문입니다. Group-VQ 방법은 간단하면서도 효과적이며, 코드북 최적화를 위한 새로운 사고를 제공합니다. 코드북 재샘플링 방법은 매우 강한 실용적 가치를 가집니다. 이론적 분석과 적용 범위에서 개선의 여지가 있지만, 전반적으로 높은 품질의 연구 작업입니다.