2025-11-10T02:44:53.419690

Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models

Zheng, Li

Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.

academic

वेक्टर क्वांटाइज्ड मॉडल्स में स्व-विस्तारणीय कोडबुक के लिए समूह-वार अनुकूलन

मूल जानकारी

पेपर ID: 2510.13331
शीर्षक: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
लेखक: Hong-Kai Zheng, Piji Li (नानजिंग एरोनॉटिक्स एंड एस्ट्रोनॉटिक्स विश्वविद्यालय)
वर्गीकरण: cs.CV
प्रकाशन समय/सम्मेलन: ICLR 2026
पेपर लिंक: https://arxiv.org/abs/2510.13331

सारांश

वेक्टर क्वांटाइज्ड वेरिएशनल ऑटोएनकोडर्स (VQ-VAE) पुनर्निर्माण कार्य के माध्यम से स्व-पर्यवेक्षित शिक्षा प्रदान करते हैं, कोडबुक में निकटतम वेक्टर का उपयोग करके सतत वेक्टर का प्रतिनिधित्व करते हैं। हालांकि, VQ मॉडल में कोडबुक पतन जैसी समस्याएं अभी भी मौजूद हैं। इन समस्याओं को हल करने के लिए, मौजूदा विधियां निहित स्थिर कोडबुक या संपूर्ण कोडबुक के संयुक्त अनुकूलन का उपयोग करती हैं, लेकिन ये विधियां कोडबुक की सीखने की क्षमता को सीमित करती हैं, जिससे पुनर्निर्माण गुणवत्ता में गिरावट आती है। यह पेपर Group-VQ प्रस्तावित करता है, जो कोडबुक का समूह-वार अनुकूलन करता है। प्रत्येक समूह स्वतंत्र रूप से अनुकूलित होता है, समूह के भीतर संयुक्त अनुकूलन होता है। यह विधि कोडबुक उपयोग दर और पुनर्निर्माण प्रदर्शन के बीच संतुलन में सुधार करती है। इसके अलावा, हम एक प्रशिक्षण-मुक्त कोडबुक पुनः-नमूनाकरण विधि भी प्रस्तुत करते हैं, जो प्रशिक्षण के बाद कोडबुक आकार को समायोजित करने की अनुमति देता है। विभिन्न सेटिंग्स में छवि पुनर्निर्माण प्रयोगों में, Group-VQ पुनर्निर्माण मेट्रिक्स पर बेहतर प्रदर्शन प्रदर्शित करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या विवरण

वेक्टर क्वांटाइजेशन (VQ) एक ऐसी तकनीक है जो सतत विशेषताओं को असतत टोकन में मैप करती है, जो VQ-VAE में व्यापक रूप से लागू होती है। हालांकि, पारंपरिक VQ प्रशिक्षण कोडबुक उपयोग दर कम की समस्या का सामना करता है, अर्थात् केवल कुछ कोड वेक्टर का उपयोग और अपडेट किया जाता है, जिससे "कोडबुक पतन" होता है, जो मॉडल की एन्कोडिंग क्षमता को सीमित करता है।

मौजूदा विधियों की सीमाएं

Vanilla VQ: प्रत्येक कोड वेक्टर स्वतंत्र रूप से अपडेट होता है, कोडबुक पतन की ओर ले जाता है
Joint VQ विधियां (जैसे SimVQ, VQGAN-LC): साझा पैरामीटर के माध्यम से संपूर्ण कोडबुक को संयुक्त रूप से अनुकूलित करते हैं, हालांकि 100% उपयोग दर प्राप्त कर सकते हैं, लेकिन कोडबुक की सीखने की क्षमता को सीमित करते हैं

अनुसंधान प्रेरणा

लेखकों ने प्रयोगों के माध्यम से पाया कि Joint VQ हालांकि तेजी से 100% कोडबुक उपयोग दर तक पहुंच सकता है, लेकिन समान उपयोग दर पर, इसकी पुनर्निर्माण गुणवत्ता Vanilla VQ से भी कम है। यह दर्शाता है कि कोडबुक उपयोग दर और पुनर्निर्माण प्रदर्शन के बीच एक व्यापार-बंद मौजूद है, जिसके लिए एक बेहतर संतुलन रणनीति की आवश्यकता है।

मुख्य योगदान

Group-VQ विधि प्रस्तावित करना: समूह-आधारित कोडबुक अनुकूलन विधि, VQ मॉडल में उपयोग दर और पुनर्निर्माण प्रदर्शन को संतुलित करता है
Joint VQ विधि को सामान्यीकृत करना: साझा पैरामीटर के दृष्टिकोण से Joint VQ को पुनः समझना, और प्रशिक्षण-पश्चात कोडबुक नमूनाकरण विधि प्रस्तुत करना
प्रशिक्षण-मुक्त कोडबुक समायोजन: प्रशिक्षण-पश्चात लचीले ढंग से कोडबुक आकार को समायोजित करना, मॉडल को पुनः प्रशिक्षित किए बिना
व्यापक प्रयोगात्मक सत्यापन: छवि पुनर्निर्माण कार्य पर Group-VQ और कोडबुक पुनः-नमूनाकरण की प्रभावशीलता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

दिया गया छवि $I \in \mathbb{R}^{H \times W \times 3}$ , VQ-VAE पहले एनकोडर का उपयोग करके विशेषता मानचित्र $Z \in \mathbb{R}^{h \times w \times d}$ प्राप्त करता है, फिर क्वांटाइजर के माध्यम से प्रत्येक विशेषता वेक्टर $z \in \mathbb{R}^d$ को कोडबुक $C = \{q_i | q_i \in \mathbb{R}^d, i = 0,1,...,n-1\}$ में निकटतम कोड वेक्टर से बदल देता है:

$q = \arg\min_{q_i \in C} \|z - q_i\|, i = 0,1,...,n-1$

मॉडल आर्किटेक्चर

Group-VQ डिजाइन

Group-VQ कोडबुक $C$ को $k$ परस्पर असंयुक्त समूहों (उप-कोडबुक) में विभाजित करता है:

$C = \bigcup_{j=0}^{k-1} G_j, \quad G_j \cap G_{j'} = \emptyset \text{ यदि } j \neq j'$

प्रत्येक समूह $G_j$ स्वतंत्र रूप से अपडेट होता है, समूह के भीतर संयुक्त अनुकूलन होता है। कोड वेक्टर $q_{jt} \in G_j$ के लिए, इसका ग्रेडिएंट अपडेट है:

$\nabla_{q_{jt}} L_{cmt} = \nabla_{q_{jt}} L_j$

यह सुनिश्चित करता है कि प्रत्येक समूह केवल अपने आंतरिक कोड वेक्टर द्वारा उत्पन्न ग्रेडिएंट से प्रभावित होता है।

कोडबुक पैरामीटराइजेशन

प्रत्येक समूह $G_j$ साझा पैरामीटर के माध्यम से पैरामीटराइज किया जाता है:

$G_j = \hat{G}_j W_j + b_j$

जहां:

$\hat{G}_j \in \mathbb{R}^{n_j \times r_j}$ : कोडबुक कोर (निश्चित वितरण नमूनाकरण)
$W_j \in \mathbb{R}^{r_j \times d}$ : प्रोजेक्टर (सीखने योग्य)
$b_j \in \mathbb{R}^d$ : पूर्वाग्रह वेक्टर

तकनीकी नवाचार बिंदु

1. एकीकृत दृष्टिकोण के तहत विश्लेषण

Vanilla VQ: $k = n$ , प्रत्येक कोड वेक्टर एक समूह है
Joint VQ: $k = 1$ , संपूर्ण कोडबुक एक समूह है
Group-VQ: $1 \leq k \leq n$ , दोनों चरम मामलों को संतुलित करता है

2. कोडबुक पुनः-नमूनाकरण तंत्र

जनरेटिव कोडबुक की विशेषता का उपयोग करते हुए, प्रशिक्षण के बाद कोडबुक कोर को पुनः-नमूना किया जा सकता है:

$q̃ = v̂ W_j, \quad v̂ \sim \mathcal{N}(0, I)$

दो मोड का समर्थन करता है:

पुनः-नमूनाकरण: कोडबुक को पूरी तरह से बदलना
स्व-विस्तार: मूल कोडबुक के आधार पर नए कोड वेक्टर जोड़ना

प्रयोगात्मक सेटअप

डेटासेट

ImageNet-1k: मुख्य डेटासेट
MS-COCO: पूरक सत्यापन
इनपुट रिजोल्यूशन: 128×128, डाउनसैंपलिंग कारक f=8

मूल्यांकन मेट्रिक्स

rFID (पुनर्निर्माण FID): पुनर्निर्मित छवि और मूल छवि के बीच वितरण दूरी
LPIPS(VGG16): संवेदनशील समानता
PSNR: शिखर संकेत-से-शोर अनुपात
SSIM: संरचनात्मक समानता सूचकांक

तुलना विधियां

VQGAN, ViT-VQGAN, VQGAN-FC
FSQ, LFQ (निश्चित कोडबुक विधियां)
VQGAN-LC, SimVQ (Joint VQ विधियां)

कार्यान्वयन विवरण

सीखने की दर: 1×10⁻⁴
अनुकूलक: Adam (β₁=0.5, β₂=0.9)
बैच आकार: 32/GPU
हार्डवेयर: NVIDIA A5000 GPU

प्रयोगात्मक परिणाम

मुख्य परिणाम

ImageNet-1k पर प्रदर्शन तुलना (कोडबुक आकार 65,536):

विधि	समूह	उपयोग दर	rFID↓	LPIPS↓	PSNR↑	SSIM↑
VQGAN	65,536	1.4%	3.74	0.17	22.20	0.706
SimVQ	1	100.0%	1.99	0.12	24.34	0.788
Group-VQ	64	99.9%	1.86	0.11	24.37	0.787

Group-VQ सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करता है, baseline विधियों से काफी बेहतर है।

विलोपन प्रयोग

विभिन्न समूह संख्याओं का प्रभाव:

समूह	1	32	64	128	512
उपयोग दर	100%	100%	100%	95.6%	78.8%
rFID↓	6.45	6.05	6.09	6.11	6.28

प्रयोग दर्शाते हैं कि 32-64 समूह संख्या सर्वोत्तम विकल्प है, कोडबुक उपयोग दर और पुनर्निर्माण प्रदर्शन को संतुलित करता है।

कोडबुक पुनः-नमूनाकरण प्रयोग

कोडबुक आकार समायोजन परिणाम:

विधि	कोडबुक आकार	rFID↓	PSNR↑
Group-VQ	65,536	1.87	24.32
+ डाउनसैंपलिंग	32,768	2.16	24.02
+ अपसैंपलिंग	131,072	1.79	24.49
+ स्व-विस्तार	131,072	1.76	24.51

परिणाम कोडबुक पुनः-नमूनाकरण विधि की प्रभावशीलता को सत्यापित करते हैं, कोडबुक आकार को लचीले ढंग से समायोजित कर सकते हैं और अपेक्षित प्रदर्शन परिवर्तन प्राप्त कर सकते हैं।

दृश्य विश्लेषण

यादृच्छिक प्रक्षेपण के माध्यम से कोड वेक्टर को 2D स्पेस में दृश्यमान करके, पाया गया:

विभिन्न समूहों ने विभिन्न विशेषता वितरण सीखे
समूह के भीतर कोड वेक्टर अपेक्षाकृत समान हैं, समूहों के बीच अंतर बड़ा है
प्रत्येक समूह की सांख्यिकीय विशेषताएं (माध्य, विचरण, उपयोग आवृत्ति) स्पष्ट अंतर दिखाती हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

कोडबुक उपयोग दर और पुनर्निर्माण गुणवत्ता में व्यापार-बंद है: 100% उपयोग दर जरूरी नहीं कि सर्वोत्तम पुनर्निर्माण प्रभाव लाए
समूह-वार अनुकूलन एक प्रभावी संतुलन रणनीति है: Group-VQ समूह संख्या को समायोजित करके लचीले नियंत्रण को लागू करता है
कोडबुक पुनः-नमूनाकरण व्यावहारिक मूल्य प्रदान करता है: प्रशिक्षण के बाद कोडबुक आकार को लचीले ढंग से समायोजित किया जा सकता है

सीमाएं

जनरेटिव कार्यों पर सत्यापन नहीं: केवल पुनर्निर्माण कार्य पर परीक्षण, जनरेटिव मॉडल के सत्यापन की कमी
समूह संख्या चयन को ट्यूनिंग की आवश्यकता है: इष्टतम समूह संख्या विशिष्ट कार्य और डेटासेट पर निर्भर करती है
कम्प्यूटेशनल जटिलता: बहु-समूह अनुकूलन प्रशिक्षण समय बढ़ा सकता है

भविष्य की दिशाएं

जनरेटिव मॉडल (जैसे ऑटोरेग्रेसिव मॉडल) पर Group-VQ प्रभाव को सत्यापित करना
स्व-अनुकूली समूह संख्या चयन रणनीति का अन्वेषण करना
Group-VQ और अन्य VQ सुधार विधियों के संयोजन का अध्ययन करना

गहन मूल्यांकन

लाभ

सैद्धांतिक योगदान स्पष्ट है: समूह अनुकूलन के दृष्टिकोण से मौजूदा VQ विधियों को एकीकृत करता है, विश्लेषण का एक नया दृष्टिकोण प्रदान करता है
विधि सरल और प्रभावी है: Group-VQ डिजाइन सहज है, कार्यान्वयन और समझने में आसान है
प्रयोग पर्याप्त हैं: बहु-डेटासेट, बहु-आर्किटेक्चर का व्यापक सत्यापन, विलोपन प्रयोग विस्तृत हैं
व्यावहारिक मूल्य अधिक है: कोडबुक पुनः-नमूनाकरण विधि वास्तविक अनुप्रयोग में लचीलेपन की आवश्यकता को हल करती है

कमियां

सैद्धांतिक विश्लेषण पर्याप्त गहरा नहीं है: समूह अनुकूलन अधिक प्रभावी क्यों है, इसका सैद्धांतिक व्याख्या की कमी है
लागू सीमा सीमित है: मुख्य रूप से छवि पुनर्निर्माण पर केंद्रित, अन्य मोडल और कार्यों पर प्रभाव अज्ञात है
कम्प्यूटेशनल ओवरहेड विश्लेषण अनुपस्थित है: बहु-समूह अनुकूलन की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं

प्रभाव

शैक्षणिक मूल्य: VQ अनुसंधान के लिए अनुकूलन का एक नया विचार प्रदान करता है, बाद के कार्यों को प्रेरित कर सकता है
व्यावहारिक मूल्य: कोडबुक पुनः-नमूनाकरण विधि वास्तविक तैनाती में बहुत मूल्यवान है
पुनरुत्पादनीयता: लेखक कोड प्रदान करने का वचन देते हैं, विधि प्रसार के लिए अनुकूल है

लागू परिदृश्य

छवि/वीडियो एन्कोडिंग: उच्च गुणवत्ता पुनर्निर्माण की आवश्यकता वाले संपीड़न कार्य
बहु-मोडल शिक्षा: सामान्य वेक्टर क्वांटाइजेशन घटक के रूप में
जनरेटिव मॉडल: जनरेटिव मॉडल के लिए असतत प्रतिनिधित्व प्रदान करने वाले tokenizer के रूप में

संदर्भ

यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों पर आधारित है:

Van Den Oord et al. (2017) - VQ-VAE मूल पेपर
Zhu et al. (2024b) - SimVQ विधि
Yu et al. (2023) - LFQ विधि
Mentzer et al. (2023) - FSQ विधि

सारांश: यह VQ क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है। Group-VQ विधि सरल और प्रभावी है, कोडबुक अनुकूलन के लिए नया विचार प्रदान करती है। कोडबुक पुनः-नमूनाकरण विधि बहुत मजबूत व्यावहारिक मूल्य रखती है। हालांकि सैद्धांतिक विश्लेषण और लागू सीमा में सुधार की गुंजाइश है, लेकिन कुल मिलाकर यह उच्च गुणवत्ता का अनुसंधान कार्य है।