Vector Quantized Variational Autoencoders (VQ-VAEs) leverage self-supervised learning through reconstruction tasks to represent continuous vectors using the closest vectors in a codebook. However, issues such as codebook collapse persist in the VQ model. To address these issues, existing approaches employ implicit static codebooks or jointly optimize the entire codebook, but these methods constrain the codebook's learning capability, leading to reduced reconstruction quality. In this paper, we propose Group-VQ, which performs group-wise optimization on the codebook. Each group is optimized independently, with joint optimization performed within groups. This approach improves the trade-off between codebook utilization and reconstruction performance. Additionally, we introduce a training-free codebook resampling method, allowing post-training adjustment of the codebook size. In image reconstruction experiments under various settings, Group-VQ demonstrates improved performance on reconstruction metrics. And the post-training codebook sampling method achieves the desired flexibility in adjusting the codebook size.
- पेपर ID: 2510.13331
- शीर्षक: Group-Wise Optimization for Self-Extensible Codebooks in Vector Quantized Models
- लेखक: Hong-Kai Zheng, Piji Li (नानजिंग एरोनॉटिक्स एंड एस्ट्रोनॉटिक्स विश्वविद्यालय)
- वर्गीकरण: cs.CV
- प्रकाशन समय/सम्मेलन: ICLR 2026
- पेपर लिंक: https://arxiv.org/abs/2510.13331
वेक्टर क्वांटाइज्ड वेरिएशनल ऑटोएनकोडर्स (VQ-VAE) पुनर्निर्माण कार्य के माध्यम से स्व-पर्यवेक्षित शिक्षा प्रदान करते हैं, कोडबुक में निकटतम वेक्टर का उपयोग करके सतत वेक्टर का प्रतिनिधित्व करते हैं। हालांकि, VQ मॉडल में कोडबुक पतन जैसी समस्याएं अभी भी मौजूद हैं। इन समस्याओं को हल करने के लिए, मौजूदा विधियां निहित स्थिर कोडबुक या संपूर्ण कोडबुक के संयुक्त अनुकूलन का उपयोग करती हैं, लेकिन ये विधियां कोडबुक की सीखने की क्षमता को सीमित करती हैं, जिससे पुनर्निर्माण गुणवत्ता में गिरावट आती है। यह पेपर Group-VQ प्रस्तावित करता है, जो कोडबुक का समूह-वार अनुकूलन करता है। प्रत्येक समूह स्वतंत्र रूप से अनुकूलित होता है, समूह के भीतर संयुक्त अनुकूलन होता है। यह विधि कोडबुक उपयोग दर और पुनर्निर्माण प्रदर्शन के बीच संतुलन में सुधार करती है। इसके अलावा, हम एक प्रशिक्षण-मुक्त कोडबुक पुनः-नमूनाकरण विधि भी प्रस्तुत करते हैं, जो प्रशिक्षण के बाद कोडबुक आकार को समायोजित करने की अनुमति देता है। विभिन्न सेटिंग्स में छवि पुनर्निर्माण प्रयोगों में, Group-VQ पुनर्निर्माण मेट्रिक्स पर बेहतर प्रदर्शन प्रदर्शित करता है।
वेक्टर क्वांटाइजेशन (VQ) एक ऐसी तकनीक है जो सतत विशेषताओं को असतत टोकन में मैप करती है, जो VQ-VAE में व्यापक रूप से लागू होती है। हालांकि, पारंपरिक VQ प्रशिक्षण कोडबुक उपयोग दर कम की समस्या का सामना करता है, अर्थात् केवल कुछ कोड वेक्टर का उपयोग और अपडेट किया जाता है, जिससे "कोडबुक पतन" होता है, जो मॉडल की एन्कोडिंग क्षमता को सीमित करता है।
- Vanilla VQ: प्रत्येक कोड वेक्टर स्वतंत्र रूप से अपडेट होता है, कोडबुक पतन की ओर ले जाता है
- Joint VQ विधियां (जैसे SimVQ, VQGAN-LC): साझा पैरामीटर के माध्यम से संपूर्ण कोडबुक को संयुक्त रूप से अनुकूलित करते हैं, हालांकि 100% उपयोग दर प्राप्त कर सकते हैं, लेकिन कोडबुक की सीखने की क्षमता को सीमित करते हैं
लेखकों ने प्रयोगों के माध्यम से पाया कि Joint VQ हालांकि तेजी से 100% कोडबुक उपयोग दर तक पहुंच सकता है, लेकिन समान उपयोग दर पर, इसकी पुनर्निर्माण गुणवत्ता Vanilla VQ से भी कम है। यह दर्शाता है कि कोडबुक उपयोग दर और पुनर्निर्माण प्रदर्शन के बीच एक व्यापार-बंद मौजूद है, जिसके लिए एक बेहतर संतुलन रणनीति की आवश्यकता है।
- Group-VQ विधि प्रस्तावित करना: समूह-आधारित कोडबुक अनुकूलन विधि, VQ मॉडल में उपयोग दर और पुनर्निर्माण प्रदर्शन को संतुलित करता है
- Joint VQ विधि को सामान्यीकृत करना: साझा पैरामीटर के दृष्टिकोण से Joint VQ को पुनः समझना, और प्रशिक्षण-पश्चात कोडबुक नमूनाकरण विधि प्रस्तुत करना
- प्रशिक्षण-मुक्त कोडबुक समायोजन: प्रशिक्षण-पश्चात लचीले ढंग से कोडबुक आकार को समायोजित करना, मॉडल को पुनः प्रशिक्षित किए बिना
- व्यापक प्रयोगात्मक सत्यापन: छवि पुनर्निर्माण कार्य पर Group-VQ और कोडबुक पुनः-नमूनाकरण की प्रभावशीलता को सत्यापित करना
दिया गया छवि I∈RH×W×3, VQ-VAE पहले एनकोडर का उपयोग करके विशेषता मानचित्र Z∈Rh×w×d प्राप्त करता है, फिर क्वांटाइजर के माध्यम से प्रत्येक विशेषता वेक्टर z∈Rd को कोडबुक C={qi∣qi∈Rd,i=0,1,...,n−1} में निकटतम कोड वेक्टर से बदल देता है:
q=argminqi∈C∥z−qi∥,i=0,1,...,n−1
Group-VQ कोडबुक C को k परस्पर असंयुक्त समूहों (उप-कोडबुक) में विभाजित करता है:
C=⋃j=0k−1Gj,Gj∩Gj′=∅ यदि j=j′
प्रत्येक समूह Gj स्वतंत्र रूप से अपडेट होता है, समूह के भीतर संयुक्त अनुकूलन होता है। कोड वेक्टर qjt∈Gj के लिए, इसका ग्रेडिएंट अपडेट है:
∇qjtLcmt=∇qjtLj
यह सुनिश्चित करता है कि प्रत्येक समूह केवल अपने आंतरिक कोड वेक्टर द्वारा उत्पन्न ग्रेडिएंट से प्रभावित होता है।
प्रत्येक समूह Gj साझा पैरामीटर के माध्यम से पैरामीटराइज किया जाता है:
Gj=G^jWj+bj
जहां:
- G^j∈Rnj×rj: कोडबुक कोर (निश्चित वितरण नमूनाकरण)
- Wj∈Rrj×d: प्रोजेक्टर (सीखने योग्य)
- bj∈Rd: पूर्वाग्रह वेक्टर
- Vanilla VQ: k=n, प्रत्येक कोड वेक्टर एक समूह है
- Joint VQ: k=1, संपूर्ण कोडबुक एक समूह है
- Group-VQ: 1≤k≤n, दोनों चरम मामलों को संतुलित करता है
जनरेटिव कोडबुक की विशेषता का उपयोग करते हुए, प्रशिक्षण के बाद कोडबुक कोर को पुनः-नमूना किया जा सकता है:
q~=v^Wj,v^∼N(0,I)
दो मोड का समर्थन करता है:
- पुनः-नमूनाकरण: कोडबुक को पूरी तरह से बदलना
- स्व-विस्तार: मूल कोडबुक के आधार पर नए कोड वेक्टर जोड़ना
- ImageNet-1k: मुख्य डेटासेट
- MS-COCO: पूरक सत्यापन
- इनपुट रिजोल्यूशन: 128×128, डाउनसैंपलिंग कारक f=8
- rFID (पुनर्निर्माण FID): पुनर्निर्मित छवि और मूल छवि के बीच वितरण दूरी
- LPIPS(VGG16): संवेदनशील समानता
- PSNR: शिखर संकेत-से-शोर अनुपात
- SSIM: संरचनात्मक समानता सूचकांक
- VQGAN, ViT-VQGAN, VQGAN-FC
- FSQ, LFQ (निश्चित कोडबुक विधियां)
- VQGAN-LC, SimVQ (Joint VQ विधियां)
- सीखने की दर: 1×10⁻⁴
- अनुकूलक: Adam (β₁=0.5, β₂=0.9)
- बैच आकार: 32/GPU
- हार्डवेयर: NVIDIA A5000 GPU
ImageNet-1k पर प्रदर्शन तुलना (कोडबुक आकार 65,536):
| विधि | समूह | उपयोग दर | rFID↓ | LPIPS↓ | PSNR↑ | SSIM↑ |
|---|
| VQGAN | 65,536 | 1.4% | 3.74 | 0.17 | 22.20 | 0.706 |
| SimVQ | 1 | 100.0% | 1.99 | 0.12 | 24.34 | 0.788 |
| Group-VQ | 64 | 99.9% | 1.86 | 0.11 | 24.37 | 0.787 |
Group-VQ सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करता है, baseline विधियों से काफी बेहतर है।
विभिन्न समूह संख्याओं का प्रभाव:
| समूह | 1 | 32 | 64 | 128 | 512 |
|---|
| उपयोग दर | 100% | 100% | 100% | 95.6% | 78.8% |
| rFID↓ | 6.45 | 6.05 | 6.09 | 6.11 | 6.28 |
प्रयोग दर्शाते हैं कि 32-64 समूह संख्या सर्वोत्तम विकल्प है, कोडबुक उपयोग दर और पुनर्निर्माण प्रदर्शन को संतुलित करता है।
कोडबुक आकार समायोजन परिणाम:
| विधि | कोडबुक आकार | rFID↓ | PSNR↑ |
|---|
| Group-VQ | 65,536 | 1.87 | 24.32 |
| + डाउनसैंपलिंग | 32,768 | 2.16 | 24.02 |
| + अपसैंपलिंग | 131,072 | 1.79 | 24.49 |
| + स्व-विस्तार | 131,072 | 1.76 | 24.51 |
परिणाम कोडबुक पुनः-नमूनाकरण विधि की प्रभावशीलता को सत्यापित करते हैं, कोडबुक आकार को लचीले ढंग से समायोजित कर सकते हैं और अपेक्षित प्रदर्शन परिवर्तन प्राप्त कर सकते हैं।
यादृच्छिक प्रक्षेपण के माध्यम से कोड वेक्टर को 2D स्पेस में दृश्यमान करके, पाया गया:
- विभिन्न समूहों ने विभिन्न विशेषता वितरण सीखे
- समूह के भीतर कोड वेक्टर अपेक्षाकृत समान हैं, समूहों के बीच अंतर बड़ा है
- प्रत्येक समूह की सांख्यिकीय विशेषताएं (माध्य, विचरण, उपयोग आवृत्ति) स्पष्ट अंतर दिखाती हैं
- Straight-Through Estimator सुधार: ग्रेडिएंट प्रसार को अनुकूलित करना
- बहु-सूचकांक क्वांटाइजेशन: RQ-VAE, Product Quantization आदि
- कोडबुक सुधार: इस पेपर का मुख्य ध्यान
- VQGAN-LC: पूर्व-प्रशिक्षित विशेषता आरंभीकरण + प्रक्षेपण परत
- SimVQ: यादृच्छिक आरंभीकरण + मैट्रिक्स पुनः-पैरामीटराइजेशन
- LFQ/FSQ: पतन से बचने के लिए निश्चित कोडबुक
यह पेपर इन विधियों को "साझा पैरामीटर के माध्यम से लागू किए गए Joint VQ" के रूप में एकीकृत करता है, और इसके आधार पर समूह-वार अनुकूलन रणनीति प्रस्तावित करता है।
- कोडबुक उपयोग दर और पुनर्निर्माण गुणवत्ता में व्यापार-बंद है: 100% उपयोग दर जरूरी नहीं कि सर्वोत्तम पुनर्निर्माण प्रभाव लाए
- समूह-वार अनुकूलन एक प्रभावी संतुलन रणनीति है: Group-VQ समूह संख्या को समायोजित करके लचीले नियंत्रण को लागू करता है
- कोडबुक पुनः-नमूनाकरण व्यावहारिक मूल्य प्रदान करता है: प्रशिक्षण के बाद कोडबुक आकार को लचीले ढंग से समायोजित किया जा सकता है
- जनरेटिव कार्यों पर सत्यापन नहीं: केवल पुनर्निर्माण कार्य पर परीक्षण, जनरेटिव मॉडल के सत्यापन की कमी
- समूह संख्या चयन को ट्यूनिंग की आवश्यकता है: इष्टतम समूह संख्या विशिष्ट कार्य और डेटासेट पर निर्भर करती है
- कम्प्यूटेशनल जटिलता: बहु-समूह अनुकूलन प्रशिक्षण समय बढ़ा सकता है
- जनरेटिव मॉडल (जैसे ऑटोरेग्रेसिव मॉडल) पर Group-VQ प्रभाव को सत्यापित करना
- स्व-अनुकूली समूह संख्या चयन रणनीति का अन्वेषण करना
- Group-VQ और अन्य VQ सुधार विधियों के संयोजन का अध्ययन करना
- सैद्धांतिक योगदान स्पष्ट है: समूह अनुकूलन के दृष्टिकोण से मौजूदा VQ विधियों को एकीकृत करता है, विश्लेषण का एक नया दृष्टिकोण प्रदान करता है
- विधि सरल और प्रभावी है: Group-VQ डिजाइन सहज है, कार्यान्वयन और समझने में आसान है
- प्रयोग पर्याप्त हैं: बहु-डेटासेट, बहु-आर्किटेक्चर का व्यापक सत्यापन, विलोपन प्रयोग विस्तृत हैं
- व्यावहारिक मूल्य अधिक है: कोडबुक पुनः-नमूनाकरण विधि वास्तविक अनुप्रयोग में लचीलेपन की आवश्यकता को हल करती है
- सैद्धांतिक विश्लेषण पर्याप्त गहरा नहीं है: समूह अनुकूलन अधिक प्रभावी क्यों है, इसका सैद्धांतिक व्याख्या की कमी है
- लागू सीमा सीमित है: मुख्य रूप से छवि पुनर्निर्माण पर केंद्रित, अन्य मोडल और कार्यों पर प्रभाव अज्ञात है
- कम्प्यूटेशनल ओवरहेड विश्लेषण अनुपस्थित है: बहु-समूह अनुकूलन की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
- शैक्षणिक मूल्य: VQ अनुसंधान के लिए अनुकूलन का एक नया विचार प्रदान करता है, बाद के कार्यों को प्रेरित कर सकता है
- व्यावहारिक मूल्य: कोडबुक पुनः-नमूनाकरण विधि वास्तविक तैनाती में बहुत मूल्यवान है
- पुनरुत्पादनीयता: लेखक कोड प्रदान करने का वचन देते हैं, विधि प्रसार के लिए अनुकूल है
- छवि/वीडियो एन्कोडिंग: उच्च गुणवत्ता पुनर्निर्माण की आवश्यकता वाले संपीड़न कार्य
- बहु-मोडल शिक्षा: सामान्य वेक्टर क्वांटाइजेशन घटक के रूप में
- जनरेटिव मॉडल: जनरेटिव मॉडल के लिए असतत प्रतिनिधित्व प्रदान करने वाले tokenizer के रूप में
यह पेपर मुख्य रूप से निम्नलिखित महत्वपूर्ण कार्यों पर आधारित है:
- Van Den Oord et al. (2017) - VQ-VAE मूल पेपर
- Zhu et al. (2024b) - SimVQ विधि
- Yu et al. (2023) - LFQ विधि
- Mentzer et al. (2023) - FSQ विधि
सारांश: यह VQ क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है। Group-VQ विधि सरल और प्रभावी है, कोडबुक अनुकूलन के लिए नया विचार प्रदान करती है। कोडबुक पुनः-नमूनाकरण विधि बहुत मजबूत व्यावहारिक मूल्य रखती है। हालांकि सैद्धांतिक विश्लेषण और लागू सीमा में सुधार की गुंजाइश है, लेकिन कुल मिलाकर यह उच्च गुणवत्ता का अनुसंधान कार्य है।