COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT: सामान्य-टोकन अनुकूलित मॉडल प्रूनिंग चैनलों और टोकन में
यह पेपर बड़े भाषा मॉडल (LLM) की मेमोरी, विलंबता और सेवा लागत दक्षता के लिए COMPACT प्रूनिंग विधि प्रस्तावित करता है। यह विधि शब्दावली प्रूनिंग और सामान्य टोकन भारित FFN चैनल प्रूनिंग को जोड़ती है, जबकि मानक ट्रांसफॉर्मर आर्किटेक्चर को बनाए रखते हुए पैरामीटर संपीड़न प्राप्त करती है। प्रयोग Qwen, LLaMA और Gemma मॉडल परिवारों (0.5B-70B पैरामीटर) पर विधि की प्रभावशीलता को सत्यापित करते हैं।
बड़े भाषा मॉडल विभिन्न NLP कार्यों पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनकी विशाल पैरामीटर संख्या (अरबों से सैकड़ों अरब) तैनाती लागत को अधिक करती है, जो एज डिवाइस, इंटरैक्टिव अनुप्रयोग और बड़े पैमाने पर अनुमान में अनुप्रयोग को सीमित करती है।
चौड़ाई प्रूनिंग (Width Pruning): छिपे हुए आयाम या चैनल को हटाता है, लेकिन मानक ट्रांसफॉर्मर आर्किटेक्चर को नष्ट करता है, कस्टम अनुमान कोड की आवश्यकता होती है
गहराई प्रूनिंग (Depth Pruning): संपूर्ण ट्रांसफॉर्मर ब्लॉक को हटाता है, आर्किटेक्चर को बनाए रखता है लेकिन प्रदर्शन में तीव्र गिरावट का कारण बनता है
स्केल अनुकूलन में कमी: मौजूदा विधियां बड़े मॉडल पर प्रभावी हैं, लेकिन छोटे भाषा मॉडल (SLM) पर खराब प्रदर्शन करती हैं
भाषा विशेषताओं को नजरअंदाज करना: टोकन के महत्व में अंतर पर विचार नहीं करता, सभी टोकन को समान रूप से मानता है
विभिन्न स्केल के मॉडल में पैरामीटर वितरण में महत्वपूर्ण अंतर: छोटे मॉडल में शब्दावली पैरामीटर का अनुपात अधिक है, बड़े मॉडल में FFN पैरामीटर प्रभावशाली हैं
प्राकृतिक भाषा Zipf वितरण का पालन करती है, दुर्लभ टोकन बहुत कम आवृत्ति के साथ दिखाई देते हैं, डाउनस्ट्रीम प्रदर्शन में सीमित योगदान देते हैं
लेखक पहले आधुनिक decoder-only ट्रांसफॉर्मर के पैरामीटर वितरण का विश्लेषण करते हैं:
शब्दावली पैरामीटर: Nvocab=2VD (embedding और LM head परत)
FFN पैरामीटर: NFFN=3LDI (L परत, मध्य आयाम I)
ध्यान पैरामीटर: Nattention=2LD2(1+H1) (H सिर संख्या अनुपात)
मॉडल स्केल बढ़ने के साथ, NFFN और NattentionO(LD2) के अनुसार बढ़ते हैं, जबकि Nvocab केवल O(D) के अनुसार बढ़ता है, इसलिए छोटे मॉडल में शब्दावली पैरामीटर का अनुपात अधिक है।
एल्गोरिथम 1 COMPACT
इनपुट: मॉडल M, कैलिब्रेशन डेटासेट D, लक्ष्य शब्दावली आकार V', लक्ष्य मध्य आयाम I'
1. सबसे दुर्लभ V-V' टोकन का समूह S पहचानें
2. डेटासेट D पर फॉरवर्ड प्रोपेगेशन चलाएं, वर्गीकृत सक्रियण एकत्र करें
3. प्रत्येक चैनल k के लिए, common act² का उपयोग करके महत्व Ik की गणना करें
4. प्रत्येक परत के लिए: I-I' सबसे महत्वहीन चैनल को प्रूनिंग करें
5. शब्दावली पैरामीटर को प्रूनिंग करें: embedding और LM head मैट्रिक्स की अंतिम V-V' पंक्तियों को हटाएं
6. प्रूनिंग किए गए मॉडल M' को लौटाएं
सुचारु क्षरण: COMPACT सुचारु प्रदर्शन क्षरण दिखाता है, जबकि गहराई प्रूनिंग विधियों में अचानक प्रदर्शन कूद होते हैं
आर्किटेक्चर स्वतंत्रता: COMPACT को Gemma 3 जैसी नई आर्किटेक्चर पर सीधे लागू किया जा सकता है, जबकि अन्य विधियों को आर्किटेक्चर-विशिष्ट संशोधन की आवश्यकता होती है
दुर्लभ टोकन प्रभाव सीमित: 67% शब्दावली में कमी केवल 4% पाठ पुनः टोकनाइजेशन को प्रभावित करती है
पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:
परिमाणीकरण विधियां: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
गहराई प्रूनिंग: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
चौड़ाई प्रूनिंग: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
शब्दावली प्रसंस्करण: संबंधित बहुभाषी और डोमेन-विशिष्ट शब्दावली प्रूनिंग कार्य
समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस और व्यावहारिक रूप से मजबूत पेपर है। हालांकि सैद्धांतिक नवाचार के मामले में अपेक्षाकृत सीमित है, लेकिन चतुर विधि संयोजन और व्यापक प्रयोग सत्यापन के माध्यम से, यह LLM प्रूनिंग क्षेत्र में एक प्रभावी और तैनाती में आसान समाधान में योगदान देता है। विशेषकर छोटे भाषा मॉडल प्रूनिंग और आर्किटेक्चर संगतता के मामले में लाभ, इसे अच्छी अनुप्रयोग संभावनाएं देते हैं।