2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: सामान्य-टोकन अनुकूलित मॉडल प्रूनिंग चैनलों और टोकन में

मूल जानकारी

पेपर ID: 2509.06836
शीर्षक: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
लेखक: Eugene Kwek, Wenpeng Yin (Penn State University)
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन स्थिति: समीक्षाधीन प्रीप्रिंट
पेपर लिंक: https://arxiv.org/abs/2509.06836v3

सारांश

यह पेपर बड़े भाषा मॉडल (LLM) की मेमोरी, विलंबता और सेवा लागत दक्षता के लिए COMPACT प्रूनिंग विधि प्रस्तावित करता है। यह विधि शब्दावली प्रूनिंग और सामान्य टोकन भारित FFN चैनल प्रूनिंग को जोड़ती है, जबकि मानक ट्रांसफॉर्मर आर्किटेक्चर को बनाए रखते हुए पैरामीटर संपीड़न प्राप्त करती है। प्रयोग Qwen, LLaMA और Gemma मॉडल परिवारों (0.5B-70B पैरामीटर) पर विधि की प्रभावशीलता को सत्यापित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल विभिन्न NLP कार्यों पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनकी विशाल पैरामीटर संख्या (अरबों से सैकड़ों अरब) तैनाती लागत को अधिक करती है, जो एज डिवाइस, इंटरैक्टिव अनुप्रयोग और बड़े पैमाने पर अनुमान में अनुप्रयोग को सीमित करती है।

मौजूदा विधियों की सीमाएं

चौड़ाई प्रूनिंग (Width Pruning): छिपे हुए आयाम या चैनल को हटाता है, लेकिन मानक ट्रांसफॉर्मर आर्किटेक्चर को नष्ट करता है, कस्टम अनुमान कोड की आवश्यकता होती है
गहराई प्रूनिंग (Depth Pruning): संपूर्ण ट्रांसफॉर्मर ब्लॉक को हटाता है, आर्किटेक्चर को बनाए रखता है लेकिन प्रदर्शन में तीव्र गिरावट का कारण बनता है
स्केल अनुकूलन में कमी: मौजूदा विधियां बड़े मॉडल पर प्रभावी हैं, लेकिन छोटे भाषा मॉडल (SLM) पर खराब प्रदर्शन करती हैं
भाषा विशेषताओं को नजरअंदाज करना: टोकन के महत्व में अंतर पर विचार नहीं करता, सभी टोकन को समान रूप से मानता है

अनुसंधान प्रेरणा

लेखकों ने विश्लेषण के माध्यम से पाया:

विभिन्न स्केल के मॉडल में पैरामीटर वितरण में महत्वपूर्ण अंतर: छोटे मॉडल में शब्दावली पैरामीटर का अनुपात अधिक है, बड़े मॉडल में FFN पैरामीटर प्रभावशाली हैं
प्राकृतिक भाषा Zipf वितरण का पालन करती है, दुर्लभ टोकन बहुत कम आवृत्ति के साथ दिखाई देते हैं, डाउनस्ट्रीम प्रदर्शन में सीमित योगदान देते हैं

मुख्य योगदान

व्यवस्थित विश्लेषण: विभिन्न स्केल के LLM में embedding, FFN और attention पैरामीटर के वितरण पैटर्न का पहली बार व्यवस्थित विश्लेषण
COMPACT विधि: शब्दावली प्रूनिंग और सामान्य टोकन भारित FFN प्रूनिंग को जोड़ने वाली नई रूपरेखा प्रस्तावित करता है
आर्किटेक्चर संगतता: मानक ट्रांसफॉर्मर आर्किटेक्चर को बनाए रखता है, मौजूदा अनुमान ढांचे के साथ संगत
स्केल आत्म-अनुकूलन: 0.5B से 70B पैरामीटर तक कई मॉडल परिवारों पर SOTA प्रदर्शन प्राप्त करता है

विधि विवरण

पैरामीटर वितरण विश्लेषण

लेखक पहले आधुनिक decoder-only ट्रांसफॉर्मर के पैरामीटर वितरण का विश्लेषण करते हैं:

शब्दावली पैरामीटर: $N_{vocab} = 2VD$ (embedding और LM head परत)
FFN पैरामीटर: $N_{FFN} = 3LDI$ (L परत, मध्य आयाम I)
ध्यान पैरामीटर: $N_{attention} = 2LD^2(1 + \frac{1}{H})$ (H सिर संख्या अनुपात)

मॉडल स्केल बढ़ने के साथ, $N_{FFN}$ और $N_{attention}$ $O(LD^2)$ के अनुसार बढ़ते हैं, जबकि $N_{vocab}$ केवल $O(D)$ के अनुसार बढ़ता है, इसलिए छोटे मॉडल में शब्दावली पैरामीटर का अनुपात अधिक है।

COMPACT आर्किटेक्चर

1. शब्दावली प्रूनिंग (Vocabulary Pruning)

सिद्धांत: BPE tokenizer के Zipf वितरण का पालन करने की विशेषता के आधार पर, सबसे दुर्लभ $V-V'$ टोकन को हटाता है
कार्यान्वयन: embedding और LM head मैट्रिक्स की संबंधित पंक्तियों को सीधे हटाता है, साथ ही tokenizer में merge नियमों को भी हटाता है
लाभ: कैलिब्रेशन डेटा की आवश्यकता नहीं, गणनात्मक रूप से कुशल

2. सामान्य टोकन भारित FFN प्रूनिंग

पारंपरिक act² विधि चैनल महत्व की गणना करती है: $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

COMPACT द्वारा प्रस्तावित common act² विधि: $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{अन्यथा} \end{cases}$

जहां $S$ प्रूनिंग किए जाने वाले दुर्लभ टोकन का समूह है।

एल्गोरिथम प्रवाह

एल्गोरिथम 1 COMPACT
इनपुट: मॉडल M, कैलिब्रेशन डेटासेट D, लक्ष्य शब्दावली आकार V', लक्ष्य मध्य आयाम I'
1. सबसे दुर्लभ V-V' टोकन का समूह S पहचानें
2. डेटासेट D पर फॉरवर्ड प्रोपेगेशन चलाएं, वर्गीकृत सक्रियण एकत्र करें
3. प्रत्येक चैनल k के लिए, common act² का उपयोग करके महत्व Ik की गणना करें
4. प्रत्येक परत के लिए: I-I' सबसे महत्वहीन चैनल को प्रूनिंग करें
5. शब्दावली पैरामीटर को प्रूनिंग करें: embedding और LM head मैट्रिक्स की अंतिम V-V' पंक्तियों को हटाएं
6. प्रूनिंग किए गए मॉडल M' को लौटाएं

तकनीकी नवाचार बिंदु

दोहरी प्रूनिंग रणनीति: शब्दावली प्रूनिंग और FFN प्रूनिंग को जोड़ता है, विभिन्न स्केल के मॉडल के पैरामीटर वितरण विशेषताओं को लक्षित करता है
सामान्य टोकन भारण: FFN प्रूनिंग के समय केवल प्रूनिंग के बाद भी वैध टोकन पर विचार करता है, दुर्लभ टोकन द्वारा गुमराह होने से बचता है
आर्किटेक्चर संरक्षण: केवल शब्दावली आकार और मध्य आयाम को प्रूनिंग करता है, मानक ट्रांसफॉर्मर संरचना को बनाए रखता है
स्केल आत्म-अनुकूलन: $V'$ और $I'$ दो हाइपरपैरामीटर को समायोजित करके विभिन्न स्केल आवश्यकताओं के अनुकूल बनाता है

प्रयोग सेटअप

मूल्यांकन मॉडल

छोटे भाषा मॉडल: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
बड़े भाषा मॉडल: LLaMA 3.1-8B, LLaMA 3.1-70B

डेटासेट और कार्य

कैलिब्रेशन डेटा: C4 डेटासेट के 256 नमूने
मूल्यांकन कार्य: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

तुलना विधियां

गहराई प्रूनिंग: ShortGPT, LaCo
चौड़ाई प्रूनिंग: SliceGPT, 2SSP, FLAP

मूल्यांकन मेट्रिक्स

पैरामीटर प्रूनिंग अनुपात, औसत सटीकता, सापेक्ष प्रदर्शन संरक्षण दर
प्रूनिंग समय, अनुमान थ्रूपुट, GPU मेमोरी उपयोग

प्रयोग परिणाम

मुख्य परिणाम

छोटे भाषा मॉडल प्रदर्शन

Qwen 2.5-0.5B पर, 35% प्रूनिंग अनुपात में:

COMPACT: औसत सटीकता 35.3% (70.4% सापेक्ष प्रदर्शन)
सर्वश्रेष्ठ baseline: 31.4% (62.5% सापेक्ष प्रदर्शन)

LLaMA 3.2-1B पर, 35% प्रूनिंग अनुपात में:

COMPACT: औसत सटीकता 36.9% (76.4% सापेक्ष प्रदर्शन)
सर्वश्रेष्ठ baseline: 33.6% (69.6% सापेक्ष प्रदर्शन)

बड़े भाषा मॉडल प्रदर्शन

LLaMA 3.1-70B पर, 35% प्रूनिंग अनुपात में:

COMPACT: औसत सटीकता 63.7% (80.2% सापेक्ष प्रदर्शन)
2SSP: 62.8% (79.1% सापेक्ष प्रदर्शन)

दक्षता विश्लेषण

प्रूनिंग समय तुलना (LLaMA 3.1-8B, 35% प्रूनिंग)

COMPACT: 0:32
2SSP: 1:26
SliceGPT: 10:48

अनुमान दक्षता (LLaMA 3.1-8B, 35% प्रूनिंग)

मेमोरी उपयोग: COMPACT 36% कमी (सर्वश्रेष्ठ), ShortGPT/LaCo 25% कमी
थ्रूपुट वृद्धि: COMPACT 37% वृद्धि, ShortGPT/LaCo 57% वृद्धि

विलोपन प्रयोग

Common act² प्रभावशीलता

Qwen 2.5-0.5B पर 35% प्रूनिंग:

Common act²: 70.4% सापेक्ष प्रदर्शन
मानक act²: 69.2% सापेक्ष प्रदर्शन
|act| विधि: 67.6% सापेक्ष प्रदर्शन

शब्दावली-FFN संतुलन विश्लेषण

37% प्रूनिंग अनुपात निर्धारित, विभिन्न $V'$ और $I'$ संयोजन:

शुद्ध FFN प्रूनिंग (V'=151936): 63.0% सापेक्ष प्रदर्शन
सर्वश्रेष्ठ संयोजन (V'=49536): 70.4% सापेक्ष प्रदर्शन

महत्वपूर्ण निष्कर्ष

सुचारु क्षरण: COMPACT सुचारु प्रदर्शन क्षरण दिखाता है, जबकि गहराई प्रूनिंग विधियों में अचानक प्रदर्शन कूद होते हैं
आर्किटेक्चर स्वतंत्रता: COMPACT को Gemma 3 जैसी नई आर्किटेक्चर पर सीधे लागू किया जा सकता है, जबकि अन्य विधियों को आर्किटेक्चर-विशिष्ट संशोधन की आवश्यकता होती है
दुर्लभ टोकन प्रभाव सीमित: 67% शब्दावली में कमी केवल 4% पाठ पुनः टोकनाइजेशन को प्रभावित करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

COMPACT कई मॉडल परिवारों और स्केल पर SOTA प्रूनिंग प्रदर्शन प्राप्त करता है
विधि मानक ट्रांसफॉर्मर आर्किटेक्चर को बनाए रखती है, अच्छी तैनाती संगतता है
दोहरी प्रूनिंग रणनीति विभिन्न स्केल के मॉडल के पैरामीटर वितरण विशेषताओं को प्रभावी ढंग से अनुकूल बनाती है

सीमाएं

थ्रूपुट वृद्धि सीमित: गहराई प्रूनिंग विधियों की तुलना में, अनुमान थ्रूपुट वृद्धि में अभी भी अंतर है
शब्दावली प्रूनिंग की डोमेन अनुकूलन: विशिष्ट डोमेन में अधिक विशेषज्ञ शब्दावली को संरक्षित करने की आवश्यकता हो सकती है
हाइपरपैरामीटर ट्यूनिंग: विभिन्न प्रूनिंग अनुपात के लिए $V'$ और $I'$ के सर्वश्रेष्ठ संयोजन खोजने की आवश्यकता होती है

भविष्य की दिशाएं

लेखक चौड़ाई प्रूनिंग और गहराई प्रूनिंग के बीच थ्रूपुट में अंतर को और कम करने की आवश्यकता का सुझाव देते हैं।

गहन मूल्यांकन

शक्तियां

ठोस सैद्धांतिक आधार: पैरामीटर वितरण विश्लेषण और Zipf वितरण विशेषता के सैद्धांतिक मार्गदर्शन पर आधारित
चतुर विधि डिजाइन: common act² चतुराई से शब्दावली प्रूनिंग और FFN प्रूनिंग को जोड़ता है
व्यापक प्रयोग: कई मॉडल परिवारों, स्केल और कार्यों का व्यवस्थित मूल्यांकन
उच्च व्यावहारिक मूल्य: आर्किटेक्चर संगतता को बनाए रखता है, तैनाती में आसान

कमियां

सीमित नवाचार स्तर: शब्दावली प्रूनिंग और FFN प्रूनिंग दोनों मौजूदा तकनीकें हैं, मुख्य योगदान संयोजन में है
अपर्याप्त सैद्धांतिक विश्लेषण: इस बात की गहरी सैद्धांतिक व्याख्या की कमी कि यह संयोजन प्रभावी क्यों है
अनुमान त्वरण सीमित: मुख्य प्रदर्शन संकेतक (थ्रूपुट) पर गहराई प्रूनिंग विधियों जितना अच्छा नहीं

प्रभाव

शैक्षणिक योगदान: LLM प्रूनिंग के लिए नया दृष्टिकोण प्रदान करता है, विशेषकर स्केल आत्म-अनुकूलन की सोच
व्यावहारिक मूल्य: विधि सरल और प्रभावी है, कार्यान्वयन और तैनाती में आसान
पुनरुत्पादनीयता: लेखक कोड को खुला स्रोत करने का वादा करते हैं, विधि प्रचार में सहायक

लागू परिदृश्य

एज तैनाती: मेमोरी-सीमित वातावरण में मॉडल संपीड़न
बहु-स्केल तैनाती: छोटे और बड़े मॉडल दोनों को समर्थन करने की आवश्यकता वाले परिदृश्य
तीव्र प्रूनिंग: कम समय में मॉडल संपीड़न पूरा करने की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर बड़ी संख्या में संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

परिमाणीकरण विधियां: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
गहराई प्रूनिंग: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
चौड़ाई प्रूनिंग: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
शब्दावली प्रसंस्करण: संबंधित बहुभाषी और डोमेन-विशिष्ट शब्दावली प्रूनिंग कार्य

समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस और व्यावहारिक रूप से मजबूत पेपर है। हालांकि सैद्धांतिक नवाचार के मामले में अपेक्षाकृत सीमित है, लेकिन चतुर विधि संयोजन और व्यापक प्रयोग सत्यापन के माध्यम से, यह LLM प्रूनिंग क्षेत्र में एक प्रभावी और तैनाती में आसान समाधान में योगदान देता है। विशेषकर छोटे भाषा मॉडल प्रूनिंग और आर्किटेक्चर संगतता के मामले में लाभ, इसे अच्छी अनुप्रयोग संभावनाएं देते हैं।