Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- पेपर ID: 2505.16743
- शीर्षक: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- लेखक: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
- वर्गीकरण: cs.CL cs.AI cs.LG
- प्रकाशन तिथि: 25 अक्टूबर, 2025 (arXiv v2)
- पेपर लिंक: https://arxiv.org/abs/2505.16743
- कोड लिंक: https://github.com/flobk/TRIM
बड़े भाषा मॉडल (LLMs) अपने विशाल पैरामीटर आकार के कारण भारी कम्प्यूटेशनल और मेमोरी चुनौतियाँ प्रस्तुत करते हैं, जिससे मॉडल प्रूनिंग उनके कुशल तैनाती के लिए महत्वपूर्ण हो जाता है। मौजूदा एक-बार प्रूनिंग विधियाँ आमतौर पर परतों के बीच या परत के भीतर समान विरलता बाधाएँ लागू करती हैं, जो उच्च विरलता दरों पर खराब प्रदर्शन करती हैं। यह पेपर TRIM (लक्षित पंक्ति-वार पुनरावृत्तिमूलक मीट्रिक-संचालित प्रूनिंग) प्रस्तावित करता है, जो प्रत्येक परत के भीतर विभिन्न आउटपुट आयामों (पंक्तियों) के लिए विभिन्न विरलता दरें लागू करने की एक नई विधि है। TRIM गुणवत्ता मीट्रिक्स द्वारा निर्देशित एक पुनरावृत्तिमूलक समायोजन प्रक्रिया का उपयोग करता है ताकि आयाम-स्तरीय विरलता आवंटन को अनुकूलित किया जा सके, महत्वपूर्ण जानकारी को संरक्षित करने के लिए आउटपुट गुणवत्ता में भिन्नता को कम करने पर ध्यान केंद्रित करता है। TRIM मौजूदा परत-स्तरीय प्रूनिंग रणनीतियों के साथ निर्बाध रूप से एकीकृत हो सकता है। कई LLM परिवारों (Qwen2.5, LLaMA-2 और OPT) और विरलता स्तरों पर भ्रम और शून्य-शॉट कार्य मूल्यांकन से पता चलता है कि TRIM नए अत्याधुनिक परिणाम प्राप्त करता है और स्थिरता को बढ़ाता है। उदाहरण के लिए, 80% विरलता दर पर, TRIM ने Qwen2.5-14B के भ्रम को आधारभूत विधि की तुलना में 48% कम किया है, और OPT-13B के भ्रम को 90% से अधिक कम किया है।
बड़े भाषा मॉडल के पैरामीटर आकार में तेजी से वृद्धि के साथ, मॉडल तैनाती को गंभीर मेमोरी और कम्प्यूटेशनल संसाधन चुनौतियों का सामना करना पड़ता है। यद्यपि पैरामीटर वृद्धि से प्रदर्शन में सुधार और उद्भव क्षमताएँ आती हैं, लेकिन यह संसाधन-सीमित वातावरण में अनुमान को कठिन बनाता है।
- समान विरलता बाधाएँ: मौजूदा एक-बार प्रूनिंग विधियाँ (जैसे Wanda, OWL, AlphaPruning) आमतौर पर सभी परतों या परत के भीतर सभी आउटपुट आयामों के लिए समान विरलता दर लागू करती हैं
- उच्च विरलता दरों पर तीव्र प्रदर्शन गिरावट: चरम विरलता (>70%) पर, समान रणनीति से प्रदर्शन में महत्वपूर्ण गिरावट आती है
- आयाम विषमता को नज़रअंदाज़ करना: विभिन्न आउटपुट आयामों की प्रूनिंग के प्रति संवेदनशीलता और महत्व में महत्वपूर्ण अंतर है
पेपर देखता है कि LLMs में अद्वितीय वजन और सक्रियण विशेषताएँ हैं, जैसे कि प्रमुख आउटलायर विशेषताएँ और अत्यधिक तिरछा सक्रियण वितरण। ये विशेषताएँ सुझाती हैं कि परत के भीतर विभिन्न आउटपुट आयामों में विभिन्न प्रूनिंग संवेदनशीलताएँ हैं, इसलिए अधिक सूक्ष्म-दानेदार विरलता आवंटन रणनीति की आवश्यकता है।
- आयाम-स्तरीय विरलता आवंटन में अग्रणी: प्रत्येक परत के भीतर व्यक्तिगत आउटपुट आयामों के लिए विभिन्न विरलता दरों की गणना करने वाली पहली एल्गोरिदम प्रस्तावित करता है
- चरम विरलता पर SOTA प्रदर्शन: 80% विरलता दर पर, मौजूदा विधियों की तुलना में भ्रम में महत्वपूर्ण कमी (Qwen2.5-14B में 48% कमी, OPT-13B में 90%+ कमी)
- गहन अनुभवजन्य विश्लेषण: आउटपुट आयामों में प्रूनिंग संवेदनशीलता और डाउनस्ट्रीम कार्य महत्व में विषमता को प्रकट करता है
- प्लग-एंड-प्ले डिज़ाइन: TRIM किसी भी महत्व-स्कोरिंग-आधारित प्रूनिंग एल्गोरिदम के साथ एकीकृत हो सकता है, अच्छी सार्वभौमिकता के साथ
वजन मैट्रिक्स W ∈ R^(D×N) दिया गया है, जहाँ D आउटपुट आयामों की संख्या है और N इनपुट आयामों की संख्या है, लक्ष्य प्रत्येक आउटपुट आयाम Wi,: के लिए इष्टतम विरलता दर Si निर्धारित करना है, ताकि औसत विरलता बाधा को संतुष्ट करते हुए परत की समग्र गुणवत्ता को अधिकतम किया जा सके।
TRIM आयाम-स्तरीय विरलता वेक्टर S = S1, S2, ..., SD को परिभाषित करता है, जहाँ Si ∈ 0,1 i-वें आउटपुट आयाम की लक्ष्य विरलता दर को निर्दिष्ट करता है। बाधा शर्त है:
जहाँ T परत की लक्ष्य विरलता दर है।
एल्गोरिदम 1: पुनरावृत्तिमूलक आयाम-वार विरलता समायोजन
- प्रारंभिकीकरण: अप्रूनड आउटपुट Y ← WX की गणना करें, Si = T को प्रारंभ करें (समान वितरण)
- पुनरावृत्तिमूलक अनुकूलन (K बार):
- वर्तमान S के अनुसार प्रूनिंग करके Wpruned प्राप्त करें
- प्रूनड आउटपुट Ŷ ← WprunedX की गणना करें
- समग्र गुणवत्ता qk ← Qmetric(Y, Ŷ) का मूल्यांकन करें
- सर्वोत्तम कॉन्फ़िगरेशन को अपडेट करें (यदि qk > qbest)
- प्रत्येक आयाम की गुणवत्ता ci ← QmetricDimwise(Yi,:, Ŷi,:) की गणना करें
- गुणवत्ता स्कोर को 0,1 श्रेणी में सामान्यीकृत करें
- शिक्षण दर α के आधार पर विरलता दर को समायोजित करें: δi ← αc'i
- औसत बाधा को बनाए रखने के लिए पुनः केंद्रीकृत करें: Si ← δi - (1/D)Σδj + T
- वापसी: इष्टतम विरलता आवंटन Sbest
- परत-स्तरीय गुणवत्ता: समग्र परत प्रूनिंग गुणवत्ता का मूल्यांकन करने के लिए कोसाइन समानता का उपयोग करें
- आयाम-स्तरीय गुणवत्ता: प्रत्येक आउटपुट आयाम की कोसाइन समानता की गणना करें, विरलता दर समायोजन को निर्देशित करें
- अनुकूली शिक्षण दर: सकारात्मक और नकारात्मक शिक्षण दर का समर्थन करता है, सकारात्मक शिक्षण दर गुणवत्ता भिन्नता को कम करता है, नकारात्मक शिक्षण दर आउटलायर-केंद्रित परतों के लिए उपयुक्त है
- गुणवत्ता भिन्नता न्यूनीकरण: आयामों के बीच गुणवत्ता गिरावट की भिन्नता को कम करके समग्र प्रदर्शन को बढ़ाता है
- संगतता डिज़ाइन: मौजूदा स्कोरिंग नियमों (Wanda, Magnitude, SparseGPT, GBLM) के साथ एकीकृत हो सकता है
- मॉडल: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
- मूल्यांकन डेटा: WikiText सत्यापन सेट (भ्रम), C4 और Pile (सामान्यीकरण सत्यापन)
- डाउनस्ट्रीम कार्य: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA
- भ्रम: WikiText सत्यापन सेट पर भाषा मॉडलिंग क्षमता का मूल्यांकन करें
- शून्य-शॉट सटीकता: 7 डाउनस्ट्रीम कार्यों पर औसत प्रदर्शन
- आधारभूत विधियाँ: OWL, AlphaPruning (Wanda पर आधारित)
- विलोपन अध्ययन: विभिन्न गुणवत्ता मीट्रिक्स, शिक्षण दर सेटिंग्स, पुनरावृत्ति संख्या के प्रभाव
- कैलिब्रेशन नमूने: C4 डेटासेट से यादृच्छिक रूप से चुने गए, अनुक्रम लंबाई 2048
- विरलता सीमाएँ: अति-फिटिंग को रोकने के लिए एकल आयाम अधिकतम 95%
- हाइपरपैरामीटर: K=10 पुनरावृत्तियाँ, शिक्षण दर α ग्रिड खोज के माध्यम से निर्धारित
| मॉडल | OWL आधारभूत | OWL+TRIM | सुधार |
|---|
| Qwen2.5-14B | 348.48 | 180.67 | -48% |
| OPT-13B | 6461.43 | 324.14 | -95% |
| LLaMA-2-13B | 225.04 | 154.83 | -31% |
TRIM सभी परीक्षण मॉडल और विरलता स्तरों पर प्रदर्शन में सुधार प्राप्त करता है, 80% विरलता दर पर औसतन 0.46-0.65 प्रतिशत बिंदु सुधार।
- परत-स्तरीय गुणवत्ता: कोसाइन समानता सबसे स्थिर प्रदर्शन करती है
- आयाम-स्तरीय गुणवत्ता: कोसाइन समानता MSE और PSNR की तुलना में अधिक विश्वसनीय है
TRIM Magnitude, SparseGPT, GBLM आदि विभिन्न स्कोरिंग नियमों पर सुधार दिखाता है, विधि की सार्वभौमिकता को सत्यापित करता है।
Gini गुणांक विश्लेषण के माध्यम से पाया गया कि विभिन्न आउटपुट आयामों के महत्व स्कोर की एकाग्रता में महत्वपूर्ण अंतर है, जिससे प्रूनिंग संवेदनशीलता में अंतर होता है।
विरलता दर बढ़ने के साथ, गुणवत्ता गिरावट त्वरित प्रवृत्ति दिखाती है, जिससे सूक्ष्म आवंटन अधिक महत्वपूर्ण हो जाता है।
प्रयोग दिखाते हैं कि एकल आयाम को पूरी तरह हटाने का प्रभाव विशाल रूप से भिन्न होता है:
- न्यूनतम L2 मानदंड आयाम: भ्रम केवल 0.16 से बढ़ता है
- अधिकतम L2 मानदंड आयाम: भ्रम 273.10 तक बढ़ जाता है
- ग्रेडिएंट-आधारित विधियाँ: SNIP, GraSP, SynFlow आदि, ग्रेडिएंट जानकारी और पुनः प्रशिक्षण की आवश्यकता है
- एक-बार प्रूनिंग विधियाँ: SparseGPT, Wanda आदि, पुनः प्रशिक्षण की आवश्यकता नहीं लेकिन प्रदर्शन सीमित है
- परत-स्तरीय अनुकूली विधियाँ: OWL, AlphaPruning आदि, विभिन्न परतों के लिए विभिन्न विरलता दरें आवंटित करते हैं
TRIM परत के भीतर आयाम-स्तरीय विरलता आवंटन करने वाली पहली विधि है, जो मौजूदा विधियों में सूक्ष्म-दानेदार नियंत्रण के अंतर को भरता है।
- आयाम-स्तरीय विरलता आवंटन की आवश्यकता: चरम विरलता पर, सूक्ष्म-दानेदार नियंत्रण मॉडल प्रदर्शन को बनाए रखने के लिए महत्वपूर्ण है
- गुणवत्ता भिन्नता न्यूनीकरण की प्रभावशीलता: आयामों के बीच गुणवत्ता गिरावट को संतुलित करके समग्र प्रदर्शन में महत्वपूर्ण सुधार किया जा सकता है
- विधि की सार्वभौमिकता: TRIM कई मौजूदा प्रूनिंग एल्गोरिदम के साथ एकीकृत हो सकता है, अच्छी विस्तारशीलता के साथ
- शिक्षण दर चयन की जटिलता: आउटलायर-केंद्रित परतों के लिए नकारात्मक शिक्षण दर की आवश्यकता होती है, जिससे हाइपरपैरामीटर ट्यूनिंग की जटिलता बढ़ जाती है
- गैर-संरचित विरलता: वर्तमान विधि n:m जैसे संरचित विरलता पैटर्न को सीधे समर्थन नहीं करती है
- कम्प्यूटेशनल ओवरहेड: पुनरावृत्तिमूलक प्रक्रिया लगभग 8% रनटाइम समय जोड़ता है
- संरचित विरलता समर्थन: TRIM को हार्डवेयर-अनुकूल विरलता पैटर्न का समर्थन करने के लिए विस्तारित करें
- स्वचालित शिक्षण दर चयन: हाइपरपैरामीटर ट्यूनिंग आवश्यकता को कम करने के लिए अनुकूली तंत्र विकसित करें
- सैद्धांतिक विश्लेषण: आयाम महत्व और प्रूनिंग संवेदनशीलता के लिए सैद्धांतिक ढांचा स्थापित करें
- मजबूत नवाचार: आयाम-स्तरीय विरलता आवंटन पहली बार प्रस्तावित, विचार नवीन है
- व्यापक प्रयोग: कई मॉडल परिवारों और कार्यों पर विधि की प्रभावशीलता सत्यापित की गई है
- सैद्धांतिक समर्थन: गहन विश्लेषण के माध्यम से विधि प्रभावशीलता के मूल कारण को प्रकट करता है
- उच्च व्यावहारिक मूल्य: प्लग-एंड-प्ले डिज़ाइन इसे मौजूदा सिस्टम में एकीकृत करना आसान बनाता है
- विधि जटिलता: आधारभूत विधि की तुलना में एल्गोरिदम जटिलता और हाइपरपैरामीटर बढ़ाता है
- हार्डवेयर अनुकूलन: गैर-संरचित विरलता विशेष हार्डवेयर पर त्वरण प्रभाव को सीमित करता है
- अपर्याप्त सैद्धांतिक विश्लेषण: इष्टतम विरलता आवंटन के लिए सैद्धांतिक गारंटी की कमी है
- शैक्षणिक योगदान: LLM प्रूनिंग क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
- व्यावहारिक मूल्य: संसाधन-सीमित वातावरण में बड़े मॉडल तैनाती के लिए महत्वपूर्ण है
- पुनरुत्पादनीयता: ओपन-सोर्स कोड प्रदान करता है, बाद के अनुसंधान को सुविधाजनक बनाता है
- चरम विरलता आवश्यकता: विशेष रूप से >70% विरलता दर की आवश्यकता वाले परिदृश्यों के लिए उपयुक्त
- संसाधन-सीमित वातावरण: एज डिवाइस, मोबाइल आदि कम्प्यूटेशनल संसाधन वाले परिदृश्य
- अनुसंधान उद्देश्य: प्रूनिंग एल्गोरिदम अनुसंधान के लिए नए बेंचमार्क और विचार प्रदान करता है
पेपर प्रूनिंग क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- शास्त्रीय प्रूनिंग विधियाँ: Le Cun et al. (1989), Han et al. (2015)
- आधुनिक LLM प्रूनिंग: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
- परत-स्तरीय अनुकूली विधियाँ: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning
सारांश: TRIM आयाम-स्तरीय विरलता आवंटन को प्रस्तुत करके, चरम विरलता पर LLM प्रूनिंग प्रदर्शन में महत्वपूर्ण सुधार करता है। यह विधि महत्वपूर्ण सैद्धांतिक मूल्य और व्यावहारिक महत्व रखती है, बड़े मॉडल संपीड़न क्षेत्र के लिए नई अनुसंधान दिशा खोलती है। कुछ सीमाओं के बावजूद, इसकी नवाचारिता और प्रभावशीलता इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाती है।