2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: कुशल LLM अनुमान के लिए सूक्ष्म-दानेदार निम्न-रैंक कम्प्रेसर

मूल जानकारी

पेपर ID: 2510.09332
शीर्षक: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
लेखक: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
संस्थान: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
वर्गीकरण: cs.CL cs.AI
प्रकाशन तिथि: 25 अक्टूबर 2010 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09332

सारांश

बड़े भाषा मॉडल (LLM) असाधारण प्रदर्शन प्राप्त करते हैं, लेकिन उनके विशाल पैरामीटर आकार संसाधन-सीमित हार्डवेयर पर तैनाती में बाधा डालते हैं। निम्न-रैंक संपीड़न मेमोरी उपयोग और कम्प्यूटेशनल आवश्यकताओं को कम कर सकता है, लेकिन सभी परतों पर एकीकृत संपीड़न अनुपात लागू करने से अक्सर महत्वपूर्ण प्रदर्शन में गिरावट आती है, और मौजूदा विधियां डिकोडिंग चरण में खराब प्रदर्शन करती हैं। इन समस्याओं को हल करने के लिए, यह पेपर सूक्ष्म-दानेदार निम्न-रैंक कम्प्रेसर (FLRC) प्रस्तावित करता है, जो प्रत्येक परत के लिए इष्टतम रैंक आवंटन को कुशलतापूर्वक निर्धारित कर सकता है और पाठ पीढ़ी की गुणवत्ता बनाए रखने के लिए प्रगतिशील निम्न-रैंक डिकोडिंग को जोड़ता है। विविध बेंचमार्क पर व्यापक प्रयोग FLRC की श्रेष्ठता को प्रदर्शित करते हैं, सारांश कार्य पर अत्याधुनिक निम्न-रैंक संपीड़न विधियों की तुलना में 17% तक ROUGE-L वृद्धि प्राप्त करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल (LLM) का सामना करने वाली मुख्य समस्याएं हैं:

तैनाती में कठिनाई: विशाल पैरामीटर आकार और उच्च कम्प्यूटेशनल आवश्यकताएं मोबाइल डिवाइस और एज सर्वर जैसे संसाधन-सीमित वातावरण में तैनाती को कठिन बनाती हैं
खराब संपीड़न प्रभाव: मौजूदा निम्न-रैंक संपीड़न विधियां एकीकृत संपीड़न अनुपात का उपयोग करती हैं, जो विभिन्न परतों की संपीड़न सहनशीलता में अंतर को नजरअंदाज करती हैं
डिकोडिंग प्रदर्शन में गिरावट: मौजूदा विधियां मुख्य रूप से प्रीफिल चरण पर ध्यान केंद्रित करती हैं, बहु-दौर डिकोडिंग कार्यों (जैसे पाठ सारांश) में प्रदर्शन में उल्लेखनीय गिरावट आती है

अनुसंधान प्रेरणा

व्यावहारिक तैनाती की आवश्यकता: LLM अनुप्रयोगों के प्रसार के साथ, संसाधन-सीमित डिवाइस पर कुशल तैनाती की आवश्यकता तेजी से बढ़ रही है
मौजूदा विधियों की सीमाएं: एकीकृत संपीड़न रणनीति मॉडल संरचना की विषमता का पूर्ण लाभ नहीं उठा सकती
डिकोडिंग गुणवत्ता आश्वासन: पाठ पीढ़ी कार्यों को निरंतर डिकोडिंग गुणवत्ता की आवश्यकता होती है, जिसके लिए विशेष अनुकूलन रणनीति की आवश्यकता होती है

मुख्य योगदान

Fisher-आधारित परत-स्तरीय रैंक आवंटन एल्गोरिदम प्रस्तावित करना: ग्रेडिएंट और वजन के महत्व माप के आधार पर, प्रत्येक प्रक्षेपण परत के लिए इष्टतम रैंक आवंटन निर्धारित करना, ASVD विधि की तुलना में खोज समय में 49 गुना कमी
प्रगतिशील निम्न-रैंक डिकोडिंग तंत्र का परिचय: डिकोडिंग प्रक्रिया के दौरान रैंक आवंटन को गतिशील रूप से समायोजित करना, प्रारंभिक टोकन अधिक पैरामीटर का उपयोग करते हैं, बाद में धीरे-धीरे कम होते हैं, पीढ़ी की गुणवत्ता बनाए रखते हुए संपीड़न दर में सुधार
सूक्ष्म-दानेदार संपीड़न ढांचा स्थापित करना: परत-स्तरीय रैंक आवंटन और प्रगतिशील डिकोडिंग को जोड़कर, LLM संपीड़न का एक संपूर्ण समाधान बनाना
महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: सारांश कार्य पर मौजूदा विधियों की तुलना में ROUGE-L स्कोर में 17.35% तक वृद्धि, साथ ही समझ कार्यों पर उत्कृष्ट प्रदर्शन बनाए रखना

विधि विवरण

कार्य परिभाषा

इनपुट: पूर्व-प्रशिक्षित बड़ा भाषा मॉडल M, लक्ष्य संपीड़न दर आउटपुट: संपीड़ित मॉडल, पीढ़ी की गुणवत्ता बनाए रखते हुए पैरामीटर आकार और कम्प्यूटेशनल ओवरहेड में कमी बाधाएं: दिए गए पैरामीटर बजट के तहत मॉडल प्रदर्शन को अधिकतम करना

मॉडल आर्किटेक्चर

1. Fisher-आधारित परत-स्तरीय रैंक आवंटन

इस एल्गोरिदम का मुख्य विचार मॉडल में प्रत्येक प्रक्षेपण परत को विभिन्न रैंक आवंटित करना है, इसके महत्व के आधार पर विभेदक संपीड़न करना।

महत्व गणना: प्रत्येक परत l में प्रक्षेपण p के लिए, महत्व माप को परिभाषित किया जाता है:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

जहां Gl,p ग्रेडिएंट है, Wl,p वजन पैरामीटर है।

रैंक आवंटन रणनीति:

rl,p = round(αl,p/S × Rbudget)

जहां S कुल महत्व स्कोर है, Rbudget कुल रैंक बजट है।

एल्गोरिदम प्रवाह:

कैलिब्रेशन डेटासेट का उपयोग करके विभिन्न प्रक्षेपण परतों की ग्रेडिएंट की गणना करना
ग्रेडिएंट और वजन के आधार पर महत्व स्कोर की गणना करना
महत्व अनुपात के अनुसार रैंक बजट आवंटित करना
परत-स्तरीय रैंक आवंटन योजना उत्पन्न करना

2. प्रगतिशील निम्न-रैंक डिकोडिंग

यह तंत्र अवलोकन पर आधारित है: पाठ पीढ़ी में, प्रारंभिक टोकन समग्र सुसंगतता और गुणवत्ता को अधिक प्रभावित करते हैं।

गतिशील रैंक समायोजन:

rl,p(t) = round(αl,p/S × Rbudget(t))

जहां Rbudget(t) t-वें टोकन का रैंक बजट है, गैर-बढ़ती संपत्ति को संतुष्ट करता है।

शेड्यूलिंग रणनीति:

प्रारंभिक टोकन: पीढ़ी की गुणवत्ता सुनिश्चित करने के लिए बड़े पैरामीटर सेट का उपयोग करना
बाद के टोकन: रैंक कॉन्फ़िगरेशन को धीरे-धीरे कम करना, समग्र संपीड़न दर में सुधार करना
कैलिब्रेशन डेटासेट के माध्यम से इष्टतम शेड्यूलिंग योजना निर्धारित करना

तकनीकी नवाचार बिंदु

Fisher सूचना मानदंड का अनुप्रयोग: प्रक्षेपण महत्व का मूल्यांकन करने के लिए ग्रेडिएंट और वजन जानकारी को जोड़ना, केवल वजन परिमाण या ग्रेडिएंट पर आधारित विधियों की तुलना में अधिक सटीक
गतिशील संपीड़न प्रतिमान: स्थिर संपीड़न की सीमाओं को तोड़ना, पीढ़ी प्रक्रिया की विशेषताओं के अनुसार संपीड़न दर को गतिशील रूप से समायोजित करना
सूक्ष्म-दानेदार अनुकूलन: परत-स्तर के बजाय प्रक्षेपण-स्तर पर अनुकूलन, अधिक सटीक संसाधन आवंटन प्राप्त करना
अंत-से-अंत ढांचा: रैंक आवंटन और गतिशील डिकोडिंग को एक ढांचे में एकीकृत करना, सहक्रियात्मक अनुकूलन

प्रयोगात्मक सेटअप

डेटासेट

सारांश कार्य: DialogSum, CNN/DM
समझ कार्य: Wikitext2 (भ्रम), LM-Evaluation-Harness में 7 शून्य-शॉट कार्य
कैलिब्रेशन डेटा:
- रैंक आवंटन: Wikitext2 प्रशिक्षण सेट 256 अनुक्रम (लंबाई 2048)
- शेड्यूलर: DialogSum प्रशिक्षण सेट 500 नमूने

मूल्यांकन मेट्रिक्स

पीढ़ी कार्य: ROUGE-L, BERTScore
समझ कार्य: भ्रम, शून्य-शॉट सटीकता
दक्षता संकेतक: खोज समय, अनुमान गति

तुलना विधियां

ASVD: सक्रियण-जागरूक एकवचन मान अपघटन
SVD-LLM: ट्रंकेशन-जागरूक डेटा व्हाइटनिंग विधि
विलोपन प्रयोग: FLRA और PLRD घटकों के योगदान का अलग से परीक्षण करना

कार्यान्वयन विवरण

मॉडल: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct आदि
संपीड़न दर: 10%, 20%, 30% आदि विभिन्न स्तर
हार्डवेयर: A100 GPU
SVD-LLM प्रक्रिया के आधार पर, FLRC के रैंक आवंटन और प्रगतिशील डिकोडिंग मॉड्यूल लागू करना

प्रयोगात्मक परिणाम

मुख्य परिणाम

पीढ़ी कार्य प्रदर्शन

LLaMA-3-8B-Instruct पर, 20% संपीड़न दर पर:

DialogSum ROUGE-L: FLRC 17.35% vs ASVD 0.10% vs SVD-LLM 0.24%
CNN/DM ROUGE-L: FLRC 17.72% vs ASVD 0.54% vs SVD-LLM 6.29%

समझ कार्य प्रदर्शन

LLaMA-3-8B पर, 20% संपीड़न दर पर:

Wikitext2 भ्रम: FLRC 12.53 vs ASVD 3206.80 vs SVD-LLM 14.72
औसत शून्य-शॉट सटीकता: FLRC 43.66% vs ASVD 31.58% vs SVD-LLM 41.63%

दक्षता सुधार

खोज समय: FLRC 3 मिनट vs ASVD 147 मिनट (49 गुना त्वरण)
अनुमान त्वरण: ऑफलोडिंग परिदृश्य में अधिकतम 2.12 गुना त्वरण

विलोपन प्रयोग

LLaMA-3-8B-Instruct पर, 20% संपीड़न दर की DialogSum कार्य:

केवल SVD-LLM: 0.24% ROUGE-L
SVD-LLM + FLRA: 13.28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17.35% ROUGE-L

परिणाम दर्शाते हैं कि दोनों घटक प्रदर्शन सुधार में महत्वपूर्ण योगदान देते हैं।

केस विश्लेषण

महत्व विश्लेषण के माध्यम से खोज:

विभिन्न परतों की प्रक्षेपण महत्व में विशाल अंतर
down_proj आमतौर पर सर्वोच्च महत्व स्कोर रखता है
बाद की परतें प्रारंभिक परतों की तुलना में संपीड़न के प्रति अधिक संवेदनशील हैं

प्रयोगात्मक निष्कर्ष

परत-स्तरीय विविधता: मॉडल की विभिन्न परतों में संपीड़न सहनशीलता में महत्वपूर्ण अंतर है
डिकोडिंग संवेदनशीलता: पीढ़ी कार्य समझ कार्यों की तुलना में संपीड़न दर के प्रति अधिक संवेदनशील हैं
स्केल प्रभाव: बड़े मॉडल पर FLRC का लाभ अधिक स्पष्ट है
सामान्यता: विधि विभिन्न मॉडल आर्किटेक्चर और सटीकता के तहत प्रभावी रहती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सूक्ष्म-दानेदार संपीड़न की प्रभावशीलता: प्रक्षेपण-स्तर विभेदक संपीड़न एकीकृत संपीड़न रणनीति से काफी बेहतर है
गतिशील डिकोडिंग की आवश्यकता: प्रगतिशील रैंक समायोजन पीढ़ी की गुणवत्ता बनाए रखने के लिए महत्वपूर्ण है
विधि की सामान्यता: FLRC विभिन्न मॉडल आकार और कार्य प्रकारों पर उत्कृष्ट प्रदर्शन करता है
व्यावहारिक मूल्य: खोज दक्षता में बड़ी वृद्धि विधि को व्यावहारिक तैनाती मूल्य देती है

सीमाएं

कैलिब्रेशन डेटा निर्भरता: विधि प्रदर्शन कैलिब्रेशन डेटासेट चयन से प्रभावित होता है, विभिन्न डेटासेट प्रदर्शन अंतर का कारण बन सकते हैं
शेड्यूलर ओवरहेड: गतिशील रैंक आवंटन अतिरिक्त कम्प्यूटेशनल ओवरहेड का परिचय देता है, जिसे आगे के इंजीनियरिंग अनुकूलन की आवश्यकता है
मेमोरी-बाउंड परिदृश्य: मेमोरी-सीमित वातावरण में प्रभाव अधिक है, लेकिन कम्प्यूटेशन-सीमित परिदृश्यों में लाभ कम हो सकता है

भविष्य की दिशाएं

इंजीनियरिंग अनुकूलन: गतिशील रैंक आवंटन के ओवरहेड को कम करने पर ध्यान केंद्रित करना, विशेष कर्नल डिजाइन करना
अनुकूली शेड्यूलिंग: अधिक बुद्धिमान शेड्यूलिंग एल्गोरिदम विकसित करना, कैलिब्रेशन डेटा पर निर्भरता कम करना
बहु-मोडल विस्तार: विधि को बहु-मोडल बड़े मॉडल के संपीड़न तक विस्तारित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: पहली बार Fisher सूचना मानदंड को LLM के सूक्ष्म-दानेदार रैंक आवंटन पर लागू करना, गतिशील डिकोडिंग का नया प्रतिमान प्रस्तावित करना
व्यापक प्रयोग: कई मॉडल, कार्य और संपीड़न दरों को कवर करना, विलोपन प्रयोग डिजाइन उचित है
उल्लेखनीय परिणाम: पीढ़ी कार्यों पर सफलता प्राप्त करना, मौजूदा विधियों की मुख्य समस्याओं को हल करना
उच्च व्यावहारिक मूल्य: खोज समय में उल्लेखनीय कमी और अच्छा त्वरण प्रभाव व्यावहारिक तैनाती मूल्य रखते हैं
गहन विश्लेषण: समृद्ध विश्लेषण प्रयोग प्रदान करना, महत्व दृश्य, संवेदनशीलता विश्लेषण आदि सहित

कमियां

सैद्धांतिक आधार: Fisher-आधारित महत्व माप क्यों इष्टतम है इसके लिए सैद्धांतिक विश्लेषण की कमी
शेड्यूलिंग रणनीति: प्रगतिशील डिकोडिंग की शेड्यूलिंग रणनीति मुख्य रूप से अनुभव पर आधारित है, सैद्धांतिक मार्गदर्शन की कमी
हार्डवेयर अनुकूलन: गतिशील रैंक आवंटन के हार्डवेयर कार्यान्वयन विवरण पर्याप्त विस्तृत नहीं हैं
तुलना सीमा: मुख्य रूप से SVD-आधारित विधियों के साथ तुलना, अन्य संपीड़न तकनीकों के साथ तुलना सीमित है

प्रभाव

शैक्षणिक योगदान: LLM संपीड़न क्षेत्र के लिए नई अनुसंधान दिशा और तकनीकी पथ प्रदान करना
व्यावहारिक मूल्य: महत्वपूर्ण प्रदर्शन सुधार और दक्षता सुधार महत्वपूर्ण औद्योगिक अनुप्रयोग मूल्य रखते हैं
पुनरुत्पादनीयता: विधि विवरण स्पष्ट है, प्रयोगात्मक सेटअप विस्तृत है, अच्छी पुनरुत्पादनीयता है
प्रेरणा महत्व: गतिशील संपीड़न का विचार अधिक संबंधित अनुसंधान को प्रेरित कर सकता है

लागू परिदृश्य

एज तैनाती: विशेष रूप से मोबाइल डिवाइस और एज सर्वर जैसे संसाधन-सीमित वातावरण के लिए उपयुक्त
मेमोरी-सीमित परिदृश्य: मॉडल ऑफलोडिंग की आवश्यकता वाली स्थितियों में प्रभाव विशेष रूप से उल्लेखनीय है
पीढ़ी कार्य: पाठ सारांश, संवाद पीढ़ी आदि कार्यों के लिए विशेष मूल्य है
बड़े पैमाने के मॉडल: बड़े मॉडल पर लाभ अधिक स्पष्ट है

संदर्भ

पेपर समृद्ध संबंधित कार्य का हवाला देता है, मुख्य रूप से शामिल हैं:

Yuan et al., 2023 - ASVD विधि
Wang et al., 2024 - SVD-LLM विधि
Touvron et al., 2023 - LLaMA मॉडल श्रृंखला
कई बेंचमार्क डेटासेट और मूल्यांकन उपकरणों के संबंधित साहित्य

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो LLM संपीड़न क्षेत्र की मुख्य समस्याओं के लिए नवीन समाधान प्रस्तावित करता है। विधि डिजाइन उचित है, प्रयोगात्मक सत्यापन व्यापक है, परिणाम उल्लेखनीय हैं, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखते हैं। हालांकि सैद्धांतिक विश्लेषण और हार्डवेयर अनुकूलन में सुधार की गुंजाइश है, लेकिन कुल मिलाकर यह क्षेत्र का महत्वपूर्ण योगदान है।