FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic
FLRC: कुशल LLM अनुमान के लिए सूक्ष्म-दानेदार निम्न-रैंक कम्प्रेसर
बड़े भाषा मॉडल (LLM) असाधारण प्रदर्शन प्राप्त करते हैं, लेकिन उनके विशाल पैरामीटर आकार संसाधन-सीमित हार्डवेयर पर तैनाती में बाधा डालते हैं। निम्न-रैंक संपीड़न मेमोरी उपयोग और कम्प्यूटेशनल आवश्यकताओं को कम कर सकता है, लेकिन सभी परतों पर एकीकृत संपीड़न अनुपात लागू करने से अक्सर महत्वपूर्ण प्रदर्शन में गिरावट आती है, और मौजूदा विधियां डिकोडिंग चरण में खराब प्रदर्शन करती हैं। इन समस्याओं को हल करने के लिए, यह पेपर सूक्ष्म-दानेदार निम्न-रैंक कम्प्रेसर (FLRC) प्रस्तावित करता है, जो प्रत्येक परत के लिए इष्टतम रैंक आवंटन को कुशलतापूर्वक निर्धारित कर सकता है और पाठ पीढ़ी की गुणवत्ता बनाए रखने के लिए प्रगतिशील निम्न-रैंक डिकोडिंग को जोड़ता है। विविध बेंचमार्क पर व्यापक प्रयोग FLRC की श्रेष्ठता को प्रदर्शित करते हैं, सारांश कार्य पर अत्याधुनिक निम्न-रैंक संपीड़न विधियों की तुलना में 17% तक ROUGE-L वृद्धि प्राप्त करते हैं।
बड़े भाषा मॉडल (LLM) का सामना करने वाली मुख्य समस्याएं हैं:
तैनाती में कठिनाई: विशाल पैरामीटर आकार और उच्च कम्प्यूटेशनल आवश्यकताएं मोबाइल डिवाइस और एज सर्वर जैसे संसाधन-सीमित वातावरण में तैनाती को कठिन बनाती हैं
खराब संपीड़न प्रभाव: मौजूदा निम्न-रैंक संपीड़न विधियां एकीकृत संपीड़न अनुपात का उपयोग करती हैं, जो विभिन्न परतों की संपीड़न सहनशीलता में अंतर को नजरअंदाज करती हैं
डिकोडिंग प्रदर्शन में गिरावट: मौजूदा विधियां मुख्य रूप से प्रीफिल चरण पर ध्यान केंद्रित करती हैं, बहु-दौर डिकोडिंग कार्यों (जैसे पाठ सारांश) में प्रदर्शन में उल्लेखनीय गिरावट आती है
Fisher-आधारित परत-स्तरीय रैंक आवंटन एल्गोरिदम प्रस्तावित करना: ग्रेडिएंट और वजन के महत्व माप के आधार पर, प्रत्येक प्रक्षेपण परत के लिए इष्टतम रैंक आवंटन निर्धारित करना, ASVD विधि की तुलना में खोज समय में 49 गुना कमी
प्रगतिशील निम्न-रैंक डिकोडिंग तंत्र का परिचय: डिकोडिंग प्रक्रिया के दौरान रैंक आवंटन को गतिशील रूप से समायोजित करना, प्रारंभिक टोकन अधिक पैरामीटर का उपयोग करते हैं, बाद में धीरे-धीरे कम होते हैं, पीढ़ी की गुणवत्ता बनाए रखते हुए संपीड़न दर में सुधार
सूक्ष्म-दानेदार संपीड़न ढांचा स्थापित करना: परत-स्तरीय रैंक आवंटन और प्रगतिशील डिकोडिंग को जोड़कर, LLM संपीड़न का एक संपूर्ण समाधान बनाना
महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: सारांश कार्य पर मौजूदा विधियों की तुलना में ROUGE-L स्कोर में 17.35% तक वृद्धि, साथ ही समझ कार्यों पर उत्कृष्ट प्रदर्शन बनाए रखना
इनपुट: पूर्व-प्रशिक्षित बड़ा भाषा मॉडल M, लक्ष्य संपीड़न दर
आउटपुट: संपीड़ित मॉडल, पीढ़ी की गुणवत्ता बनाए रखते हुए पैरामीटर आकार और कम्प्यूटेशनल ओवरहेड में कमी
बाधाएं: दिए गए पैरामीटर बजट के तहत मॉडल प्रदर्शन को अधिकतम करना
Fisher सूचना मानदंड का अनुप्रयोग: प्रक्षेपण महत्व का मूल्यांकन करने के लिए ग्रेडिएंट और वजन जानकारी को जोड़ना, केवल वजन परिमाण या ग्रेडिएंट पर आधारित विधियों की तुलना में अधिक सटीक
गतिशील संपीड़न प्रतिमान: स्थिर संपीड़न की सीमाओं को तोड़ना, पीढ़ी प्रक्रिया की विशेषताओं के अनुसार संपीड़न दर को गतिशील रूप से समायोजित करना
सूक्ष्म-दानेदार अनुकूलन: परत-स्तर के बजाय प्रक्षेपण-स्तर पर अनुकूलन, अधिक सटीक संसाधन आवंटन प्राप्त करना
अंत-से-अंत ढांचा: रैंक आवंटन और गतिशील डिकोडिंग को एक ढांचे में एकीकृत करना, सहक्रियात्मक अनुकूलन
पेपर समृद्ध संबंधित कार्य का हवाला देता है, मुख्य रूप से शामिल हैं:
Yuan et al., 2023 - ASVD विधि
Wang et al., 2024 - SVD-LLM विधि
Touvron et al., 2023 - LLaMA मॉडल श्रृंखला
कई बेंचमार्क डेटासेट और मूल्यांकन उपकरणों के संबंधित साहित्य
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो LLM संपीड़न क्षेत्र की मुख्य समस्याओं के लिए नवीन समाधान प्रस्तावित करता है। विधि डिजाइन उचित है, प्रयोगात्मक सत्यापन व्यापक है, परिणाम उल्लेखनीय हैं, महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य रखते हैं। हालांकि सैद्धांतिक विश्लेषण और हार्डवेयर अनुकूलन में सुधार की गुंजाइश है, लेकिन कुल मिलाकर यह क्षेत्र का महत्वपूर्ण योगदान है।