FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic
FLRC: দক্ষ LLM অনুমানের জন্য সূক্ষ্ম-দানাদার নিম্ন-র্যাঙ্ক কম্প্রেসর
বৃহৎ ভাষা মডেলগুলি (LLM) ব্যতিক্রমী কর্মক্ষমতা অর্জন করেছে, তবে তাদের বিশাল পরামিতি সংখ্যা সীমিত সম্পদ সম্পন্ন হার্ডওয়্যারে স্থাপনায় বাধা সৃষ্টি করে। নিম্ন-র্যাঙ্ক সংকোচন স্মৃতি ব্যবহার এবং গণনার চাহিদা হ্রাস করতে পারে, তবে সমস্ত স্তরে একীভূত সংকোচন অনুপাত প্রয়োগ করা প্রায়শই উল্লেখযোগ্য কর্মক্ষমতা হ্রাস ঘটায় এবং বিদ্যমান পদ্ধতিগুলি ডিকোডিং পর্যায়ে দুর্বল পারফরম্যান্স প্রদর্শন করে। এই সমস্যাগুলি সমাধানের জন্য, এই পত্রটি সূক্ষ্ম-দানাদার নিম্ন-র্যাঙ্ক কম্প্রেসর (FLRC) প্রস্তাব করে, যা প্রতিটি স্তরের জন্য সর্বোত্তম র্যাঙ্ক বরাদ্দ দক্ষতার সাথে নির্ধারণ করতে পারে এবং ক্রমবর্ধমান নিম্ন-র্যাঙ্ক ডিকোডিংয়ের সাথে পাঠ্য প্রজন্মের গুণমান বজায় রাখে। বৈচিত্র্যময় বেঞ্চমার্কে ব্যাপক পরীক্ষা-নিরীক্ষা FLRC-এর উৎকর্ষতা প্রমাণ করে, সংক্ষিপ্তকরণ কাজে অত্যাধুনিক নিম্ন-র্যাঙ্ক সংকোচন পদ্ধতির তুলনায় ১৭% পর্যন্ত ROUGE-L উন্নতি অর্জন করে।
বৃহৎ ভাষা মডেলগুলি যে মূল সমস্যাগুলির সম্মুখীন হয়:
স্থাপনার কঠিনতা: বিশাল পরামিতি সংখ্যা এবং উচ্চ গণনার চাহিদা মোবাইল ডিভাইস এবং প্রান্ত সার্ভারগুলির মতো সীমিত সম্পদ পরিবেশে স্থাপনা কঠিন করে তোলে
দুর্বল সংকোচন প্রভাব: বিদ্যমান নিম্ন-র্যাঙ্ক সংকোচন পদ্ধতিগুলি একীভূত সংকোচন অনুপাত ব্যবহার করে, বিভিন্ন স্তরের সংকোচনের প্রতি সহনশীলতার পার্থক্য উপেক্ষা করে
ডিকোডিং কর্মক্ষমতা হ্রাস: বিদ্যমান পদ্ধতিগুলি প্রধানত প্রি-ফিলিং পর্যায়ে মনোনিবেশ করে, বহু-পর্যায়ের ডিকোডিং কাজে (যেমন পাঠ্য সংক্ষিপ্তকরণ) কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়
Fisher-ভিত্তিক স্তর-স্তরের র্যাঙ্ক বরাদ্দ অ্যালগরিদম প্রস্তাব: গ্রেডিয়েন্ট এবং ওজনের গুরুত্ব পরিমাপের উপর ভিত্তি করে, প্রতিটি প্রজেকশন স্তরের জন্য সর্বোত্তম র্যাঙ্ক বরাদ্দ নির্ধারণ করে, ASVD পদ্ধতির তুলনায় অনুসন্ধান সময় ৪৯ গুণ হ্রাস করে
ক্রমবর্ধমান নিম্ন-র্যাঙ্ক ডিকোডিং প্রক্রিয়া প্রবর্তন: ডিকোডিং প্রক্রিয়ায় র্যাঙ্ক বরাদ্দ গতিশীলভাবে সামঞ্জস্য করে, প্রাথমিক টোকেন আরও পরামিতি ব্যবহার করে, পরবর্তীতে ধীরে ধীরে হ্রাস করে, প্রজন্মের গুণমান বজায় রেখে সংকোচন হার বৃদ্ধি করে
সূক্ষ্ম-দানাদার সংকোচন কাঠামো প্রতিষ্ঠা: স্তর-স্তরের র্যাঙ্ক বরাদ্দ এবং ক্রমবর্ধমান ডিকোডিংকে একত্রিত করে, সম্পূর্ণ LLM সংকোচন সমাধান গঠন করে
উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন: সংক্ষিপ্তকরণ কাজে বিদ্যমান পদ্ধতির তুলনায় ROUGE-L স্কোর ১৭.৩৫% পর্যন্ত উন্নত করে, একই সাথে বোঝার কাজে উৎকৃষ্ট কর্মক্ষমতা বজায় রাখে
ইনপুট: প্রশিক্ষিত বৃহৎ ভাষা মডেল M, লক্ষ্য সংকোচন অনুপাত
আউটপুট: সংকোচিত মডেল, প্রজন্মের গুণমান বজায় রেখে পরামিতি সংখ্যা এবং গণনা ওভারহেড হ্রাস করে
সীমাবদ্ধতা: প্রদত্ত পরামিতি বাজেটের অধীনে মডেল কর্মক্ষমতা সর্বাধিক করা
Fisher তথ্য মানদণ্ডের প্রয়োগ: প্রজেকশন গুরুত্ব মূল্যায়নের জন্য গ্রেডিয়েন্ট এবং ওজন তথ্য একত্রিত করা, শুধুমাত্র ওজন প্রশস্ততা বা গ্রেডিয়েন্টের উপর ভিত্তি করে পদ্ধতির চেয়ে আরও নির্ভুল
গতিশীল সংকোচন প্যারাডাইম: স্থির সংকোচনের সীমাবদ্ধতা অতিক্রম করা, প্রজন্ম প্রক্রিয়ার বৈশিষ্ট্য অনুযায়ী সংকোচন হার গতিশীলভাবে সামঞ্জস্য করা
সূক্ষ্ম-দানাদার অপ্টিমাইজেশন: স্তর-স্তরের পরিবর্তে প্রজেকশন স্তরে অপ্টিমাইজেশন, আরও সূক্ষ্ম সম্পদ বরাদ্দ অর্জন করা
সম্পূর্ণ কাঠামো: র্যাঙ্ক বরাদ্দ এবং গতিশীল ডিকোডিংকে একটি কাঠামোতে একীভূত করা, সহযোগী অপ্টিমাইজেশন করা
পত্রটি সমৃদ্ধ সম্পর্কিত কাজ উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
Yuan et al., 2023 - ASVD পদ্ধতি
Wang et al., 2024 - SVD-LLM পদ্ধতি
Touvron et al., 2023 - LLaMA মডেল সিরিজ
একাধিক বেঞ্চমার্ক ডেটাসেট এবং মূল্যায়ন সরঞ্জামের সম্পর্কিত সাহিত্য
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পত্র যা LLM সংকোচন ক্ষেত্রের মূল সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষা যাচাইকরণ পর্যাপ্ত, ফলাফল উল্লেখযোগ্য, গুরুত্বপূর্ণ একাডেমিক মূল্য এবং ব্যবহারিক মূল্য রয়েছে। যদিও তাত্ত্বিক বিশ্লেষণ এবং হার্ডওয়্যার অপ্টিমাইজেশন ক্ষেত্রে উন্নতির অবকাশ রয়েছে, সামগ্রিকভাবে এটি এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান।