Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
- पेपर ID: 2409.15371
- शीर्षक: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
- लेखक: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन तिथि: 14 अक्टूबर 2025 (arXiv preprint)
- पेपर लिंक: https://arxiv.org/abs/2409.15371v11
Low-Rank Adaptation (LoRA) एक व्यापक रूप से अपनाई जाने वाली पैरामीटर-कुशल सूक्ष्म-समायोजन तकनीक है, लेकिन इसकी धीमी अभिसरण समस्या ने कई प्रकारों के विकास को प्रेरित किया है। हालांकि, मौजूदा विधियां अक्सर प्रदर्शन, मेमोरी खपत और कम्प्यूटेशनल दक्षता को एक साथ सुधारने में विफल रहती हैं। इस चुनौती का सामना करने के लिए, यह पेपर LoRA के धीमे अभिसरण के मूल कारणों का पुनर्विचार करता है। इन अंतर्दृष्टियों के आधार पर, लेखकों ने Matrix Shard Sharing (MiSS) विधि का प्रस्ताव दिया है, जो एक एकल साझा प्रशिक्षणीय मैट्रिक्स D (शून्य से आरंभीकृत) का उपयोग करके मूल वजन मैट्रिक्स के शार्ड को अपडेट करता है। कम्प्यूटेशनल दक्षता, कम मेमोरी खपत और स्केलेबल सेवा को सुनिश्चित करने के लिए, लेखकों ने MiSSe का परिचय दिया है। सैद्धांतिक विश्लेषण और प्रायोगिक परिणाम दोनों दर्शाते हैं कि यह विधि प्रदर्शन को नुकसान पहुंचाए बिना अनुकूलन जटिलता को कम करती है, जिससे प्रदर्शन, मेमोरी और दक्षता के बीच अधिक अनुकूल व्यापार-बंद प्राप्त होता है।
बड़े भाषा मॉडल (LLMs) का पूर्ण-पैरामीटर सूक्ष्म-समायोजन कम्प्यूटेशनल रूप से निषिद्ध है, इसलिए पैरामीटर-कुशल सूक्ष्म-समायोजन (PEFT) तकनीकें विकसित की गई हैं। LoRA सबसे प्रमुख PEFT विधियों में से एक है, जो निम्न-रैंक अपघटन के माध्यम से वजन अपडेट का अनुमान लगाता है: ΔW≈BA, जहां B∈Rd×r, A∈Rr×k, और r≪min(d,k)।
- धीमा अभिसरण: LoRA पूर्ण-पैरामीटर सूक्ष्म-समायोजन की तुलना में काफी धीमी गति से अभिसरित होता है
- अनुकूलन जटिलता: मैट्रिक्स A और B दोनों को एक साथ अपडेट करने की आवश्यकता होती है, जो अनुकूलन जटिलता को बढ़ाता है
- व्यापार-बंद कठिनाई: मौजूदा LoRA प्रकार प्रदर्शन, मेमोरी और दक्षता के तीन आयामों में संतुलन प्राप्त करने में कठिनाई का सामना करते हैं
S2FT और LoRA+ जैसी विधियों का विश्लेषण करके, लेखकों ने पाया कि LoRA के धीमे अभिसरण का मुख्य कारण दो मैट्रिक्स को एक साथ अनुकूलित करने की आवश्यकता है। "एकल मैट्रिक्स को प्रशिक्षित करना अभिव्यक्ति क्षमता का त्याग किए बिना अनुकूलन को सरल बना सकता है" की धारणा के आधार पर, लेखकों ने MiSS विधि का प्रस्ताव दिया है।
- MiSS विधि का प्रस्ताव: एक शार्ड-साझाकरण तंत्र के साथ एक कुशल और अनुकूलनीय संरचना, जो प्रदर्शन, मेमोरी दक्षता और कम्प्यूटेशनल दक्षता के तीन मुख्य गुणों के बीच प्रभावी संतुलन प्राप्त करती है
- सैद्धांतिक और प्रायोगिक सत्यापन: विविध डेटासेट और मॉडल आर्किटेक्चर पर MiSS की श्रेष्ठता को सत्यापित करने के लिए बड़े पैमाने पर प्रयोग
- व्यापक PEFT विधि तुलना: मेमोरी उपयोग, आरंभीकरण ओवरहेड और कम्प्यूटेशनल दक्षता के संदर्भ में कई PEFT विधियों का व्यापक मूल्यांकन
- Pareto सीमांत विश्लेषण: इन आयामों के Pareto सीमांत को मैप करके, यह साबित करता है कि MiSS एक अनुकूल स्थिति में है
पूर्व-प्रशिक्षित वजन मैट्रिक्स W0∈Rd×k दिया गया है, लक्ष्य एक पैरामीटर-कुशल अपडेट ΔW सीखना है, जिससे सूक्ष्म-समायोजित मॉडल डाउनस्ट्रीम कार्यों पर अच्छा प्रदर्शन करे, साथ ही प्रशिक्षणीय पैरामीटर की संख्या और कम्प्यूटेशनल ओवरहेड को कम किया जाए।
MiSS वजन अपडेट को एक छोटे प्रशिक्षणीय मैट्रिक्स D से विस्तार ऑपरेशन के माध्यम से उत्पन्न बड़े मैट्रिक्स के रूप में परिभाषित करता है:
W=W0+ΔW=W0+expand(D)y=W0x+expand(D)x
जहां D∈Rr1×r2, (r1,r2)≪min(d,k)।
आउटपुट आयाम d को N शार्ड में विभाजित करता है, आकार {s1,s2,…,sN} के साथ, जहां ∑i=1Nsi=d। प्रत्येक शार्ड i के लिए, इसका अपडेट D की i-वीं पंक्ति Di को si बार दोहराकर निर्धारित किया जाता है:
(expand(D))T=[(1s1D1)T(1s2D2)T…(1sNDN)T]
बड़े मैट्रिक्स को स्पष्ट रूप से बनाने से बचने के लिए, MiSSe D∈Rr×d को पुनर्परिभाषित करता है, इनपुट आयाम k को r ब्लॉक में विभाजित करता है:
x=[x(1),x(2),…,x(r)],x(i)∈Rb×l×g
S=[∑j=1gx[:,:,j](1),∑j=1gx[:,:,j](2),…,∑j=1gx[:,:,j](r)]∈Rb×l×r
ΔWx=DTS,y=W0x+DTS
- एकल-मैट्रिक्स अनुकूलन: LoRA के विपरीत जिसे A और B दोनों मैट्रिक्स को एक साथ अनुकूलित करने की आवश्यकता होती है, MiSS को केवल एकल मैट्रिक्स D को अनुकूलित करने की आवश्यकता होती है, जो अनुकूलन जटिलता को कम करता है
- शार्ड-साझाकरण तंत्र: दोहराए गए मैट्रिक्स संरचना के माध्यम से निम्न-रैंक विशेषता को लागू करता है, साथ ही अभिव्यक्ति क्षमता को बनाए रखता है
- कुशल कार्यान्वयन: MiSSe ब्लॉक-स्तरीय इनपुट एकत्रीकरण के माध्यम से बड़े मैट्रिक्स को स्पष्ट रूप से संग्रहीत करने से बचता है, जिससे मेमोरी उपयोग में काफी कमी आती है
- प्राकृतिक भाषा समझ (NLU): GLUE बेंचमार्क डेटासेट का सबसेट, जिसमें MNLI, SST-2, CoLA, QNLI, MRPC शामिल हैं
- प्राकृतिक भाषा पीढ़ी (NLG):
- गणित कार्य: MetaMathQA डेटासेट (395k सबसेट), GSM8K और MATH का मूल्यांकन
- कोड कार्य: CodeFeedback डेटासेट (100k सबसेट), HumanEval और Mbpp का मूल्यांकन
- NLU कार्य: सटीकता
- गणित कार्य: GSM8K और MATH बेंचमार्क पर सटीकता
- कोड कार्य: HumanEval और Mbpp पर पास दर
- दक्षता मेट्रिक्स: प्रशिक्षण समय, मेमोरी उपयोग, आरंभीकरण समय
LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS और कई अन्य PEFT विधियां
- अनुकूलक: AdamW
- सीखने की दर: 2e-5
- बैच आकार: 64-128
- सीखने की दर अनुसूची: कोसाइन क्षय
- MiSS रैंक सेटिंग: 16-128 (कार्य के अनुसार समायोजित)
RoBERTa-base पर GLUE बेंचमार्क परीक्षण में, MiSS CoLA डेटासेट पर विशेष रूप से उत्कृष्ट प्रदर्शन करता है, 72.86 का स्कोर प्राप्त करता है, जो LoRA(62.40) और PiSSA(67.28) को काफी हद तक पार करता है।
कई बड़े भाषा मॉडल पर प्रायोगिक परिणाम दिखाते हैं:
LLaMA2-7B:
- GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
- Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
- HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)
Qwen3-4B:
- Math: MiSS(34.82) अन्य विधियों को दूर से पार करता है, PiSSA(26.00), DoRA(21.73), LoRA(15.20)
प्रारंभिक ग्रेडिएंट नॉर्म विश्लेषण MiSS के डिजाइन दर्शन को सत्यापित करता है। प्रयोग दर्शाते हैं कि MiSS अन्य सुधारी गई LoRA प्रकारों की तरह, मानक LoRA की तुलना में बड़े प्रारंभिक ग्रेडिएंट नॉर्म रखता है, जो तेजी से प्रारंभिक अभिसरण से संबंधित है।
| विधि | स्पेस जटिलता | समय जटिलता |
|---|
| Full | O(dk) | O(bld(d+k)) |
| LoRA | O(dr+rk) | O(blr(d+k)) |
| MiSS | O(dr) | O(bldk) |
| MiSSe | O(dr) | O(blr(d+k/r)) |
LLaMA-3.2-3B पर व्यापक मूल्यांकन दर्शाता है कि MiSS प्रदर्शन-दक्षता व्यापार-बंद में सर्वोत्तम स्थिति में है, सर्वोत्तम परीक्षण सटीकता (0.5080) को प्राप्त करता है जबकि कम मेमोरी उपयोग और प्रशिक्षण समय को बनाए रखता है।
LLaMA2-7B पर विभिन्न रैंक मानों के प्रभाव का परीक्षण:
- rank=16: GSM8K(45.90), Math(3.77), पैरामीटर 21.7M
- rank=32: GSM8K(46.18), Math(7.43), पैरामीटर 43.5M
- rank=64: GSM8K(48.16), Math(8.58), पैरामीटर 87.0M
- rank=128: GSM8K(53.49), Math(10.08), पैरामीटर 174.0M
परिणाम दर्शाते हैं कि प्रदर्शन रैंक के साथ एकरस रूप से बढ़ता है, rank=64 प्रदर्शन-पैरामीटर व्यापार-बंद का अच्छा प्रदान करता है।
- अनुकूलनीय सुधार: PiSSA, LoRA-GA, LoRA+ आदि, मुख्य रूप से आरंभीकरण रणनीति को बदलकर अभिसरण को तेज करते हैं
- दक्षता अनुकूलन: VeRA, ProLoRA, MoS आदि, कम्प्यूटेशनल और मेमोरी ओवरहेड को कम करने पर ध्यान केंद्रित करते हैं
मौजूदा विधियों की तुलना में, MiSS एकल-मैट्रिक्स अनुकूलन रणनीति के माध्यम से प्रदर्शन को बनाए रखते हुए दक्षता में काफी सुधार करता है, PiSSA जैसी विधियों की महंगी आरंभीकरण प्रक्रिया से बचता है, और न ही LoRA-GA जैसी विधियों के लिए अनुकूलक के विशेष आवश्यकताओं की आवश्यकता है।
- एकल-मैट्रिक्स अनुकूलन: साबित करता है कि एकल-मैट्रिक्स अनुकूलन दोहरे-मैट्रिक्स अनुकूलन की तुलना में अनुकूलन जटिलता को कम कर सकता है और अभिसरण को तेज कर सकता है
- प्रभावी व्यापार-बंद: MiSS प्रदर्शन, मेमोरी और कम्प्यूटेशनल दक्षता के तीन आयामों के बीच बेहतर संतुलन प्राप्त करता है
- व्यापक प्रयोज्यता: कई मॉडल आर्किटेक्चर और कार्य प्रकारों पर सुसंगत श्रेष्ठता प्रदर्शित करता है
- सैद्धांतिक विश्लेषण की गहराई: हालांकि जटिलता विश्लेषण प्रदान करता है, लेकिन एकल-मैट्रिक्स अनुकूलन अधिक प्रभावी क्यों है इसके लिए सैद्धांतिक व्याख्या पर्याप्त नहीं है
- हाइपरपैरामीटर संवेदनशीलता: विभिन्न कार्यों और मॉडलों के लिए, रैंक पैरामीटर की इष्टतम पसंद को अतिरिक्त समायोजन की आवश्यकता हो सकती है
- विस्तार तंत्र की सामान्यता: वर्तमान शार्ड विस्तार रणनीति सर्वोत्तम नहीं हो सकती है, अभी भी सुधार की गुंजाइश है
- सैद्धांतिक आधार: एकल-मैट्रिक्स अनुकूलन के सैद्धांतिक आधार का गहन अध्ययन
- स्वचालित रैंक चयन: इष्टतम रैंक को स्वचालित रूप से चुनने के लिए विधियां विकसित करना
- बहु-मोडल विस्तार: MiSS को बहु-मोडल कार्यों तक विस्तारित करना
- मजबूत नवाचार: प्रस्तावित शार्ड-साझाकरण तंत्र एक नई और प्रभावी सोच है
- पर्याप्त प्रयोग: कई मॉडल, डेटासेट और मूल्यांकन आयामों को शामिल करता है, प्रायोगिक डिजाइन उचित है
- उच्च व्यावहारिक मूल्य: प्रदर्शन को बनाए रखते हुए दक्षता में काफी सुधार करता है, बहुत मजबूत व्यावहारिकता है
- व्यापक विश्लेषण: ग्रेडिएंट नॉर्म, जटिलता, Pareto सीमांत आदि कई कोणों से गहन विश्लेषण
- सैद्धांतिक व्याख्या: MiSS एकल-मैट्रिक्स अनुकूलन के तहत अभिव्यक्ति क्षमता को बनाए रखने में सक्षम क्यों है इसके लिए सैद्धांतिक व्याख्या पर्याप्त नहीं है
- बेंचमार्क तुलना: कुछ नवीनतम PEFT विधियों के साथ तुलना की कमी है
- लंबे अनुक्रम प्रदर्शन: लंबे अनुक्रम कार्यों पर प्रदर्शन का पर्याप्त परीक्षण नहीं किया गया है
- शैक्षणिक योगदान: PEFT क्षेत्र को नई डिजाइन सोच प्रदान करता है, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है
- व्यावहारिक मूल्य: विधि सरल और प्रभावी है, कार्यान्वयन और तैनाती में आसान है
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और खुला स्रोत कोड प्रदान करता है
- संसाधन-सीमित वातावरण: विशेष रूप से GPU मेमोरी सीमित परिदृश्यों के लिए उपयुक्त
- बड़े पैमाने पर तैनाती: इसकी उच्च दक्षता के कारण, बड़े पैमाने पर तैनाती की आवश्यकता वाले अनुप्रयोगों के लिए उपयुक्त
- बहु-कार्य शिक्षण: बहु-कार्य शिक्षण में उच्च-दक्षता अनुकूलक के रूप में उपयोग किया जा सकता है
पेपर LoRA, PiSSA, DoRA जैसी महत्वपूर्ण PEFT विधियों और GSM8K, MATH जैसे मानक मूल्यांकन बेंचमार्क का हवाला देता है, जो संबंधित अनुसंधान के लिए व्यापक पृष्ठभूमि और तुलना आधार प्रदान करता है।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला PEFT विधि पेपर है, जो प्रस्तावित MiSS विधि सैद्धांतिक रूप से कुछ नवाचार रखती है, प्रायोगिक सत्यापन पर्याप्त है, और व्यावहारिक मूल्य अधिक है। पेपर का मुख्य योगदान एकल-मैट्रिक्स अनुकूलन के माध्यम से प्रदर्शन-दक्षता का बेहतर संतुलन प्राप्त करना है, जो PEFT क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है।