बड़े भाषा मॉडल (LLMs) के आकार में निरंतर वृद्धि के साथ, कार्य-विशिष्ट सूक्ष्म-ट्यूनिंग के लिए कम्प्यूटेशनल ओवरहेड मुख्य बाधा बन गया है। यद्यपि निम्न-रैंक अनुकूलन (LoRA) वजन अपडेट को निम्न-आयामी उप-स्थान तक सीमित करके लागत को प्रभावी ढंग से कम करता है, यह प्रतिबंध प्रदर्शन में बाधा डालता है और अभिसरण को धीमा करता है। यह अनुसंधान क्रमिक रूप से संचित क्रमिक निम्न-रैंक वृद्धि को उच्च-रैंक वजन अपडेट बनाने के लिए इन सीमाओं को संबोधित करता है। विशेष रूप से, हानि फ़ंक्शन को कम करने और पूर्ण-पैरामीटर सूक्ष्म-ट्यूनिंग को निकटता से अनुमानित करने के लिए प्रत्येक अपडेट के लिए इष्टतम निम्न-रैंक मैट्रिक्स की पहचान की जाती है। पुनरारंभ के बिना कुशल और निर्बाध अनुकूलन प्राप्त करने के लिए, यह इष्टतम चयन मूल निम्न-रैंक मैट्रिक्स के स्तंभों को उपयुक्त रूप से स्केल करके बनाया जाता है। कठोर प्रदर्शन गारंटी दर्शाती है कि इष्टतम स्केलिंग विश्लेषणात्मक विधि के माध्यम से पाया जा सकता है। 120 बिलियन पैरामीटर तक के लोकप्रिय LLMs पर किए गए व्यापक संख्यात्मक परीक्षण से पता चलता है कि यह विधि अत्याधुनिक LoRA वेरिएंट के सापेक्ष प्राकृतिक भाषा समझ, सामान्य ज्ञान तर्क और गणितीय समस्या समाधान जैसे विविध कार्यों पर सुसंगत प्रदर्शन सुधार और तीव्र अभिसरण प्राप्त करती है।
बड़े भाषा मॉडल के आकार में तीव्र वृद्धि के साथ, पारंपरिक पूर्ण-पैरामीटर सूक्ष्म-ट्यूनिंग विधि इसके विशाल कम्प्यूटेशनल बोझ के कारण तेजी से अव्यावहारिक हो गई है। उदाहरण के लिए, यहां तक कि Llama 4 Scout के न्यूनतम वेरिएंट में भी 109 बिलियन पैरामीटर हैं, और आधी-सटीकता का उपयोग करते हुए भी, पूर्ण-पैरामीटर सूक्ष्म-ट्यूनिंग के लिए 1TB से अधिक GPU मेमोरी और पर्याप्त समय की आवश्यकता होती है।
यह पेपर गतिशील रूप से इष्टतम निम्न-रैंक अनुकूलक की पहचान करके LoRA की सीमाओं को दूर करने का लक्ष्य रखता है, क्रमिक निम्न-रैंक वृद्धि को स्टैक करके उच्च-रैंक वजन अपडेट बनाते हुए कम्प्यूटेशनल दक्षता बनाए रखता है।
बड़े मॉडल के सामान्य वजन मैट्रिक्स पर विचार करें, LoRA इसे में विघटित करता है, जहां जमे हुए पूर्व-प्रशिक्षण वजन हैं, सीखने योग्य सूक्ष्म-ट्यूनिंग अपडेट है, , , और ।
LoRA के विपरीत जो पर निश्चित है, ScaLoRA का मुख्य विचार प्रत्येक पुनरावृत्ति पर "इष्टतम" निम्न-रैंक अनुकूलक को गतिशील रूप से पहचानना है, हानि में कमी को अधिकतम करना:
प्रमेय 1 (इष्टतम शर्तें): SVD पर विचार करें, यदि और Lipschitz समरूपता धारणा को संतुष्ट करता है, तो हानि ऊपरी सीमा को कम करता है यदि और केवल यदि:
जहां , , ।
SVD के कम्प्यूटेशनल ओवरहेड से बचने के लिए, ScaLoRA को , तक सीमित करता है।
प्रमेय 3 (अदिश स्केलिंग इष्टतम समाधान): धारणा 1-2 के तहत, उद्देश्य फ़ंक्शन का वैश्विक न्यूनतम निम्नलिखित द्वारा दिया जाता है:
\left(\pm\frac{\|A_t^T\nabla\ell(W_t)\|_F}{\sqrt{L\eta\|A_tA_t^T\nabla\ell(W_t)\|_F}}, 0\right) & \text{यदि } C_t^A > 0, C_t^B \leq 0 \\ \left(0, \pm\frac{\|\nabla\ell(W_t)B_t\|_F}{\sqrt{L\eta\|\nabla\ell(W_t)B_tB_t^T\|_F}}\right) & \text{यदि } C_t^A \leq 0, C_t^B > 0 \\ \left(\pm\sqrt{\frac{C_t^A}{L\eta C_t}}, \pm\sqrt{\frac{C_t^B}{L\eta C_t}}\right) & \text{यदि } C_t^A \geq 0, C_t^B \geq 0, C_t > 0 \end{cases}$$ ### स्तंभ स्केलिंग का इष्टतम समाधान फिटिंग क्षमता में सुधार के लिए, ScaLoRA आगे स्तंभ स्केलिंग पर विचार करता है $\tilde{A}_t = A_t\text{diag}(\alpha_t)$, $\tilde{B}_t = B_t\text{diag}(\beta_t)$। **प्रमेय 5 (स्तंभ स्केलिंग इष्टतम समाधान)**: यदि रैखिक समीकरण प्रणाली $[(S_t^{A\top}S_t^A) \odot (S_t^{B\top}S_t^B)]v_t = \lambda_t$ का गैर-नकारात्मक समाधान $v_t \in \mathbb{R}_+^{2r}$ है, तो वैश्विक न्यूनतम है: $$\begin{bmatrix} \alpha_t^* \\ \beta_t^* \end{bmatrix} = \pm\frac{1}{\sqrt{L\eta}}v_t^{\circ\frac{1}{2}}$$ ### ScaLoRA एल्गोरिदम प्रवाह ScaLoRA मिश्रित स्केलिंग रणनीति अपनाता है: 1. जब रैखिक प्रणाली का सकारात्मक समाधान हो, तो स्तंभ स्केलिंग का उपयोग करें 2. अन्यथा, अदिश स्केलिंग का उपयोग करें 3. संबंधित लेम्मा के अनुसार मैट्रिक्स अनुमानक को अपडेट करें ### जटिलता विश्लेषण - **समय जटिलता**: $O(mnr + (m+n+r)r^2)$ - **स्थान जटिलता**: $O((m+n+r)r)$ - **ScaLoRA-I वेरिएंट**: प्रत्येक I पुनरावृत्ति पर निष्पादित, समय जटिलता परिशोधित $O((mnr+(m+n+r)r^2)/I)$ ## प्रायोगिक सेटअप ### डेटासेट 1. **GLUE बेंचमार्क**: 8 प्राकृतिक भाषा समझ कार्य 2. **सामान्य ज्ञान तर्क**: BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-easy, ARC-challenge, OpenBookQA 3. **गणितीय समस्या समाधान**: MetaMathQA (प्रशिक्षण), GSM8K और MATH (परीक्षण) ### मॉडल - **DeBERTaV3-base** (184M पैरामीटर): GLUE कार्यों के लिए - **LLaMA-2-7B** और **LLaMA-3-8B**: सामान्य ज्ञान तर्क के लिए - **Gemma-3-12B-pt**: गणितीय समस्या समाधान के लिए ### तुलनात्मक विधियां - LoRA (आधारभूत) - MoRA: उच्च-रैंक अपडेट वेरिएंट - HiRA: Hadamard उच्च-रैंक अनुकूलन - LoRA (r=32): उच्च-रैंक LoRA ऊपरी सीमा के रूप में ### प्रायोगिक कॉन्फ़िगरेशन - LoRA रैंक: r=4 (GLUE), r=8 (सामान्य ज्ञान तर्क और गणित) - अनुकूलक: AdamW - सीखने की दर: ग्रिड खोज के माध्यम से चयनित - मूल्यांकन मेट्रिक्स: सटीकता, F1 स्कोर, Matthews सहसंबंध गुणांक आदि ## प्रायोगिक परिणाम ### GLUE बेंचमार्क परीक्षण परिणाम DeBERTaV3-base पर परिणाम दर्शाते हैं: - ScaLoRA 8 कार्यों में से 7 पर सर्वोत्तम प्रदर्शन प्राप्त करता है - औसत प्रदर्शन में 0.5%+ सुधार - RTE कार्य पर 87.61±0.34 की सटीकता प्राप्त करता है, अन्य विधियों से महत्वपूर्ण रूप से बेहतर ### सामान्य ज्ञान तर्क परिणाम **LLaMA-2-7B**: - ScaLoRA: 74.51% (औसत) - ScaLoRA-I: 74.75% (औसत) - LoRA: 73.63% (औसत) - प्रदर्शन में लगभग 1% सुधार **LLaMA-3-8B**: - ScaLoRA: 77.85% (औसत) - ScaLoRA-I: 77.57% (औसत) - LoRA: 76.83% (औसत) - LoRA (r=32) के 77.54% को भी पार करता है ### गणितीय समस्या समाधान परिणाम Gemma-3-12B पर: - **GSM8K**: ScaLoRA-I (82.11%) बनाम LoRA (81.20%) - **MATH**: ScaLoRA-I (37.96%) बनाम LoRA (37.20%) ### कम्प्यूटेशनल ओवरहेड विश्लेषण LLaMA-3-8B के ओवरहेड की तुलना: - **समय ओवरहेड**: ScaLoRA LoRA की तुलना में लगभग 50% अधिक, लेकिन ScaLoRA-I ओवरहेड नगण्य है - **मेमोरी ओवरहेड**: ScaLoRA केवल 0.01GB बढ़ाता है, HiRA के 7.83GB से बहुत कम ### मुख्य निष्कर्ष 1. **रैंक वृद्धि**: ScaLoRA क्रमिक रूप से वजन अपडेट की रैंक को प्रारंभिक 4 से औसत 54 तक बढ़ाता है 2. **अभिसरण गति**: ScaLoRA vanilla LoRA की तुलना में स्पष्ट रूप से तेजी से अभिसरण करता है 3. **शर्त संतुष्टि दर**: लगभग 80% LoRA परतें स्तंभ स्केलिंग की गैर-नकारात्मक शर्तों को संतुष्ट करती हैं ## संबंधित कार्य ### LoRA वेरिएंट - **DoRA**: वजन को आयाम और दिशा घटकों में विघटित करता है - **QLoRA**: कम्प्यूटेशनल लागत को और कम करने के लिए पूर्व-प्रशिक्षण वजन को परिमाणित करता है - **FourierFT**: निम्न-रैंक मैट्रिक्स को वर्णक्रमीय गुणांक से बदलता है - **Flora**: यादृच्छिक प्रक्षेपण एन्कोडिंग और डिकोडिंग वजन ढाल का उपयोग करता है ### उच्च-रैंक अपडेट विधियां - **ReLoRA**: क्रमिक निम्न-रैंक अनुकूलक लेकिन अनुकूलन को पुनरारंभ करने की आवश्यकता है - **MoRA**: रैखिक मैट्रिक्स गुणन को गैर-रैखिक मैपिंग से बदलता है - **HiRA**: वजन अपडेट को निम्न-रैंक मैट्रिक्स और पूर्व-प्रशिक्षण वजन के Hadamard गुणनफल के रूप में पैरामीटराइज़ करता है ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. ScaLoRA गतिशील इष्टतम स्केलिंग के माध्यम से सफलतापूर्वक उच्च-रैंक वजन अपडेट प्राप्त करता है 2. सैद्धांतिक विश्लेषण विश्लेषणात्मक रूप में इष्टतम समाधान प्रदान करता है 3. प्रयोग विविध कार्यों पर सुसंगत प्रदर्शन सुधार और तीव्र अभिसरण को साबित करते हैं ### सीमाएं 1. **कम्प्यूटेशनल ओवरहेड**: LoRA की तुलना में लगभग 50% अधिक कम्प्यूटेशनल समय 2. **भंडारण आवश्यकताएं**: केवल निम्न-आयामी अनुकूलक के बजाय पूर्ण वजन मैट्रिक्स को संग्रहीत करने की आवश्यकता है 3. **स्केलेबिलिटी**: मॉडल आकार में वृद्धि के साथ, कम्प्यूटेशनल लागत स्केलेबिलिटी को सीमित करती है ### भविष्य की दिशाएं 1. कम्प्यूटेशनल दक्षता को और अनुकूलित करना 2. अधिक कुशल उच्च-रैंक अपडेट रणनीतियों की खोज करना 3. बड़े पैमाने के मॉडल तक विस्तार करना ## गहन मूल्यांकन ### शक्तियां 1. **सैद्धांतिक कठोरता**: पूर्ण गणितीय विश्लेषण और प्रमाण प्रदान करता है 2. **विधि नवाचार**: SVD के कम्प्यूटेशनल ओवरहेड से बचने के लिए स्केलिंग के माध्यम से चतुराई से 3. **व्यापक प्रयोग**: विविध कार्यों और मॉडल आकारों को शामिल करता है 4. **व्यावहारिक मूल्य**: ScaLoRA-I वेरिएंट प्रदर्शन और दक्षता को संतुलित करता है ### कमियां 1. **कम्प्यूटेशनल ओवरहेड**: अभी भी मूल LoRA की तुलना में महत्वपूर्ण कम्प्यूटेशनल वृद्धि है 2. **भंडारण सीमाएं**: पूर्ण वजन मैट्रिक्स का भंडारण एक बाधा बन सकता है 3. **सैद्धांतिक धारणाएं**: कुछ धारणाएं व्यावहारिक अनुप्रयोग में पूरी तरह से संतुष्ट नहीं हो सकती हैं ### प्रभाव 1. **शैक्षणिक योगदान**: पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग के लिए नया सैद्धांतिक ढांचा प्रदान करता है 2. **व्यावहारिक मूल्य**: दक्षता बनाए रखते हुए प्रदर्शन में महत्वपूर्ण सुधार 3. **पुनरुत्पादनीयता**: पूर्ण एल्गोरिदम और कार्यान्वयन विवरण प्रदान करता है ### लागू परिदृश्य 1. उच्च-गुणवत्ता सूक्ष्म-ट्यूनिंग की आवश्यकता है लेकिन कम्प्यूटेशनल संसाधन सीमित हैं 2. अभिसरण गति के लिए उच्च आवश्यकताओं वाले अनुप्रयोग 3. मध्यम आकार के मॉडल की कुशल सूक्ष्म-ट्यूनिंग ## संदर्भ पेपर ने 62 संबंधित संदर्भों का हवाला दिया है, जिसमें LoRA और इसके वेरिएंट, पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग, बड़े भाषा मॉडल आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं। --- **सारांश**: ScaLoRA सैद्धांतिक और व्यावहारिक दोनों दृष्टिकोण से महत्वपूर्ण योगदान वाला कार्य है, जो LoRA की मुख्य सीमाओं को चतुर गणितीय विश्लेषण के माध्यम से हल करता है, कम्प्यूटेशनल दक्षता बनाए रखते हुए महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है। यह विधि बड़े भाषा मॉडल की पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग के लिए नए विचार और उपकरण प्रदान करती है।