2025-11-19T14:37:13.961956

SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information

Zhou, Wang, Xu

In the training of large language models, parameter-efficient techniques such as LoRA optimize memory usage and reduce communication overhead and memory usage during the fine-tuning phase. However, applying such techniques directly during the pre-training phase results in poor performance, primarily because the premature implementation of low-rank training significantly reduces model accuracy. Existing methods like ReLoRA and GaLore have attempted to address this challenge by updating the low-rank subspace. However, they still fall short of achieving the accuracy of full-rank training. Specifically, ReLoRA restricts the frequency of updates to preserve optimizer states consistency, hindering its ability to closely approximate full-rank training behavior. Meanwhile, GaLore relies on Singular Value Decomposition (SVD) to approximate the full-rank space, which introduces accuracy loss during the approximation process. In this paper, we introduce SwitchLoRA, a parameter-efficient training technique that frequently and smoothly replaces the trainable parameters of LoRA adapters with alternative parameters. SwitchLoRA updates the low-rank subspace incrementally, targeting only a few dimensions at a time to minimize the impact on optimizer states. This allows a higher update frequency, thereby enhancing accuracy by enabling the updated parameters to more closely mimic full-rank behavior during the pre-training phase. Our results demonstrate that SwitchLoRA actually surpasses full-rank training, reducing perplexity from 15.23 to 15.01 on the LLaMA 1.3B model, while also cutting communication overhead by 54\% and memory usage by 13\%. Furthermore, after full fine-tuning the SwitchLoRA pre-trained model and the full-rank pre-trained model on the GLUE benchmark, the SwitchLoRA pre-trained model showed an average accuracy gain of about 1\% over the full-rank pre-trained model.

academic

SwitchLoRA: स्विच्ड लो-रैंक एडाप्टेशन पूर्ण-रैंक सूचना सीख सकता है

बुनियादी जानकारी

पेपर ID: 2406.06564v3
शीर्षक: SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
लेखक: Kaiye Zhou, Shucheng Wang, Jun Xu (China Mobile (Suzhou) Software Technology Co. Ltd.)
वर्गीकरण: cs.LG, cs.AI, cs.CL
प्रकाशन तिथि: 2 जनवरी 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2406.06564v3

सारांश

यह पेपर बड़े भाषा मॉडल के पूर्व-प्रशिक्षण चरण में पैरामीटर-कुशल प्रशिक्षण की चुनौतियों के समाधान के लिए SwitchLoRA विधि प्रस्तावित करता है। पारंपरिक LoRA जैसी निम्न-रैंक अनुकूलन तकनीकें सूक्ष्म-समायोजन चरण में उत्कृष्ट प्रदर्शन करती हैं, लेकिन पूर्व-प्रशिक्षण में सीधे अनुप्रयोग से कार्यक्षमता में महत्वपूर्ण गिरावट आती है। मौजूदा ReLoRA और GaLore विधियाँ निम्न-रैंक उप-स्थान को अद्यतन करके इस समस्या को हल करने का प्रयास करती हैं, लेकिन फिर भी पूर्ण-रैंक प्रशिक्षण की सटीकता तक नहीं पहुँच सकती हैं। SwitchLoRA LoRA अनुकूलकों के प्रशिक्षणीय पैरामीटर को बार-बार और सुचारु रूप से प्रतिस्थापित करके निम्न-रैंक उप-स्थान को वृद्धिशील रूप से अद्यतन करता है, प्रत्येक बार केवल कुछ आयामों को लक्षित करके अनुकूलक स्थिति पर प्रभाव को कम करता है। प्रयोगात्मक परिणाम दर्शाते हैं कि SwitchLoRA LLaMA 1.3B मॉडल पर भ्रम को 15.23 से 15.01 तक कम करता है, पूर्ण-रैंक प्रशिक्षण से आगे निकलता है, साथ ही 54% संचार ओवरहेड और 13% मेमोरी उपयोग में कमी करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

Transformer आर्किटेक्चर के उदय के साथ, बड़े भाषा मॉडल का आकार तेजी से बढ़ रहा है, और ट्रिलियन-स्तरीय मॉडल का वितरित प्रशिक्षण नोड्स के बीच विशाल संचार ओवरहेड का सामना कर रहा है। हालांकि LoRA जैसी पैरामीटर-कुशल तकनीकें सूक्ष्म-समायोजन चरण में उत्कृष्ट प्रदर्शन करती हैं, लेकिन पूर्व-प्रशिक्षण चरण में सीधे अनुप्रयोग से महत्वपूर्ण कार्यक्षमता गिरावट आती है।

मौजूदा विधियों की सीमाएँ

ReLoRA: अनुकूलक स्थिति की सामंजस्य बनाए रखने के लिए, अद्यतन आवृत्ति को सीमित करता है, पूर्ण-रैंक प्रशिक्षण व्यवहार को पर्याप्त रूप से अनुमानित नहीं कर सकता है
GaLore: पूर्ण-रैंक स्थान को अनुमानित करने के लिए SVD पर निर्भर करता है, अनुमान प्रक्रिया में सटीकता हानि का परिचय देता है

अनुसंधान प्रेरणा

तंत्रिका नेटवर्क प्रशिक्षण के प्रारंभिक चरण में पूर्ण-रैंक विशेषताएँ प्रदर्शित करते हैं, प्रशिक्षण के साथ आंतरिक रैंक क्रमिक रूप से कम होता है। इसलिए एक ऐसी विधि की आवश्यकता है जो पूर्व-प्रशिक्षण चरण में बड़ी संख्या में पैरामीटर को प्रशिक्षित कर सके, साथ ही मेमोरी उपयोग और संचार ओवरहेड को कम करने के लिए चुनिंदा रूप से कुछ पैरामीटर को अद्यतन कर सके।

मुख्य योगदान

SwitchLoRA विधि प्रस्तावित करना: LoRA मैट्रिक्स के प्रशिक्षणीय पैरामीटर को बार-बार सुचारु रूप से समायोजित करके, पूर्ण-रैंक प्रशिक्षण सटीकता को बनाए रखते हुए मेमोरी उपयोग और संचार ओवरहेड को कम करना
अनुकूलक स्थिति प्रबंधन रणनीति: पैरामीटर स्विचिंग के समय अनुकूलक स्थिति रीसेट और अस्थायी फ्रीजिंग तंत्र डिजाइन करना, स्थिति असंगति के प्रभाव को कम करना
सुधारी गई आरंभीकरण नियम: LoRA अनुकूलक पैरामीटर और उनके उम्मीदवार वेक्टर के लिए नई आरंभीकरण रणनीति प्रदान करना, प्रशिक्षण दक्षता में सुधार करना
व्यापक प्रयोगात्मक सत्यापन: विभिन्न आकार के LLaMA मॉडल पर विधि की प्रभावशीलता को सत्यापित करना, और GLUE बेंचमार्क परीक्षण के माध्यम से अनुमान क्षमता को सत्यापित करना

विधि विवरण

कार्य परिभाषा

पूर्व-प्रशिक्षित मॉडल के वजन मैट्रिक्स $W \in \mathbb{R}^{m \times n}$ को देखते हुए, पारंपरिक LoRA इसे $W + \frac{\alpha}{r}BA$ में परिवर्तित करता है, जहाँ $B \in \mathbb{R}^{m \times r}$ , $A \in \mathbb{R}^{r \times n}$ , $r \ll \min(m,n)$ । SwitchLoRA इसके आधार पर B और A में वेक्टर को गतिशील रूप से स्विच करके प्रभावी रैंक को बढ़ाता है।

मॉडल आर्किटेक्चर

मुख्य स्विचिंग तंत्र

वेक्टर अपघटन: मैट्रिक्स B को स्तंभ वेक्टर $b_k \in \mathbb{R}^{m \times 1}$ में अपघटित करना, मैट्रिक्स A को पंक्ति वेक्टर $a_k^T \in \mathbb{R}^{1 \times n}$ में अपघटित करना
उम्मीदवार वेक्टर समूह: उम्मीदवार वेक्टर समूह $C(B)$ और $C(A^T)$ को बनाए रखना, जिसमें $\min(m,n)$ वेक्टर हों
गतिशील प्रतिस्थापन: प्रशिक्षण चरण में, $b_k$ और $a_k$ को उम्मीदवार वेक्टर $b_k' \in C(B)$ और $a_k' \in C(A^T)$ से प्रतिस्थापित करना

वजन समायोजन रणनीति

जब वेक्टर को प्रतिस्थापित किया जाता है, तो संबंधित वजन मैट्रिक्स को समायोजित करें: $W \leftarrow W + b_k a_k^T - b_k' a_k'^T$

स्विचिंग आवृत्ति डिजाइन

घातीय क्षय फ़ंक्शन का उपयोग करें: $frequency = Ce^{-\theta \cdot step}$ , जो मॉडल के पूर्ण-रैंक से निम्न-रैंक तक की प्राकृतिक विकास प्रक्रिया को प्रतिबिंबित करता है।

तकनीकी नवाचार बिंदु

1. अनुकूलक स्थिति प्रभाव को कम करना

जब $a_k$ को स्विच किया जाता है, तो $b_k$ की अनुकूलक स्थिति को रीसेट करें
जब $b_k$ को स्विच किया जाता है, तो $a_k$ की अनुकूलक स्थिति को रीसेट करें
रीसेट के बाद संबंधित पैरामीटर को N चरणों के लिए अस्थायी रूप से फ्रीज करें (N=5)

2. सुधारी गई आरंभीकरण रणनीति

Xavier और Kaiming आरंभीकरण विचार के आधार पर, नया मानक विचलन डिजाइन करें: $std[B] = std[b] = \left(\frac{r}{\sqrt{mn}}\right)^{\frac{1}{4}} gain^{\frac{1}{2}}$ $std[A] = std[a] = \left(\frac{\sqrt{mr}}{\sqrt{nn}}\right)^{\frac{1}{4}} gain^{\frac{1}{2}}$

3. मेमोरी अनुकूलन

बैकअप उम्मीदवार वेक्टर को CPU में स्थानांतरित करें, गैर-अवरुद्ध स्थानांतरण का उपयोग करके स्विचिंग प्रक्रिया को समानांतर में संसाधित करें।

प्रयोगात्मक सेटअप

डेटासेट

पूर्व-प्रशिक्षण: C4 डेटासेट, पहले 46M प्रशिक्षण नमूने और पूर्ण सत्यापन समूह का उपयोग करना
मूल्यांकन: प्रत्येक 1000 चरणों पर 10M टोकन पर सत्यापन हानि का मूल्यांकन करना
सूक्ष्म-समायोजन: GLUE बेंचमार्क परीक्षण के कई कार्य

मॉडल कॉन्फ़िगरेशन

प्रयोग विभिन्न LLaMA मॉडल आकार को कवर करते हैं:

130M (768 आयाम, 12 हेड, 12 परत)
250M (768 आयाम, 16 हेड, 24 परत)
350M (1024 आयाम, 16 हेड, 24 परत)
1.3B (2048 आयाम, 32 हेड, 24 परत)

मूल्यांकन मेट्रिक्स

पूर्व-प्रशिक्षण: भ्रम (Perplexity)
सूक्ष्म-समायोजन: सटीकता, पीयर्सन सहसंबंध गुणांक, मैथ्यूज सहसंबंध गुणांक

तुलना विधियाँ

पूर्ण-रैंक प्रशिक्षण
मानक LoRA
ReLoRA
GaLore

कार्यान्वयन विवरण

अनुकूलक: Adam (β₁=0.9, β₂=0.999)
सीखने की दर अनुसूची: कोसाइन एनीलिंग, 100 चरण वार्मअप
कुल प्रशिक्षण चरण: 40,000 चरण
हार्डवेयर: 8×NVIDIA A800 80GB PCIe GPU

प्रयोगात्मक परिणाम

मुख्य परिणाम

पूर्व-प्रशिक्षण कार्यक्षमता तुलना

1.3B मॉडल पर भ्रम परिणाम:

पूर्ण-रैंक: 15.23
SwitchLoRA (rank=512): 15.01 (पूर्ण-रैंक प्रशिक्षण से आगे)
SwitchLoRA (rank=256): 15.89

संसाधन खपत तुलना

1.3B मॉडल के उदाहरण के रूप में:

मेमोरी उपयोग: पूर्ण-रैंक प्रशिक्षण की तुलना में 13% कम (36.1GB → 31.9GB)
संचार ओवरहेड: 54% कम (प्रशिक्षणीय पैरामीटर 1339M से 610M तक)
प्रशिक्षण समय: मूलतः समान (21.6s vs 22.5s)

मौजूदा विधियों के साथ तुलना

vs ReLoRA

250M मॉडल पर, जब ReLoRA 5000 चरणों का पूर्ण-रैंक पूर्व-प्रशिक्षण उपयोग करता है जबकि SwitchLoRA केवल 200 चरणों का उपयोग करता है, तब भी SwitchLoRA बेहतर प्रदर्शन करता है। समान 1000 चरणों के पूर्ण-रैंक पूर्व-प्रशिक्षण की स्थिति में, SwitchLoRA ReLoRA से काफी बेहतर है।

vs GaLore

350M मॉडल पर:

GaLore: 20.29 भ्रम
SwitchLoRA: 19.58 भ्रम

निम्न-रैंक सेटिंग में, SwitchLoRA का लाभ अधिक स्पष्ट है, जो सभी अद्यतन दिशाओं को कवर करने के महत्व को प्रमाणित करता है।

विलोपन प्रयोग

स्विचिंग आवृत्ति प्रभाव

प्रयोग दर्शाते हैं कि प्रारंभिक आवृत्ति और क्षय दर दोनों को उपयुक्त मान पर सेट करने की आवश्यकता है, बहुत अधिक या बहुत कम दोनों ही कार्यक्षमता को कम करते हैं।

फ्रीजिंग चरण प्रभाव

फ्रीजिंग चरणों की संख्या N की पसंद प्रशिक्षण प्रभाव को प्रभावित करती है, N=5 सर्वोत्तम सेटिंग है।

आरंभीकरण रणनीति सत्यापन

नई आरंभीकरण विधि पारंपरिक LoRA आरंभीकरण की तुलना में अभिसरण गति में महत्वपूर्ण सुधार करती है।

अनुमान क्षमता सत्यापन

GLUE बेंचमार्क परीक्षण परिणाम

350M मॉडल पर:

SwitchLoRA पूर्व-प्रशिक्षित मॉडल GaLore पूर्व-प्रशिक्षित मॉडल से औसतन 3.0 अंक अधिक है
पूर्ण-रैंक पूर्व-प्रशिक्षित मॉडल से औसतन 0.3 अंक अधिक है

1.3B मॉडल पर:

SwitchLoRA पूर्व-प्रशिक्षित मॉडल पूर्ण-रैंक पूर्व-प्रशिक्षित मॉडल से औसतन लगभग 1.0 अंक अधिक है

प्रयोगात्मक निष्कर्ष

रैंक वितरण विश्लेषण: SwitchLoRA का विलक्षण मान वितरण पूर्ण-रैंक प्रशिक्षण के करीब है, जबकि मानक LoRA रोग-ग्रस्त वितरण दिखाता है
स्केल प्रभाव: मॉडल आकार बढ़ने के साथ, SwitchLoRA का मानक LoRA के सापेक्ष लाभ अधिक स्पष्ट हो जाता है
सामान्यीकरण क्षमता: SwitchLoRA द्वारा पूर्व-प्रशिक्षित मॉडल डाउनस्ट्रीम कार्यों पर अधिक मजबूत अनुमान और सामान्यीकरण क्षमता प्रदर्शित करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

कार्यक्षमता सफलता: SwitchLoRA पहली बार पूर्व-प्रशिक्षण चरण में पूर्ण-रैंक प्रशिक्षण से आगे की कार्यक्षमता को प्राप्त करता है
संसाधन दक्षता: मेमोरी उपयोग और संचार ओवरहेड में महत्वपूर्ण कमी, साथ ही समान प्रशिक्षण समय को बनाए रखना
सामान्यीकरण वृद्धि: पूर्व-प्रशिक्षित मॉडल डाउनस्ट्रीम कार्यों पर अधिक मजबूत अनुमान क्षमता प्रदर्शित करते हैं

सीमाएँ

हाइपरपैरामीटर संवेदनशीलता: स्विचिंग आवृत्ति जैसे हाइपरपैरामीटर को सावधानीपूर्वक समायोजित करने की आवश्यकता है
रैंक चयन: पूर्ण-रैंक प्रशिक्षण की सटीकता तक पहुँचने के लिए अभी भी काफी बड़े LoRA रैंक की आवश्यकता है
उम्मीदवार वेक्टर चयन: वर्तमान में यादृच्छिक या क्रमिक चयन का उपयोग करता है, अनुकूलन के लिए गुंजाइश हो सकती है

भविष्य की दिशाएँ

अनुकूली आवृत्ति: अधिक बुद्धिमान स्विचिंग आवृत्ति समायोजन रणनीति विकसित करना
परत-स्तरीय अनुकूलन: विभिन्न प्रकार की परतों (Q, K, V मैट्रिक्स) के लिए विभेदीकृत स्विचिंग रणनीति डिजाइन करना
उम्मीदवार वेक्टर अनुकूलन: अधिक प्रभावी उम्मीदवार वेक्टर चयन और अद्यतन रणनीति का अनुसंधान करना

गहन मूल्यांकन

शक्तियाँ

सैद्धांतिक नवाचार: निम्न-रैंक उप-स्थान को वृद्धिशील रूप से अद्यतन करने का नया विचार प्रस्तावित करता है, पूर्व-प्रशिक्षण चरण में निम्न-रैंक प्रशिक्षण समस्या को प्रभावी ढंग से हल करता है
इंजीनियरिंग कार्यान्वयन: अनुकूलक स्थिति प्रबंधन, मेमोरी अनुकूलन आदि व्यावहारिक समस्याओं पर विस्तार से विचार करता है, बहुत मजबूत व्यावहारिकता है
पर्याप्त प्रयोग: पूर्व-प्रशिक्षण कार्यक्षमता, संसाधन खपत, अनुमान क्षमता आदि सहित कई कोणों से विधि की प्रभावशीलता को सत्यापित करता है
सैद्धांतिक विश्लेषण: वेक्टर अद्यतन स्वतंत्रता, अनुकूलक स्थिति रीसेट की तर्कसंगतता आदि के लिए सैद्धांतिक व्याख्या प्रदान करता है

कमियाँ

जटिलता वृद्धि: मानक LoRA की तुलना में कार्यान्वयन जटिलता बढ़ाता है, अतिरिक्त उम्मीदवार वेक्टर प्रबंधन की आवश्यकता है
हाइपरपैरामीटर ट्यूनिंग: कई हाइपरपैरामीटर (स्विचिंग आवृत्ति, क्षय दर, फ्रीजिंग चरण) को सावधानीपूर्वक समायोजित करने की आवश्यकता है
स्केल सत्यापन: हालांकि कई मॉडल आकार का परीक्षण किया गया है, लेकिन सबसे बड़ा केवल 7B तक है, बड़े मॉडल पर प्रयोज्यता अभी सत्यापित होनी बाकी है
सैद्धांतिक पूर्णता: हालांकि कुछ सैद्धांतिक विश्लेषण प्रदान करता है, लेकिन पूर्ण-रैंक प्रशिक्षण से आगे निकलने के कारण की गहन सैद्धांतिक व्याख्या का अभाव है

प्रभाव

शैक्षणिक मूल्य: पूर्व-प्रशिक्षण चरण में पैरामीटर-कुशल प्रशिक्षण के लिए नई समस्या-समाधान विचार प्रदान करता है, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है
व्यावहारिक मूल्य: कार्यक्षमता को बनाए रखते हुए संसाधन खपत में महत्वपूर्ण कमी, वास्तविक बड़े मॉडल प्रशिक्षण के लिए महत्वपूर्ण महत्व है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है, पुनरुत्पादन और अनुप्रयोग को सुविधाजनक बनाता है

प्रयोज्य परिस्थितियाँ

बड़े मॉडल पूर्व-प्रशिक्षण: विशेष रूप से संसाधन-सीमित लेकिन उच्च-गुणवत्ता पूर्व-प्रशिक्षण की आवश्यकता वाली परिस्थितियों के लिए उपयुक्त
वितरित प्रशिक्षण: बहु-नोड प्रशिक्षण में संचार ओवरहेड में महत्वपूर्ण कमी कर सकता है
वृद्धिशील प्रशिक्षण: पूर्व-प्रशिक्षण के आधार पर निरंतर प्रशिक्षण की आवश्यकता वाली परिस्थितियों के लिए उपयुक्त

संदर्भ

पेपर बड़ी संख्या में संबंधित कार्यों का उद्धरण करता है, मुख्य रूप से:

Hu et al. 2022: LoRA मूल पेपर
Lialin et al. 2023: ReLoRA विधि
Zhao et al. 2024: GaLore विधि
Vaswani et al. 2017: Transformer आर्किटेक्चर
Rajbhandari et al. 2020: ZeRO अनुकूलक

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है, जो सैद्धांतिक नवाचार, प्रयोगात्मक सत्यापन और व्यावहारिक मूल्य के मामले में उत्कृष्ट प्रदर्शन करता है। SwitchLoRA विधि पूर्व-प्रशिक्षण चरण में निम्न-रैंक प्रशिक्षण समस्या को चतुराई से हल करती है, न केवल प्रशिक्षण प्रभाव को बनाए रखती है, बल्कि संसाधन में महत्वपूर्ण बचत भी प्राप्त करती है। हालांकि कुछ सीमाएँ हैं, लेकिन इसका योगदान इस क्षेत्र के विकास को आगे बढ़ाने के लिए पर्याप्त है।