SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
Zhou, Wang, Xu
In the training of large language models, parameter-efficient techniques such as LoRA optimize memory usage and reduce communication overhead and memory usage during the fine-tuning phase. However, applying such techniques directly during the pre-training phase results in poor performance, primarily because the premature implementation of low-rank training significantly reduces model accuracy. Existing methods like ReLoRA and GaLore have attempted to address this challenge by updating the low-rank subspace. However, they still fall short of achieving the accuracy of full-rank training. Specifically, ReLoRA restricts the frequency of updates to preserve optimizer states consistency, hindering its ability to closely approximate full-rank training behavior. Meanwhile, GaLore relies on Singular Value Decomposition (SVD) to approximate the full-rank space, which introduces accuracy loss during the approximation process. In this paper, we introduce SwitchLoRA, a parameter-efficient training technique that frequently and smoothly replaces the trainable parameters of LoRA adapters with alternative parameters. SwitchLoRA updates the low-rank subspace incrementally, targeting only a few dimensions at a time to minimize the impact on optimizer states. This allows a higher update frequency, thereby enhancing accuracy by enabling the updated parameters to more closely mimic full-rank behavior during the pre-training phase. Our results demonstrate that SwitchLoRA actually surpasses full-rank training, reducing perplexity from 15.23 to 15.01 on the LLaMA 1.3B model, while also cutting communication overhead by 54\% and memory usage by 13\%. Furthermore, after full fine-tuning the SwitchLoRA pre-trained model and the full-rank pre-trained model on the GLUE benchmark, the SwitchLoRA pre-trained model showed an average accuracy gain of about 1\% over the full-rank pre-trained model.
academic
SwitchLoRA: स्विच्ड लो-रैंक एडाप्टेशन पूर्ण-रैंक सूचना सीख सकता है
यह पेपर बड़े भाषा मॉडल के पूर्व-प्रशिक्षण चरण में पैरामीटर-कुशल प्रशिक्षण की चुनौतियों के समाधान के लिए SwitchLoRA विधि प्रस्तावित करता है। पारंपरिक LoRA जैसी निम्न-रैंक अनुकूलन तकनीकें सूक्ष्म-समायोजन चरण में उत्कृष्ट प्रदर्शन करती हैं, लेकिन पूर्व-प्रशिक्षण में सीधे अनुप्रयोग से कार्यक्षमता में महत्वपूर्ण गिरावट आती है। मौजूदा ReLoRA और GaLore विधियाँ निम्न-रैंक उप-स्थान को अद्यतन करके इस समस्या को हल करने का प्रयास करती हैं, लेकिन फिर भी पूर्ण-रैंक प्रशिक्षण की सटीकता तक नहीं पहुँच सकती हैं। SwitchLoRA LoRA अनुकूलकों के प्रशिक्षणीय पैरामीटर को बार-बार और सुचारु रूप से प्रतिस्थापित करके निम्न-रैंक उप-स्थान को वृद्धिशील रूप से अद्यतन करता है, प्रत्येक बार केवल कुछ आयामों को लक्षित करके अनुकूलक स्थिति पर प्रभाव को कम करता है। प्रयोगात्मक परिणाम दर्शाते हैं कि SwitchLoRA LLaMA 1.3B मॉडल पर भ्रम को 15.23 से 15.01 तक कम करता है, पूर्ण-रैंक प्रशिक्षण से आगे निकलता है, साथ ही 54% संचार ओवरहेड और 13% मेमोरी उपयोग में कमी करता है।
Transformer आर्किटेक्चर के उदय के साथ, बड़े भाषा मॉडल का आकार तेजी से बढ़ रहा है, और ट्रिलियन-स्तरीय मॉडल का वितरित प्रशिक्षण नोड्स के बीच विशाल संचार ओवरहेड का सामना कर रहा है। हालांकि LoRA जैसी पैरामीटर-कुशल तकनीकें सूक्ष्म-समायोजन चरण में उत्कृष्ट प्रदर्शन करती हैं, लेकिन पूर्व-प्रशिक्षण चरण में सीधे अनुप्रयोग से महत्वपूर्ण कार्यक्षमता गिरावट आती है।
ReLoRA: अनुकूलक स्थिति की सामंजस्य बनाए रखने के लिए, अद्यतन आवृत्ति को सीमित करता है, पूर्ण-रैंक प्रशिक्षण व्यवहार को पर्याप्त रूप से अनुमानित नहीं कर सकता है
GaLore: पूर्ण-रैंक स्थान को अनुमानित करने के लिए SVD पर निर्भर करता है, अनुमान प्रक्रिया में सटीकता हानि का परिचय देता है
तंत्रिका नेटवर्क प्रशिक्षण के प्रारंभिक चरण में पूर्ण-रैंक विशेषताएँ प्रदर्शित करते हैं, प्रशिक्षण के साथ आंतरिक रैंक क्रमिक रूप से कम होता है। इसलिए एक ऐसी विधि की आवश्यकता है जो पूर्व-प्रशिक्षण चरण में बड़ी संख्या में पैरामीटर को प्रशिक्षित कर सके, साथ ही मेमोरी उपयोग और संचार ओवरहेड को कम करने के लिए चुनिंदा रूप से कुछ पैरामीटर को अद्यतन कर सके।
SwitchLoRA विधि प्रस्तावित करना: LoRA मैट्रिक्स के प्रशिक्षणीय पैरामीटर को बार-बार सुचारु रूप से समायोजित करके, पूर्ण-रैंक प्रशिक्षण सटीकता को बनाए रखते हुए मेमोरी उपयोग और संचार ओवरहेड को कम करना
अनुकूलक स्थिति प्रबंधन रणनीति: पैरामीटर स्विचिंग के समय अनुकूलक स्थिति रीसेट और अस्थायी फ्रीजिंग तंत्र डिजाइन करना, स्थिति असंगति के प्रभाव को कम करना
सुधारी गई आरंभीकरण नियम: LoRA अनुकूलक पैरामीटर और उनके उम्मीदवार वेक्टर के लिए नई आरंभीकरण रणनीति प्रदान करना, प्रशिक्षण दक्षता में सुधार करना
व्यापक प्रयोगात्मक सत्यापन: विभिन्न आकार के LLaMA मॉडल पर विधि की प्रभावशीलता को सत्यापित करना, और GLUE बेंचमार्क परीक्षण के माध्यम से अनुमान क्षमता को सत्यापित करना
पूर्व-प्रशिक्षित मॉडल के वजन मैट्रिक्स W∈Rm×n को देखते हुए, पारंपरिक LoRA इसे W+rαBA में परिवर्तित करता है, जहाँ B∈Rm×r, A∈Rr×n, r≪min(m,n)। SwitchLoRA इसके आधार पर B और A में वेक्टर को गतिशील रूप से स्विच करके प्रभावी रैंक को बढ़ाता है।
250M मॉडल पर, जब ReLoRA 5000 चरणों का पूर्ण-रैंक पूर्व-प्रशिक्षण उपयोग करता है जबकि SwitchLoRA केवल 200 चरणों का उपयोग करता है, तब भी SwitchLoRA बेहतर प्रदर्शन करता है। समान 1000 चरणों के पूर्ण-रैंक पूर्व-प्रशिक्षण की स्थिति में, SwitchLoRA ReLoRA से काफी बेहतर है।
प्रयोग दर्शाते हैं कि प्रारंभिक आवृत्ति और क्षय दर दोनों को उपयुक्त मान पर सेट करने की आवश्यकता है, बहुत अधिक या बहुत कम दोनों ही कार्यक्षमता को कम करते हैं।
प्रारंभिक कार्य SVD जैसी विधियों के माध्यम से वजन मैट्रिक्स के निम्न-रैंक अनुमान को लागू करते हैं, मुख्य रूप से CNN और छोटे भाषा मॉडल में लागू होते हैं।
सैद्धांतिक नवाचार: निम्न-रैंक उप-स्थान को वृद्धिशील रूप से अद्यतन करने का नया विचार प्रस्तावित करता है, पूर्व-प्रशिक्षण चरण में निम्न-रैंक प्रशिक्षण समस्या को प्रभावी ढंग से हल करता है
इंजीनियरिंग कार्यान्वयन: अनुकूलक स्थिति प्रबंधन, मेमोरी अनुकूलन आदि व्यावहारिक समस्याओं पर विस्तार से विचार करता है, बहुत मजबूत व्यावहारिकता है
पर्याप्त प्रयोग: पूर्व-प्रशिक्षण कार्यक्षमता, संसाधन खपत, अनुमान क्षमता आदि सहित कई कोणों से विधि की प्रभावशीलता को सत्यापित करता है
सैद्धांतिक विश्लेषण: वेक्टर अद्यतन स्वतंत्रता, अनुकूलक स्थिति रीसेट की तर्कसंगतता आदि के लिए सैद्धांतिक व्याख्या प्रदान करता है
जटिलता वृद्धि: मानक LoRA की तुलना में कार्यान्वयन जटिलता बढ़ाता है, अतिरिक्त उम्मीदवार वेक्टर प्रबंधन की आवश्यकता है
हाइपरपैरामीटर ट्यूनिंग: कई हाइपरपैरामीटर (स्विचिंग आवृत्ति, क्षय दर, फ्रीजिंग चरण) को सावधानीपूर्वक समायोजित करने की आवश्यकता है
स्केल सत्यापन: हालांकि कई मॉडल आकार का परीक्षण किया गया है, लेकिन सबसे बड़ा केवल 7B तक है, बड़े मॉडल पर प्रयोज्यता अभी सत्यापित होनी बाकी है
सैद्धांतिक पूर्णता: हालांकि कुछ सैद्धांतिक विश्लेषण प्रदान करता है, लेकिन पूर्ण-रैंक प्रशिक्षण से आगे निकलने के कारण की गहन सैद्धांतिक व्याख्या का अभाव है
शैक्षणिक मूल्य: पूर्व-प्रशिक्षण चरण में पैरामीटर-कुशल प्रशिक्षण के लिए नई समस्या-समाधान विचार प्रदान करता है, अधिक संबंधित अनुसंधान को प्रेरित कर सकता है
व्यावहारिक मूल्य: कार्यक्षमता को बनाए रखते हुए संसाधन खपत में महत्वपूर्ण कमी, वास्तविक बड़े मॉडल प्रशिक्षण के लिए महत्वपूर्ण महत्व है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है, पुनरुत्पादन और अनुप्रयोग को सुविधाजनक बनाता है
पेपर बड़ी संख्या में संबंधित कार्यों का उद्धरण करता है, मुख्य रूप से:
Hu et al. 2022: LoRA मूल पेपर
Lialin et al. 2023: ReLoRA विधि
Zhao et al. 2024: GaLore विधि
Vaswani et al. 2017: Transformer आर्किटेक्चर
Rajbhandari et al. 2020: ZeRO अनुकूलक
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है, जो सैद्धांतिक नवाचार, प्रयोगात्मक सत्यापन और व्यावहारिक मूल्य के मामले में उत्कृष्ट प्रदर्शन करता है। SwitchLoRA विधि पूर्व-प्रशिक्षण चरण में निम्न-रैंक प्रशिक्षण समस्या को चतुराई से हल करती है, न केवल प्रशिक्षण प्रभाव को बनाए रखती है, बल्कि संसाधन में महत्वपूर्ण बचत भी प्राप्त करती है। हालांकि कुछ सीमाएँ हैं, लेकिन इसका योगदान इस क्षेत्र के विकास को आगे बढ़ाने के लिए पर्याप्त है।