2025-11-11T15:58:09.452987

ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning

Zhang, Yang, Cai et al.

As large language models (LLMs) continue to scale in size, the computational overhead has become a major bottleneck for task-specific fine-tuning. While low-rank adaptation (LoRA) effectively curtails this cost by confining the weight updates to a low-dimensional subspace, such a restriction can hinder effectiveness and slow convergence. This contribution deals with these limitations by accumulating progressively a high-rank weight update from consecutive low-rank increments. Specifically, the per update optimal low-rank matrix is identified to minimize the loss function and closely approximate full fine-tuning. To endow efficient and seamless optimization without restarting, this optimal choice is formed by appropriately scaling the columns of the original low-rank matrix. Rigorous performance guarantees reveal that the optimal scaling can be found analytically. Extensive numerical tests with popular LLMs scaling up to 12 billion parameters demonstrate a consistent performance gain and fast convergence relative to state-of-the-art LoRA variants on diverse tasks including natural language understanding, commonsense reasoning, and mathematical problem solving.

academic

ScaLoRA: দক্ষ উচ্চ-র‍্যাঙ্ক সূক্ষ্ম-সুরক্ষার জন্য সর্বোত্তমভাবে স্কেল করা নিম্ন-র‍্যাঙ্ক অভিযোজন

মৌলিক তথ্য

পেপার আইডি: 2510.23818
শিরোনাম: ScaLoRA: দক্ষ উচ্চ-র‍্যাঙ্ক সূক্ষ্ম-সুরক্ষার জন্য সর্বোত্তমভাবে স্কেল করা নিম্ন-র‍্যাঙ্ক অভিযোজন
লেখক: Yilang Zhang, Xiaodong Yang, Yiwei Cai, Georgios B. Giannakis
প্রতিষ্ঠান: মিনেসোটা বিশ্ববিদ্যালয় - টুইন সিটিজ, ভিসা গবেষণা
শ্রেণীবিভাগ: cs.LG
জমা দেওয়ার সময়: ২৭ অক্টোবর ২০২৫
পেপার লিঙ্ক: https://arxiv.org/abs/2510.23818v1

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) এর আকার ক্রমাগত বৃদ্ধির সাথে সাথে, গণনামূলক খরচ কাজ-নির্দিষ্ট সূক্ষ্ম-সুরক্ষার প্রধান বাধা হয়ে উঠেছে। যদিও নিম্ন-র‍্যাঙ্ক অভিযোজন (LoRA) ওজন আপডেটগুলিকে নিম্ন-মাত্রিক সাবস্পেসে সীমাবদ্ধ করে খরচ কার্যকরভাবে হ্রাস করে, এই সীমাবদ্ধতা কর্মক্ষমতা বাধাগ্রস্ত করে এবং সংমিশ্রণ গতি হ্রাস করে। এই গবেষণা ক্রমাগত নিম্ন-র‍্যাঙ্ক বৃদ্ধি ক্রমান্বয়ে জমা করে উচ্চ-র‍্যাঙ্ক ওজন আপডেট গঠন করে এই সীমাবদ্ধতাগুলি সমাধান করে। নির্দিষ্টভাবে, প্রতিটি আপডেটের সর্বোত্তম নিম্ন-র‍্যাঙ্ক ম্যাট্রিক্স চিহ্নিত করে ক্ষতি ফাংশন ন্যূনতম করে এবং সম্পূর্ণ সূক্ষ্ম-সুরক্ষা ঘনিষ্ঠভাবে অনুমান করে। দক্ষ এবং নির্বিঘ্ন অপ্টিমাইজেশন অর্জনের জন্য পুনরায় শুরু না করে, এই সর্বোত্তম নির্বাচন মূল নিম্ন-র‍্যাঙ্ক ম্যাট্রিক্সের কলামগুলিকে যথাযথভাবে স্কেল করে গঠিত হয়। কঠোর কর্মক্ষমতা গ্যারান্টি নির্দেশ করে যে সর্বোত্তম স্কেলিং বিশ্লেষণাত্মক পদ্ধতির মাধ্যমে পাওয়া যায়। ১২০ বিলিয়ন পর্যন্ত পরামিতি সহ জনপ্রিয় LLMs এ পরিচালিত ব্যাপক সংখ্যাগত পরীক্ষা নির্দেশ করে যে পদ্ধতিটি অত্যাধুনিক LoRA বৈকল্পিকগুলির তুলনায় প্রাকৃতিক ভাষা বোঝা, সাধারণ জ্ঞান যুক্তি এবং গাণিতিক সমস্যা সমাধান সহ বৈচিত্র্যময় কাজগুলিতে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি এবং দ্রুত সংমিশ্রণ অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বৃহৎ ভাষা মডেলের আকার দ্রুত বৃদ্ধির সাথে সাথে, ঐতিহ্যবাহী সম্পূর্ণ সূক্ষ্ম-সুরক্ষা পদ্ধতি এর বিশাল গণনামূলক বোঝার কারণে ক্রমবর্ধমান অসম্ভব হয়ে উঠছে। উদাহরণস্বরূপ, এমনকি Llama 4 Scout এর ক্ষুদ্রতম বৈকল্পিকও ১০৯০ বিলিয়ন পরামিতি অন্তর্ভুক্ত করে, এবং অর্ধ-নির্ভুলতা ব্যবহার করলেও সম্পূর্ণ সূক্ষ্ম-সুরক্ষা ১TB এর বেশি GPU মেমরি এবং উল্লেখযোগ্য সময় প্রয়োজন।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

LoRA এর সীমাবদ্ধতা: যদিও LoRA ওজন আপডেটগুলিকে দুটি উচ্চ-পাতলা ম্যাট্রিক্সের বাহ্যিক পণ্য হিসাবে প্যারামিটারাইজ করে গণনামূলক খরচ কার্যকরভাবে হ্রাস করে, এর স্থির নিম্ন-মাত্রিক সাবস্পেস সীমাবদ্ধতা কর্মক্ষমতা হ্রাস এবং ধীর সংমিশ্রণের দিকে পরিচালিত করে।
উচ্চ-র‍্যাঙ্ক আপডেটের চ্যালেঞ্জ: ReLoRA এর মতো বিদ্যমান উচ্চ-র‍্যাঙ্ক আপডেট পদ্ধতি অপ্টিমাইজেশন পুনরায় শুরু করার প্রয়োজন, MoRA সাবধানে ডিজাইন করা অ-রৈখিক ম্যাপিং প্রয়োজন, HiRA এর Hadamard পণ্য অপারেশন উচ্চ জটিলতা।

গবেষণা প্রেরণা

এই পত্রটি LoRA এর সীমাবদ্ধতা অতিক্রম করার লক্ষ্য রাখে গতিশীলভাবে সর্বোত্তম নিম্ন-র‍্যাঙ্ক অভিযোজক চিহ্নিত করে, ক্রমাগত নিম্ন-র‍্যাঙ্ক বৃদ্ধি স্ট্যাক করে উচ্চ-র‍্যাঙ্ক ওজন আপডেট গঠন করে, গণনামূলক দক্ষতা বজায় রেখে।

মূল অবদান

তাত্ত্বিক বিশ্লেষণ: সর্বোত্তম নিম্ন-র‍্যাঙ্ক অভিযোজকের প্রয়োজনীয় এবং যথেষ্ট শর্ত প্রমাণ করে, ছাঁটা SVD প্রয়োজনীয় শর্ত প্রতিষ্ঠা করে, কিন্তু এর গণনামূলক খরচ নির্দেশ করে।
ScaLoRA পদ্ধতি: কলাম স্কেলিং রূপান্তরের মাধ্যমে নতুন অভিযোজক সীমাবদ্ধ করার পদ্ধতি প্রস্তাব করে, বিশ্লেষণাত্মক রূপে বৈশ্বিক সর্বোত্তম অভিযোজক এবং পরিচালনাযোগ্য ম্যাট্রিক্স অনুমানকারী চিহ্নিত করে।
পরীক্ষামূলক যাচাইকরণ: DeBERTaV3-base, LLaMA-2-7B, LLaMA-3-8B এবং Gemma-3-12B-pt এর মতো মডেলগুলিতে ব্যাপক পরীক্ষা পরিচালনা করে, তাত্ত্বিক বিশ্লেষণ যাচাই করে এবং ScaLoRA এর উচ্চতর কর্মক্ষমতা এবং ত্বরিত সংমিশ্রণ নিশ্চিত করে।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

একটি সাধারণ মডেল ওজন ম্যাট্রিক্স $W \in \mathbb{R}^{m \times n}$ বিবেচনা করুন, LoRA এটিকে $W = W^{pt} + W^{ft}$ এ বিয়োজিত করে, যেখানে $W^{pt}$ হল হিমায়িত প্রশিক্ষণ-পূর্ব ওজন, $W^{ft} := AB^T$ হল শেখার যোগ্য সূক্ষ্ম-সুরক্ষা আপডেট, $A \in \mathbb{R}^{m \times r}$ , $B \in \mathbb{R}^{n \times r}$ , এবং $r \ll m,n$ ।

মূল ধারণা: গতিশীল সর্বোত্তম নিম্ন-র‍্যাঙ্ক অভিযোজক

LoRA এর $A_tB_t^T$ এ স্থির থাকার বিপরীতে, ScaLoRA এর মূল ধারণা হল প্রতিটি পুনরাবৃত্তিতে "সর্বোত্তম" নিম্ন-র‍্যাঙ্ক অভিযোজক গতিশীলভাবে চিহ্নিত করা, ক্ষতি হ্রাস সর্বাধিক করে:

$W_t = W^{pt} + A_tB_t^T = \underbrace{(W^{pt} + A_tB_t^T - \tilde{A}_t\tilde{B}_t^T)}_{\text{একীভূত এবং হিমায়িত}} + \underbrace{\tilde{A}_t\tilde{B}_t^T}_{\text{শেখার যোগ্য}}$

সর্বোত্তম নিম্ন-র‍্যাঙ্ক অভিযোজকের তাত্ত্বিক বিশ্লেষণ

উপপাদ্য ১ (সর্বোত্তম শর্ত): SVD $\nabla\ell(W_t) = U_t\Sigma_tV_t^T$ বিবেচনা করুন, যদি $\text{rank}(\nabla\ell(W_t)) \geq 2r, \forall t$ এবং Lipschitz মসৃণতা অনুমান সন্তুষ্ট করে, তাহলে $(\tilde{A}_t^*, \tilde{B}_t^*)$ ক্ষতি উপরের সীমা ন্যূনতম করে যখন এবং শুধুমাত্র যখন:

$\tilde{A}_t^* = \frac{1}{\sqrt{L\eta}}[U_t]_{\mathcal{A}_t}P_t, \quad \tilde{B}_t^* = \frac{1}{\sqrt{L\eta}}[V_t]_{\mathcal{B}_t}Q_t$

যেখানে $\mathcal{A}_t \cup \mathcal{B}_t = \{1,\ldots,2r\}$ , $|\mathcal{A}_t| = |\mathcal{B}_t| = r$ , $P_t, Q_t \in O(r)$ ।

স্কেলার স্কেলিং এর সর্বোত্তম সমাধান

SVD এর গণনামূলক খরচ এড়াতে, ScaLoRA $\tilde{A}_t = \alpha_t A_t$ , $\tilde{B}_t = \beta_t B_t$ এ সীমাবদ্ধ।

উপপাদ্য ৩ (স্কেলার স্কেলিং সর্বোত্তম সমাধান): অনুমান ১-২ এর অধীনে, উদ্দেশ্য ফাংশনের বৈশ্বিক ন্যূনতম দ্বারা দেওয়া হয়: