2025-11-11T15:58:09.452987

ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning

Zhang, Yang, Cai et al.

As large language models (LLMs) continue to scale in size, the computational overhead has become a major bottleneck for task-specific fine-tuning. While low-rank adaptation (LoRA) effectively curtails this cost by confining the weight updates to a low-dimensional subspace, such a restriction can hinder effectiveness and slow convergence. This contribution deals with these limitations by accumulating progressively a high-rank weight update from consecutive low-rank increments. Specifically, the per update optimal low-rank matrix is identified to minimize the loss function and closely approximate full fine-tuning. To endow efficient and seamless optimization without restarting, this optimal choice is formed by appropriately scaling the columns of the original low-rank matrix. Rigorous performance guarantees reveal that the optimal scaling can be found analytically. Extensive numerical tests with popular LLMs scaling up to 12 billion parameters demonstrate a consistent performance gain and fast convergence relative to state-of-the-art LoRA variants on diverse tasks including natural language understanding, commonsense reasoning, and mathematical problem solving.

academic

ScaLoRA: Оптимально масштабированная низкоранговая адаптация для эффективной высокоранговой тонкой настройки

Основная информация

ID статьи: 2510.23818
Название: ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning
Авторы: Yilang Zhang, Xiaodong Yang, Yiwei Cai, Georgios B. Giannakis
Учреждения: University of Minnesota - Twin Cities, Visa Research
Категория: cs.LG
Дата подачи: 27 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.23818v1

Аннотация

По мере расширения масштабов больших языковых моделей (LLM) вычислительные затраты становятся основным узким местом при тонкой настройке для конкретных задач. Хотя низкоранговая адаптация (LoRA) эффективно снижает затраты, ограничивая обновления весов низкомерным подпространством, это ограничение препятствует производительности и замедляет сходимость. В данном исследовании решаются эти ограничения путём постепенного накопления последовательных низкоранговых приращений для формирования высокоранговых обновлений весов. В частности, для каждого обновления определяются оптимальные низкоранговые матрицы, минимизирующие функцию потерь и тесно аппроксимирующие полную тонкую настройку. Для достижения эффективной и бесперебойной оптимизации без перезагрузки этот оптимальный выбор формируется путём надлежащего масштабирования столбцов исходной низкоранговой матрицы. Строгие гарантии производительности показывают, что оптимальное масштабирование можно найти аналитическим методом. Обширные численные тесты на популярных LLM с параметрами до 12 миллиардов демонстрируют, что метод достигает последовательного улучшения производительности и быстрой сходимости по сравнению с передовыми вариантами LoRA на разнообразных задачах, включая понимание естественного языка, логический вывод и решение математических задач.

Исследовательский контекст и мотивация

Определение проблемы

По мере быстрого роста масштабов больших языковых моделей традиционные методы полной тонкой настройки становятся всё менее практичными из-за огромных вычислительных затрат. Например, даже наименьший вариант Llama 4 Scout содержит 109 миллиардов параметров, и полная тонкая настройка требует более 1 ТБ памяти GPU даже при использовании половинной точности и значительного времени.

Ограничения существующих методов

Ограничения LoRA: Хотя LoRA эффективно снижает вычислительные затраты путём параметризации обновлений весов как внешнего произведения двух высоких тонких матриц, фиксированное низкомерное подпространство приводит к снижению производительности и медленной сходимости.
Проблемы высокоранговых обновлений: Существующие методы высокоранговых обновлений, такие как ReLoRA, требуют перезагрузки оптимизации, MoRA требует тщательно разработанных нелинейных отображений, а операции произведения Адамара HiRA имеют высокую сложность.

Исследовательская мотивация

Данная работа направлена на преодоление ограничений LoRA путём динамического определения оптимальных низкоранговых адаптеров, формирования высокоранговых обновлений весов путём стекирования последовательных низкоранговых приращений при сохранении вычислительной эффективности.

Основные вклады

Теоретический анализ: Доказаны необходимые и достаточные условия для оптимальных низкоранговых адаптеров, установлены условия, требующие усечённого SVD, но указано на его высокую вычислительную стоимость.
Метод ScaLoRA: Предложен метод ограничения новых адаптеров путём преобразования масштабирования столбцов, позволяющий аналитически определить глобально оптимальные адаптеры и вычислимые оценки матриц.
Экспериментальная проверка: Проведены комплексные тесты на моделях DeBERTaV3-base, LLaMA-2-7B, LLaMA-3-8B и Gemma-3-12B-pt, подтверждающие теоретический анализ и демонстрирующие превосходную производительность и ускоренную сходимость ScaLoRA.

Подробное описание метода

Определение задачи

Рассмотрим общую матрицу весов большой модели $W \in \mathbb{R}^{m \times n}$ . LoRA разлагает её как $W = W^{pt} + W^{ft}$ , где $W^{pt}$ — замороженные предварительно обученные веса, $W^{ft} := AB^T$ — обучаемое обновление при тонкой настройке, $A \in \mathbb{R}^{m \times r}$ , $B \in \mathbb{R}^{n \times r}$ , и $r \ll m,n$ .

Основная идея: динамические оптимальные низкоранговые адаптеры

В отличие от LoRA, фиксированного на $A_tB_t^T$ , ключевая идея ScaLoRA заключается в динамическом определении «оптимального» низкорангового адаптера на каждой итерации, максимизирующего снижение потерь:

$W_t = W^{pt} + A_tB_t^T = \underbrace{(W^{pt} + A_tB_t^T - \tilde{A}_t\tilde{B}_t^T)}_{\text{объединено и заморожено}} + \underbrace{\tilde{A}_t\tilde{B}_t^T}_{\text{обучаемо}}$

Теоретический анализ оптимальных низкоранговых адаптеров

Теорема 1 (Условия оптимальности): Рассмотрим SVD $\nabla\ell(W_t) = U_t\Sigma_tV_t^T$ . Если $\text{rank}(\nabla\ell(W_t)) \geq 2r, \forall t$ и выполнены предположения о липшицевой гладкости, то $(\tilde{A}_t^*, \tilde{B}_t^*)$ минимизирует верхнюю границу потерь тогда и только тогда, когда:

$\tilde{A}_t^* = \frac{1}{\sqrt{L\eta}}[U_t]_{\mathcal{A}_t}P_t, \quad \tilde{B}_t^* = \frac{1}{\sqrt{L\eta}}[V_t]_{\mathcal{B}_t}Q_t$

где $\mathcal{A}_t \cup \mathcal{B}_t = \{1,\ldots,2r\}$ , $|\mathcal{A}_t| = |\mathcal{B}_t| = r$ , $P_t, Q_t \in O(r)$ .

Оптимальное решение со скалярным масштабированием

Чтобы избежать вычислительных затрат SVD, ScaLoRA ограничивается $\tilde{A}_t = \alpha_t A_t$ , $\tilde{B}_t = \beta_t B_t$ .

Теорема 3 (Оптимальное решение со скалярным масштабированием): При предположениях 1-2 глобальный минимум целевой функции задаётся следующим образом: