По мере расширения масштабов больших языковых моделей (LLM) вычислительные затраты становятся основным узким местом при тонкой настройке для конкретных задач. Хотя низкоранговая адаптация (LoRA) эффективно снижает затраты, ограничивая обновления весов низкомерным подпространством, это ограничение препятствует производительности и замедляет сходимость. В данном исследовании решаются эти ограничения путём постепенного накопления последовательных низкоранговых приращений для формирования высокоранговых обновлений весов. В частности, для каждого обновления определяются оптимальные низкоранговые матрицы, минимизирующие функцию потерь и тесно аппроксимирующие полную тонкую настройку. Для достижения эффективной и бесперебойной оптимизации без перезагрузки этот оптимальный выбор формируется путём надлежащего масштабирования столбцов исходной низкоранговой матрицы. Строгие гарантии производительности показывают, что оптимальное масштабирование можно найти аналитическим методом. Обширные численные тесты на популярных LLM с параметрами до 12 миллиардов демонстрируют, что метод достигает последовательного улучшения производительности и быстрой сходимости по сравнению с передовыми вариантами LoRA на разнообразных задачах, включая понимание естественного языка, логический вывод и решение математических задач.
По мере быстрого роста масштабов больших языковых моделей традиционные методы полной тонкой настройки становятся всё менее практичными из-за огромных вычислительных затрат. Например, даже наименьший вариант Llama 4 Scout содержит 109 миллиардов параметров, и полная тонкая настройка требует более 1 ТБ памяти GPU даже при использовании половинной точности и значительного времени.
Данная работа направлена на преодоление ограничений LoRA путём динамического определения оптимальных низкоранговых адаптеров, формирования высокоранговых обновлений весов путём стекирования последовательных низкоранговых приращений при сохранении вычислительной эффективности.
Рассмотрим общую матрицу весов большой модели . LoRA разлагает её как , где — замороженные предварительно обученные веса, — обучаемое обновление при тонкой настройке, , , и .
В отличие от LoRA, фиксированного на , ключевая идея ScaLoRA заключается в динамическом определении «оптимального» низкорангового адаптера на каждой итерации, максимизирующего снижение потерь:
Теорема 1 (Условия оптимальности): Рассмотрим SVD . Если и выполнены предположения о липшицевой гладкости, то минимизирует верхнюю границу потерь тогда и только тогда, когда:
где , , .
Чтобы избежать вычислительных затрат SVD, ScaLoRA ограничивается , .
Теорема 3 (Оптимальное решение со скалярным масштабированием): При предположениях 1-2 глобальный минимум целевой функции задаётся следующим образом:
\left(\pm\frac{\|A_t^T\nabla\ell(W_t)\|_F}{\sqrt{L\eta\|A_tA_t^T\nabla\ell(W_t)\|_F}}, 0\right) & \text{если } C_t^A > 0, C_t^B \leq 0 \\ \left(0, \pm\frac{\|\nabla\ell(W_t)B_t\|_F}{\sqrt{L\eta\|\nabla\ell(W_t)B_tB_t^T\|_F}}\right) & \text{если } C_t^A \leq 0, C_t^B > 0 \\ \left(\pm\sqrt{\frac{C_t^A}{L\eta C_t}}, \pm\sqrt{\frac{C_t^B}{L\eta C_t}}\right) & \text{если } C_t^A \geq 0, C_t^B \geq 0, C_t > 0 \end{cases}$$ ### Оптимальное решение с масштабированием столбцов Для повышения способности аппроксимации ScaLoRA дополнительно рассматривает масштабирование столбцов $\tilde{A}_t = A_t\text{diag}(\alpha_t)$, $\tilde{B}_t = B_t\text{diag}(\beta_t)$. **Теорема 5 (Оптимальное решение с масштабированием столбцов)**: Если система линейных уравнений $[(S_t^{A\top}S_t^A) \odot (S_t^{B\top}S_t^B)]v_t = \lambda_t$ имеет неотрицательное решение $v_t \in \mathbb{R}_+^{2r}$, то глобальный минимум задаётся как: $$\begin{bmatrix} \alpha_t^* \\ \beta_t^* \end{bmatrix} = \pm\frac{1}{\sqrt{L\eta}}v_t^{\circ\frac{1}{2}}$$ ### Алгоритм ScaLoRA ScaLoRA использует стратегию гибридного масштабирования: 1. При наличии положительного решения линейной системы используется масштабирование столбцов 2. В противном случае используется скалярное масштабирование 3. Оценки матриц обновляются в соответствии с соответствующими леммами ### Анализ сложности - **Временная сложность**: $O(mnr + (m+n+r)r^2)$ - **Пространственная сложность**: $O((m+n+r)r)$ - **Вариант ScaLoRA-I**: Выполняется один раз каждые I итераций, амортизированная временная сложность составляет $O((mnr+(m+n+r)r^2)/I)$ ## Экспериментальная установка ### Наборы данных 1. **Эталон GLUE**: 8 задач понимания естественного языка 2. **Логический вывод**: BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-easy, ARC-challenge, OpenBookQA 3. **Решение математических задач**: MetaMathQA (обучение), GSM8K и MATH (тестирование) ### Модели - **DeBERTaV3-base** (184M параметров): для задач GLUE - **LLaMA-2-7B** и **LLaMA-3-8B**: для логического вывода - **Gemma-3-12B-pt**: для решения математических задач ### Методы сравнения - LoRA (базовый метод) - MoRA: вариант высокоранговых обновлений - HiRA: адаптация высокого ранга Адамара - LoRA (r=32): высокоранговая LoRA как верхняя граница ### Конфигурация экспериментов - Ранг LoRA: r=4 (GLUE), r=8 (логический вывод и математика) - Оптимизатор: AdamW - Скорость обучения: выбирается путём поиска по сетке - Метрики оценки: точность, F1-оценка, коэффициент корреляции Мэтьюса и др. ## Результаты экспериментов ### Результаты эталона GLUE Результаты на DeBERTaV3-base показывают: - ScaLoRA достигает лучшей производительности в 7 из 8 задач - Среднее улучшение производительности на 0,5%+ - На задаче RTE достигает точности 87,61±0,34, значительно превосходя другие методы ### Результаты логического вывода **LLaMA-2-7B**: - ScaLoRA: 74,51% (среднее) - ScaLoRA-I: 74,75% (среднее) - LoRA: 73,63% (среднее) - Улучшение производительности примерно на 1% **LLaMA-3-8B**: - ScaLoRA: 77,85% (среднее) - ScaLoRA-I: 77,57% (среднее) - LoRA: 76,83% (среднее) - Даже превосходит LoRA (r=32) с 77,54% ### Результаты решения математических задач На Gemma-3-12B: - **GSM8K**: ScaLoRA-I (82,11%) vs LoRA (81,20%) - **MATH**: ScaLoRA-I (37,96%) vs LoRA (37,20%) ### Анализ вычислительных затрат Сравнение затрат с использованием LLaMA-3-8B: - **Временные затраты**: ScaLoRA увеличивает затраты на ~50% по сравнению с LoRA, но затраты ScaLoRA-I незначительны - **Затраты памяти**: ScaLoRA увеличивает на всего 0,01 ГБ, что намного ниже, чем 7,83 ГБ для HiRA ### Ключевые выводы 1. **Рост ранга**: ScaLoRA постепенно увеличивает ранг обновлений весов с начального значения 4 до среднего 54 2. **Скорость сходимости**: ScaLoRA сходится значительно быстрее, чем ванильная LoRA 3. **Процент выполнения условий**: Примерно 80% слоёв LoRA удовлетворяют условиям неотрицательности для масштабирования столбцов ## Связанные работы ### Варианты LoRA - **DoRA**: разложение весов на компоненты амплитуды и направления - **QLoRA**: квантизация предварительно обученных весов для дальнейшего снижения вычислительных затрат - **FourierFT**: замена низкоранговых матриц спектральными коэффициентами - **Flora**: использование случайной проекции для кодирования и декодирования градиентов весов ### Методы высокоранговых обновлений - **ReLoRA**: каскадные низкоранговые адаптеры, но требующие перезагрузки оптимизации - **MoRA**: замена линейного матричного умножения нелинейным отображением - **HiRA**: параметризация обновлений весов как произведения Адамара низкоранговой матрицы и предварительно обученных весов ## Заключение и обсуждение ### Основные выводы 1. ScaLoRA успешно реализует высокоранговые обновления весов путём динамического оптимального масштабирования 2. Теоретический анализ обеспечивает аналитические формы оптимальных решений 3. Эксперименты демонстрируют последовательное улучшение производительности и быструю сходимость на различных задачах ### Ограничения 1. **Вычислительные затраты**: увеличение вычислительного времени примерно на 50% по сравнению с LoRA 2. **Требования к хранению**: необходимо хранить полные матрицы весов, а не только низкомерные адаптеры 3. **Масштабируемость**: с ростом размера модели вычислительные затраты ограничивают масштабируемость ### Направления будущих исследований 1. Дальнейшая оптимизация вычислительной эффективности 2. Исследование более эффективных стратегий высокоранговых обновлений 3. Расширение на модели большего масштаба ## Глубокая оценка ### Преимущества 1. **Теоретическая строгость**: обеспечивает полный математический анализ и доказательства 2. **Методологическая инновация**: умно избегает вычислительных затрат SVD путём масштабирования 3. **Комплексные эксперименты**: охватывают различные задачи и масштабы моделей 4. **Практическая применимость**: вариант ScaLoRA-I балансирует производительность и эффективность ### Недостатки 1. **Вычислительные затраты**: по-прежнему значительное увеличение вычислений по сравнению с исходной LoRA 2. **Ограничения хранения**: хранение полных матриц весов может стать узким местом 3. **Теоретические предположения**: некоторые предположения могут не полностью выполняться в практических приложениях ### Влияние 1. **Научный вклад**: предоставляет новую теоретическую базу для параметрически эффективной тонкой настройки 2. **Практическая ценность**: значительно улучшает производительность при сохранении эффективности 3. **Воспроизводимость**: предоставляет полные детали алгоритма и реализации ### Применимые сценарии 1. Сценарии, требующие высококачественной тонкой настройки при ограниченных вычислительных ресурсах 2. Приложения с высокими требованиями к скорости сходимости 3. Эффективная тонкая настройка моделей среднего масштаба ## Список литературы Статья цитирует 62 связанные работы, охватывающие LoRA и его варианты, параметрически эффективную тонкую настройку, большие языковые модели и другие соответствующие области, обеспечивая прочную теоретическую основу для исследования. --- **Резюме**: ScaLoRA — это работа с важными вкладами как в теории, так и на практике, решающая основные ограничения LoRA путём умного математического анализа и достигающая значительного улучшения производительности при сохранении вычислительной эффективности. Этот метод предоставляет новые идеи и инструменты для параметрически эффективной тонкой настройки больших языковых моделей.