2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin
Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
academic

MiSS: Переосмысление компромисса в LoRA с эффективной структурой совместного использования осколков

Основная информация

  • ID статьи: 2409.15371
  • Название: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
  • Авторы: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
  • Категория: cs.CL cs.AI
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2409.15371v11

Аннотация

Low-Rank Adaptation (LoRA) — широко используемый метод параметрически эффективной тонкой настройки, однако его медленная сходимость привела к разработке множества вариантов. Однако существующие методы часто не могут одновременно улучшить производительность, использование памяти и вычислительную эффективность. Для решения этой проблемы авторы переосмысляют фундаментальные причины медленной сходимости LoRA. На основе этих выводов предлагается метод Matrix Shard Sharing (MiSS), который использует единую общую обучаемую матрицу D\boldsymbol{D} (инициализированную нулём) для обновления осколков исходной матрицы весов. Для одновременного обеспечения вычислительной эффективности, низкого использования памяти и масштабируемого обслуживания авторы вводят MiSSe^e. Теоретический анализ и экспериментальные результаты показывают, что метод снижает сложность оптимизации без ущерба для производительности, достигая более благоприятного компромисса между производительностью, памятью и эффективностью.

Исследовательский контекст и мотивация

Определение проблемы

Полнопараметрическая тонкая настройка больших языковых моделей (LLMs) вычислительно запретительна, поэтому возникли методы параметрически эффективной тонкой настройки (PEFT). LoRA как один из наиболее выдающихся методов PEFT аппроксимирует обновление весов через низкоранговую факторизацию: ΔWBA\Delta W \approx BA, где BRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, и rmin(d,k)r \ll \min(d,k).

Ограничения существующих методов

  1. Медленная сходимость: LoRA сходится значительно медленнее, чем полнопараметрическая тонкая настройка
  2. Сложность оптимизации: Требует одновременного обновления матриц A и B, что увеличивает сложность оптимизации
  3. Трудность компромисса: Существующие варианты LoRA сложно сбалансировать между производительностью, памятью и эффективностью

Исследовательская мотивация

Анализируя методы S2FT и LoRA+, авторы обнаруживают, что ключевая причина медленной сходимости LoRA — необходимость одновременной оптимизации двух матриц. На основе предположения, что "обучение одной матрицы может упростить оптимизацию без ущерба для выразительной способности", авторы предлагают метод MiSS.

Основные вклады

  1. Предложение метода MiSS: Эффективная и адаптивная структура с механизмом совместного использования осколков, достигающая эффективного баланса между производительностью, эффективностью памяти и вычислительной эффективностью
  2. Теоретическая и экспериментальная верификация: Крупномасштабные эксперименты подтверждают превосходство MiSS на разнообразных наборах данных и архитектурах моделей
  3. Комплексное сравнение методов PEFT: Предоставляет всестороннюю оценку различных методов PEFT по использованию памяти, затратам инициализации и вычислительной эффективности
  4. Анализ границы Парето: Путём отображения границы Парето этих измерений доказывается, что MiSS занимает выгодную позицию

Подробное описание метода

Определение задачи

Дана предварительно обученная матрица весов W0Rd×kW_0 \in \mathbb{R}^{d \times k}, цель — изучить параметрически эффективное обновление ΔW\Delta W, чтобы тонко настроенная модель хорошо работала на задачах нижнего уровня, одновременно минимизируя количество обучаемых параметров и вычислительные затраты.

Архитектура модели

Базовая форма MiSS

MiSS определяет обновление весов как большую матрицу, генерируемую из малой обучаемой матрицы DD через операцию расширения:

W=W0+ΔW=W0+expand(D)W = W_0 + \Delta W = W_0 + \text{expand}(D)y=W0x+expand(D)xy = W_0x + \text{expand}(D)x

где DRr1×r2D \in \mathbb{R}^{r_1 \times r_2}, (r1,r2)min(d,k)(r_1, r_2) \ll \min(d,k).

Механизм расширения

Выходное измерение dd разбивается на NN осколков размерами {s1,s2,,sN}\{s_1, s_2, \ldots, s_N\}, где i=1Nsi=d\sum_{i=1}^N s_i = d. Для каждого осколка ii его обновление определяется повторением ii-й строки DiD_i матрицы DD sis_i раз:

(expand(D))T=[(1s1D1)T(1s2D2)T(1sNDN)T](\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]

Эффективная реализация MiSSe^e

Чтобы избежать явного формирования большой матрицы, MiSSe^e переопределяет DRr×dD \in \mathbb{R}^{r \times d}, разбивая входное измерение kk на rr блоков:

x=[x(1),x(2),,x(r)],x(i)Rb×l×gx = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}

S=[j=1gx[:,:,j](1),j=1gx[:,:,j](2),,j=1gx[:,:,j](r)]Rb×l×rS = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}

ΔWx=DTS,y=W0x+DTS\Delta Wx = D^T S, \quad y = W_0x + D^T S

Технические инновации

  1. Оптимизация одной матрицы: В отличие от LoRA, требующей одновременной оптимизации двух матриц A и B, MiSS требует оптимизации только одной матрицы D, снижая сложность оптимизации
  2. Механизм совместного использования осколков: Низкоранговые свойства достигаются через повторяющуюся структуру матрицы, сохраняя выразительную способность
  3. Эффективная реализация: MiSSe^e избегает явного хранения больших матриц через агрегацию входных данных на уровне блоков, значительно снижая использование памяти

Экспериментальная установка

Наборы данных

  1. Понимание естественного языка (NLU): Подмножество эталона GLUE, включая MNLI, SST-2, CoLA, QNLI, MRPC
  2. Генерация естественного языка (NLG):
    • Математические задачи: Набор данных MetaMathQA (подмножество 395k), оценка на GSM8K и MATH
    • Задачи кодирования: Набор данных CodeFeedback (подмножество 100k), оценка на HumanEval и Mbpp

Метрики оценки

  • Задачи NLU: Точность
  • Математические задачи: Точность на эталонах GSM8K и MATH
  • Задачи кодирования: Коэффициент прохождения на HumanEval и Mbpp
  • Метрики эффективности: Время обучения, использование памяти, время инициализации

Методы сравнения

LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS и другие методы PEFT

Детали реализации

  • Оптимизатор: AdamW
  • Скорость обучения: 2e-5
  • Размер пакета: 64-128
  • График скорости обучения: Косинусное затухание
  • Установка ранга MiSS: 16-128 (корректируется в зависимости от задачи)

Экспериментальные результаты

Основные результаты

Производительность на задачах NLU

На эталоне GLUE с использованием RoBERTa-base MiSS особенно выделяется на наборе данных CoLA с оценкой 72.86, значительно превосходя LoRA (62.40) и PiSSA (67.28).

Производительность на задачах NLG

Результаты экспериментов на нескольких больших языковых моделях показывают:

LLaMA2-7B:

  • GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
  • Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
  • HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)

Qwen3-4B:

  • Math: MiSS(34.82) значительно превосходит другие методы, PiSSA(26.00), DoRA(21.73), LoRA(15.20)

Анализ нормы градиента

Анализ начальной нормы градиента подтверждает концепцию проектирования MiSS. Эксперименты показывают, что MiSS, как и другие улучшенные варианты LoRA, имеет большую начальную норму градиента, чем стандартный LoRA, что связано с более быстрой ранней сходимостью.

Анализ эффективности

Сравнение сложности

МетодПространственная сложностьВременная сложность
FullO(dk)O(bld(d+k))
LoRAO(dr+rk)O(blr(d+k))
MiSSO(dr)O(bldk)
MiSSe^eO(dr)O(blr(d+k/r))

Анализ границы Парето

Комплексная оценка на LLaMA-3.2-3B показывает, что MiSS занимает оптимальную позицию в компромиссе производительность-эффективность, достигая лучшей точности тестирования (0.5080) при сохранении низкого использования памяти и времени обучения.

Абляционные исследования

Влияние параметра ранга

Тестирование влияния различных значений ранга на LLaMA2-7B:

  • rank=16: GSM8K(45.90), Math(3.77), параметры 21.7M
  • rank=32: GSM8K(46.18), Math(7.43), параметры 43.5M
  • rank=64: GSM8K(48.16), Math(8.58), параметры 87.0M
  • rank=128: GSM8K(53.49), Math(10.08), параметры 174.0M

Результаты показывают монотонное увеличение производительности с ростом ранга, причём rank=64 обеспечивает хороший баланс между производительностью и количеством параметров.

Связанные работы

Классификация методов улучшения LoRA

  1. Адаптивные улучшения: PiSSA, LoRA-GA, LoRA+ и другие, в основном ускоряющие сходимость через изменение стратегии инициализации
  2. Оптимизация эффективности: VeRA, ProLoRA, MoS и другие, сосредоточенные на снижении вычислительных и памятных затрат

Относительные преимущества данной работы

По сравнению с существующими методами MiSS через стратегию оптимизации одной матрицы значительно повышает эффективность при сохранении производительности, избегая дорогостоящего процесса инициализации методов типа PiSSA и не требуя специальных требований к оптимизатору, как методы типа LoRA-GA.

Выводы и обсуждение

Основные выводы

  1. Оптимизация одной матрицы: Доказано, что оптимизация одной матрицы по сравнению с оптимизацией двух матриц может снизить сложность оптимизации и ускорить сходимость
  2. Эффективный компромисс: MiSS достигает лучшего баланса между производительностью, памятью и вычислительной эффективностью
  3. Широкая применимость: Демонстрирует последовательное превосходство на различных архитектурах моделей и типах задач

Ограничения

  1. Глубина теоретического анализа: Хотя предоставлен анализ сложности, теоретическое объяснение того, почему оптимизация одной матрицы более эффективна, недостаточно глубоко
  2. Чувствительность гиперпараметров: Оптимальный выбор параметра ранга для различных задач и моделей может требовать дополнительной настройки
  3. Универсальность механизма расширения: Текущая стратегия расширения осколков может быть неоптимальной и имеет место для улучшения

Направления будущих исследований

  1. Теоретическая база: Углублённое исследование теоретических основ оптимизации одной матрицы
  2. Адаптивный выбор ранга: Разработка методов автоматического выбора оптимального ранга
  3. Расширение на мультимодальные задачи: Распространение MiSS на мультимодальные задачи

Глубокая оценка

Преимущества

  1. Высокая инновационность: Предложенный механизм совместного использования осколков — это новый и эффективный подход
  2. Полнота экспериментов: Охватывает множество моделей, наборов данных и измерений оценки с обоснованным дизайном экспериментов
  3. Высокая практическая ценность: Значительно повышает эффективность при сохранении производительности, обладает сильной практической ценностью
  4. Комплексный анализ: Проводит глубокий анализ с различных углов — нормы градиента, сложности, границы Парето

Недостатки

  1. Теоретическое объяснение: Теоретическое объяснение того, почему MiSS может сохранять выразительную способность при оптимизации одной матрицы, недостаточно глубоко
  2. Сравнение с эталонами: Отсутствует сравнение с некоторыми новейшими методами PEFT
  3. Производительность на длинных последовательностях: Недостаточно полное тестирование производительности на задачах с длинными последовательностями

Влияние

  1. Академический вклад: Предоставляет новое направление проектирования для области PEFT, может вдохновить дальнейшие исследования
  2. Практическая ценность: Метод простой и эффективный, легко реализуется и развёртывается
  3. Воспроизводимость: Предоставляет подробные детали реализации и открытый исходный код

Применимые сценарии

  1. Среды с ограниченными ресурсами: Особенно подходит для сценариев с ограниченной памятью GPU
  2. Крупномасштабное развёртывание: Благодаря высокой эффективности подходит для приложений, требующих крупномасштабного развёртывания
  3. Многозадачное обучение: Может служить эффективным адаптером в многозадачном обучении

Библиография

Статья цитирует важные методы PEFT, такие как LoRA, PiSSA, DoRA, а также стандартные эталоны оценки, такие как GSM8K и MATH, предоставляя комплексный фон и основу для сравнения соответствующих исследований.


Общая оценка: Это высококачественная статья по методам PEFT. Предложенный метод MiSS имеет определённую теоретическую инновационность, полную экспериментальную верификацию и высокую практическую ценность. Основной вклад статьи заключается в достижении лучшего компромисса между производительностью и эффективностью через оптимизацию одной матрицы, предоставляя новое направление исследований для области PEFT.