Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
- ID статьи: 2409.15371
- Название: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
- Авторы: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
- Категория: cs.CL cs.AI
- Дата публикации: 14 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2409.15371v11
Low-Rank Adaptation (LoRA) — широко используемый метод параметрически эффективной тонкой настройки, однако его медленная сходимость привела к разработке множества вариантов. Однако существующие методы часто не могут одновременно улучшить производительность, использование памяти и вычислительную эффективность. Для решения этой проблемы авторы переосмысляют фундаментальные причины медленной сходимости LoRA. На основе этих выводов предлагается метод Matrix Shard Sharing (MiSS), который использует единую общую обучаемую матрицу D (инициализированную нулём) для обновления осколков исходной матрицы весов. Для одновременного обеспечения вычислительной эффективности, низкого использования памяти и масштабируемого обслуживания авторы вводят MiSSe. Теоретический анализ и экспериментальные результаты показывают, что метод снижает сложность оптимизации без ущерба для производительности, достигая более благоприятного компромисса между производительностью, памятью и эффективностью.
Полнопараметрическая тонкая настройка больших языковых моделей (LLMs) вычислительно запретительна, поэтому возникли методы параметрически эффективной тонкой настройки (PEFT). LoRA как один из наиболее выдающихся методов PEFT аппроксимирует обновление весов через низкоранговую факторизацию: ΔW≈BA, где B∈Rd×r, A∈Rr×k, и r≪min(d,k).
- Медленная сходимость: LoRA сходится значительно медленнее, чем полнопараметрическая тонкая настройка
- Сложность оптимизации: Требует одновременного обновления матриц A и B, что увеличивает сложность оптимизации
- Трудность компромисса: Существующие варианты LoRA сложно сбалансировать между производительностью, памятью и эффективностью
Анализируя методы S2FT и LoRA+, авторы обнаруживают, что ключевая причина медленной сходимости LoRA — необходимость одновременной оптимизации двух матриц. На основе предположения, что "обучение одной матрицы может упростить оптимизацию без ущерба для выразительной способности", авторы предлагают метод MiSS.
- Предложение метода MiSS: Эффективная и адаптивная структура с механизмом совместного использования осколков, достигающая эффективного баланса между производительностью, эффективностью памяти и вычислительной эффективностью
- Теоретическая и экспериментальная верификация: Крупномасштабные эксперименты подтверждают превосходство MiSS на разнообразных наборах данных и архитектурах моделей
- Комплексное сравнение методов PEFT: Предоставляет всестороннюю оценку различных методов PEFT по использованию памяти, затратам инициализации и вычислительной эффективности
- Анализ границы Парето: Путём отображения границы Парето этих измерений доказывается, что MiSS занимает выгодную позицию
Дана предварительно обученная матрица весов W0∈Rd×k, цель — изучить параметрически эффективное обновление ΔW, чтобы тонко настроенная модель хорошо работала на задачах нижнего уровня, одновременно минимизируя количество обучаемых параметров и вычислительные затраты.
MiSS определяет обновление весов как большую матрицу, генерируемую из малой обучаемой матрицы D через операцию расширения:
W=W0+ΔW=W0+expand(D)y=W0x+expand(D)x
где D∈Rr1×r2, (r1,r2)≪min(d,k).
Выходное измерение d разбивается на N осколков размерами {s1,s2,…,sN}, где ∑i=1Nsi=d. Для каждого осколка i его обновление определяется повторением i-й строки Di матрицы D si раз:
(expand(D))T=[(1s1D1)T(1s2D2)T…(1sNDN)T]
Чтобы избежать явного формирования большой матрицы, MiSSe переопределяет D∈Rr×d, разбивая входное измерение k на r блоков:
x=[x(1),x(2),…,x(r)],x(i)∈Rb×l×g
S=[∑j=1gx[:,:,j](1),∑j=1gx[:,:,j](2),…,∑j=1gx[:,:,j](r)]∈Rb×l×r
ΔWx=DTS,y=W0x+DTS
- Оптимизация одной матрицы: В отличие от LoRA, требующей одновременной оптимизации двух матриц A и B, MiSS требует оптимизации только одной матрицы D, снижая сложность оптимизации
- Механизм совместного использования осколков: Низкоранговые свойства достигаются через повторяющуюся структуру матрицы, сохраняя выразительную способность
- Эффективная реализация: MiSSe избегает явного хранения больших матриц через агрегацию входных данных на уровне блоков, значительно снижая использование памяти
- Понимание естественного языка (NLU): Подмножество эталона GLUE, включая MNLI, SST-2, CoLA, QNLI, MRPC
- Генерация естественного языка (NLG):
- Математические задачи: Набор данных MetaMathQA (подмножество 395k), оценка на GSM8K и MATH
- Задачи кодирования: Набор данных CodeFeedback (подмножество 100k), оценка на HumanEval и Mbpp
- Задачи NLU: Точность
- Математические задачи: Точность на эталонах GSM8K и MATH
- Задачи кодирования: Коэффициент прохождения на HumanEval и Mbpp
- Метрики эффективности: Время обучения, использование памяти, время инициализации
LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS и другие методы PEFT
- Оптимизатор: AdamW
- Скорость обучения: 2e-5
- Размер пакета: 64-128
- График скорости обучения: Косинусное затухание
- Установка ранга MiSS: 16-128 (корректируется в зависимости от задачи)
На эталоне GLUE с использованием RoBERTa-base MiSS особенно выделяется на наборе данных CoLA с оценкой 72.86, значительно превосходя LoRA (62.40) и PiSSA (67.28).
Результаты экспериментов на нескольких больших языковых моделях показывают:
LLaMA2-7B:
- GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
- Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
- HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)
Qwen3-4B:
- Math: MiSS(34.82) значительно превосходит другие методы, PiSSA(26.00), DoRA(21.73), LoRA(15.20)
Анализ начальной нормы градиента подтверждает концепцию проектирования MiSS. Эксперименты показывают, что MiSS, как и другие улучшенные варианты LoRA, имеет большую начальную норму градиента, чем стандартный LoRA, что связано с более быстрой ранней сходимостью.
| Метод | Пространственная сложность | Временная сложность |
|---|
| Full | O(dk) | O(bld(d+k)) |
| LoRA | O(dr+rk) | O(blr(d+k)) |
| MiSS | O(dr) | O(bldk) |
| MiSSe | O(dr) | O(blr(d+k/r)) |
Комплексная оценка на LLaMA-3.2-3B показывает, что MiSS занимает оптимальную позицию в компромиссе производительность-эффективность, достигая лучшей точности тестирования (0.5080) при сохранении низкого использования памяти и времени обучения.
Тестирование влияния различных значений ранга на LLaMA2-7B:
- rank=16: GSM8K(45.90), Math(3.77), параметры 21.7M
- rank=32: GSM8K(46.18), Math(7.43), параметры 43.5M
- rank=64: GSM8K(48.16), Math(8.58), параметры 87.0M
- rank=128: GSM8K(53.49), Math(10.08), параметры 174.0M
Результаты показывают монотонное увеличение производительности с ростом ранга, причём rank=64 обеспечивает хороший баланс между производительностью и количеством параметров.
- Адаптивные улучшения: PiSSA, LoRA-GA, LoRA+ и другие, в основном ускоряющие сходимость через изменение стратегии инициализации
- Оптимизация эффективности: VeRA, ProLoRA, MoS и другие, сосредоточенные на снижении вычислительных и памятных затрат
По сравнению с существующими методами MiSS через стратегию оптимизации одной матрицы значительно повышает эффективность при сохранении производительности, избегая дорогостоящего процесса инициализации методов типа PiSSA и не требуя специальных требований к оптимизатору, как методы типа LoRA-GA.
- Оптимизация одной матрицы: Доказано, что оптимизация одной матрицы по сравнению с оптимизацией двух матриц может снизить сложность оптимизации и ускорить сходимость
- Эффективный компромисс: MiSS достигает лучшего баланса между производительностью, памятью и вычислительной эффективностью
- Широкая применимость: Демонстрирует последовательное превосходство на различных архитектурах моделей и типах задач
- Глубина теоретического анализа: Хотя предоставлен анализ сложности, теоретическое объяснение того, почему оптимизация одной матрицы более эффективна, недостаточно глубоко
- Чувствительность гиперпараметров: Оптимальный выбор параметра ранга для различных задач и моделей может требовать дополнительной настройки
- Универсальность механизма расширения: Текущая стратегия расширения осколков может быть неоптимальной и имеет место для улучшения
- Теоретическая база: Углублённое исследование теоретических основ оптимизации одной матрицы
- Адаптивный выбор ранга: Разработка методов автоматического выбора оптимального ранга
- Расширение на мультимодальные задачи: Распространение MiSS на мультимодальные задачи
- Высокая инновационность: Предложенный механизм совместного использования осколков — это новый и эффективный подход
- Полнота экспериментов: Охватывает множество моделей, наборов данных и измерений оценки с обоснованным дизайном экспериментов
- Высокая практическая ценность: Значительно повышает эффективность при сохранении производительности, обладает сильной практической ценностью
- Комплексный анализ: Проводит глубокий анализ с различных углов — нормы градиента, сложности, границы Парето
- Теоретическое объяснение: Теоретическое объяснение того, почему MiSS может сохранять выразительную способность при оптимизации одной матрицы, недостаточно глубоко
- Сравнение с эталонами: Отсутствует сравнение с некоторыми новейшими методами PEFT
- Производительность на длинных последовательностях: Недостаточно полное тестирование производительности на задачах с длинными последовательностями
- Академический вклад: Предоставляет новое направление проектирования для области PEFT, может вдохновить дальнейшие исследования
- Практическая ценность: Метод простой и эффективный, легко реализуется и развёртывается
- Воспроизводимость: Предоставляет подробные детали реализации и открытый исходный код
- Среды с ограниченными ресурсами: Особенно подходит для сценариев с ограниченной памятью GPU
- Крупномасштабное развёртывание: Благодаря высокой эффективности подходит для приложений, требующих крупномасштабного развёртывания
- Многозадачное обучение: Может служить эффективным адаптером в многозадачном обучении
Статья цитирует важные методы PEFT, такие как LoRA, PiSSA, DoRA, а также стандартные эталоны оценки, такие как GSM8K и MATH, предоставляя комплексный фон и основу для сравнения соответствующих исследований.
Общая оценка: Это высококачественная статья по методам PEFT. Предложенный метод MiSS имеет определённую теоретическую инновационность, полную экспериментальную верификацию и высокую практическую ценность. Основной вклад статьи заключается в достижении лучшего компромисса между производительностью и эффективностью через оптимизацию одной матрицы, предоставляя новое направление исследований для области PEFT.