Low-Rank Adaptation (LoRA) has emerged as a parameter-efficient approach for fine-tuning large language models.However, conventional LoRA adapters are typically trained for a single task, limiting their applicability in real-world settings where inputs may span diverse and unpredictable domains. At inference time, existing approaches combine multiple LoRAs for improving performance on diverse tasks, while usually requiring labeled data or additional task-specific training, which is expensive at scale. In this work, we introduce LoRA on the Go (LoGo), a training-free framework that dynamically selects and merges adapters at the instance level without any additional requirements. LoGo leverages signals extracted from a single forward pass through LoRA adapters, to identify the most relevant adapters and determine their contributions on-the-fly. Across 5 NLP benchmarks, 27 datasets, and 3 model families, LoGo outperforms training-based baselines on some tasks upto a margin of 3.6% while remaining competitive on other tasks and maintaining inference throughput, highlighting its effectiveness and practicality.
- ID статьи: 2511.07129
- Название: LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging
- Авторы: Seungeon Lee (MPI-SWS), Soumi Das (MPI-SWS), Manish Gupta (Microsoft, Hyderabad), Krishna P. Gummadi (MPI-SWS)
- Классификация: cs.CL, cs.AI, cs.LG
- Дата публикации: препринт arXiv, 20 ноября 2025 г. (v2)
- Ссылка на статью: https://arxiv.org/abs/2511.07129v2
Low-Rank Adaptation (LoRA) широко применяется как параметрически эффективный метод тонкой настройки больших языковых моделей. Однако традиционные адаптеры LoRA обычно обучаются для одной задачи, что ограничивает их применимость в реальных сценариях, где входные данные охватывают разнообразные и непредсказуемые области. На этапе вывода существующие методы повышают производительность на разнообразных задачах путём комбинирования нескольких LoRA, но обычно требуют аннотированных данных или дополнительного обучения, специфичного для задачи, что дорого обходится при крупномасштабном применении. В данной работе предлагается LoRA on the Go (LoGo) — фреймворк без обучения, который может динамически выбирать и объединять адаптеры на уровне экземпляра без каких-либо дополнительных требований. LoGo использует сигналы, извлекаемые из одного прямого прохода через адаптеры LoRA, для динамического определения наиболее релевантных адаптеров и их вклада. На 5 бенчмарках NLP, 27 наборах данных и 3 семействах моделей LoGo превосходит методы на основе обучения на 3,6% на некоторых задачах, сохраняя при этом конкурентоспособность на других задачах и поддерживая пропускную способность вывода, что подчёркивает его эффективность и практичность.
- Ограничения однозадачного LoRA:
- Несмотря на то, что LoRA обеспечивает эффективный механизм адаптации модели, адаптеры обычно оптимизируются для одного домена или задачи
- В реальных приложениях системы должны обобщаться на невидимые задачи или требуют специализации на нескольких доменах
- Зависимость существующих методов с несколькими LoRA:
- LoRAHub: использует небольшой аннотированный набор для обучения фиксированных весов комбинации
- LoRARetriever: обучает модель поиска, но всё ещё зависит от аннотированных образцов для вычисления эмбеддингов поиска
- MoA/MoLE: требуют обучения маршрутизатора или обучения весов объединения
- Вызовы в реальных сценариях:
- В универсальных системах диалога (например, AI-помощники) запросы пользователей высокогетерогенны и могут охватывать несвязанные задачи (суммаризация, рассуждение, перевод, программирование)
- Пул LoRA динамически развивается, постоянно вводятся или удаляются новые адаптеры
- Сбор аннотированных данных и переобучение, специфичное для задачи, дорого обходятся и непрактичны
- Запросы пользователей могут содержать конфиденциальную информацию
Как динамически выбирать подходящие LoRA для каждого входа в динамически развивающемся пуле LoRA и среде гетерогенных задач без аннотированных данных или переобучения?
Основной вывод работы: сама активация LoRA уже кодирует сигнал релевантности. Когда LoRA подходит для входа, его обновление оказывает более сильное влияние на выход модели (например, рассуждение WNLI выигрывает от LoRA, обученных на SNLI и MNLI).
- Выявление ограничений существующих методов: чётко указывает, что существующие методы с несколькими LoRA зависят от аннотированных данных и дополнительного обучения, что делает их дорогостоящими при реальном развёртывании
- Предложение фреймворка LoGo: фреймворк без обучения, специфичный для экземпляра, который динамически выбирает и объединяет LoRA через сигналы активации, извлекаемые из одного прямого прохода
- Комплексная экспериментальная проверка: оценка на 5 стандартных бенчмарках (BBH, перевод, генерация структурированного текста, закрытые вопросы, вывод на естественном языке), 27 наборах данных, 3 семействах моделей (LLaMA-3.1-8B, Qwen-2.5-7B, DeepSeek-LLM-7B-Base)
- Двойная оптимизация производительности и эффективности: не только превосходит методы на основе обучения по производительности (улучшение на 3,6% на некоторых задачах), но и сохраняет сравнимую пропускную способность вывода
- Обязательство открытого исходного кода: обещание опубликовать код и 260 адаптеров LoRA, обученных на всех предварительно обученных моделях
Дано:
- Предварительно обученная модель fθ
- Набор из N адаптеров LoRA L={Li}i=1N, каждый тонко настроен на разных задачах Ti
- Входная последовательность x=(x1,...,xP)
Цель:
- Динамически выбирать и объединять релевантные адаптеры
- Генерировать выходную последовательность y=(yP+1,...,yP+t)
Рабочий процесс LoGo состоит из двух основных этапов:
Извлечение сигнала:
- Присоединить все адаптеры к базовой модели, выполнить один прямой проход
- Извлечь выходы проекции из целевого блока Transformer BT
- Для каждого адаптера Li на матрице проекции запроса WT(Q):
oi,T=ΔWi,T(Q)hT
где ΔWi,T(Q)=αi,TAi,TBi,T — низкоранговое обновление.
Оценка сигнала:
Вычислить скалярный балл сигнала si двумя способами:
- Метод нормы:
si=∥oi,T∥2
- Метод энтропии:
pi(j)=∑kexp(oi,T(k))exp(oi,T(j))si=(−∑jpi(j)logpi(j))−1
Интуитивное объяснение:
- Большая норма проекции указывает на более сильную активацию и больший эффект
- Более низкая энтропия означает более уверенный и сосредоточенный ответ
- Обратная энтропия делает адаптеры с низкой энтропией (высокой уверенностью) более взвешенными
Выбор Top-K:
S=TopK({(Li,si)}i=1N,k)
Выбрать k адаптеров с наивысшими баллами в качестве кандидатного пула.
Нормализация весов:
w~i=∑j∈Ssjsi,i∈S
Объединение на уровне выхода (Mixture):
omerge=∑i∈Sw~i⋅oi,T
Преимущества реализации:
- Прямое объединение на уровне выхода, избегая операций на уровне параметров
- Нет необходимости в пересчёте и переприсоединении объединённых матриц весов
- Может быть эффективно реализовано путём регулировки масштабирующих коэффициентов выбранных адаптеров
- Конструкция без обучения:
- Полностью избегает зависимости от обучения, специфичного для задачи, или аннотированных данных
- Использует активацию самого адаптера как индикатор релевантности
- Адаптация на уровне экземпляра:
- Динамически выбирает и объединяет адаптеры для каждого входа
- Не предполагает однородность задач или предопределённые границы задач
- Выбор, управляемый сигналом:
- Извлекает лёгкие сигналы из одного прямого прохода
- Норма и энтропия захватывают различные аспекты релевантности
- Эффективная стратегия объединения:
- Использует объединение на уровне выхода вместо слияния на уровне параметров
- Амортизирует стоимость выбора на длинных выходах
- Адаптация к динамическому пулу:
- Беспрепятственно интегрирует вновь добавленные LoRA
- Не требует переобучения или пересчёта эмбеддингов
Обучение LoRA:
- Обучение адаптеров LoRA на 260 задачах Flan-v2
- Каждый набор данных разделён в соотношении 8:1:1 на обучение/валидацию/тест
- Охватывает 7 основных категорий: вопросно-ответные системы, вывод на естественном языке, классификация/анализ тональности, рассуждение здравого смысла, суммаризация, преобразование данных в текст, перевод
Бенчмарки оценки (5 бенчмарков, 27 наборов данных):
- BIG-Bench Hard (BBH):
- Boolean Expressions, Causal Judgement, Formal Fallacies, Navigate, Object Counting, Sports Understanding, Web of Lies, Word Sorting
- Машинный перевод:
- WMT'14: FR↔EN
- WMT'16: DE↔EN, RO↔EN
- Генерация структурированного текста (GEM):
- CommonGen, DART, E2ENLG, WebNLG
- Закрытые вопросно-ответные системы:
- ARC-c, ARC-e, Natural Questions, TriviaQA
- Вывод на естественном языке:
- ANLI-R1, ANLI-R2, ANLI-R3, QNLI
Сценарии смешанных наборов данных:
- CodeXGLUE: 5 задач программирования (рафинирование кода, перевод кода, код в текст)
- Используется для оценки способности обобщения на невидимые области
- Задачи перевода: BLEU
- Генерация структурированного текста: ROUGE-1, ROUGE-2, ROUGE-L
- Другие задачи: Exact Match (EM)
- Base: базовая предварительно обученная модель без LoRA
- LoRAHub: обучение фиксированных весов комбинации, требует небольшой аннотированный набор
- LoRARetriever:
- Обучение вспомогательной языковой модели для поиска
- Отчёты о двух способах объединения: Mixture и Fusion
- Варианты LoGo:
- LoGo (Norm): использует норму как сигнал
- LoGo (Entropy): использует энтропию как сигнал
Обучение LoRA:
- Размер пакета на устройство: 4
- Накопление градиентов: 16 (эффективный размер пакета 64)
- Скорость обучения: 2×10⁻⁴
- Количество эпох: 20
- Выбор лучшей контрольной точки по валидационной потере
Конфигурация LoGo:
- Количество выбранных LoRA: k=20
- Целевой блок: последний блок Transformer
- Позиция извлечения сигнала: последний токен входной последовательности
- Реализация на основе: PyTorch, HuggingFace, библиотека PEFT (класс PeftMixedModel)
Оборудование:
- Один GPU NVIDIA H100 (тестирование времени вывода)
- GPU NVIDIA H200 (анализ генерации длинного текста)
Основные выводы, представленные в таблице 1:
- LLaMA-3.1-8B:
- Среднее BBH: LoGo (Entropy) 40,0% vs LoRARetriever 40,4% (конкурентоспособно)
- Среднее перевода: LoGo (Entropy) 26,0% vs LoRARetriever 25,9% (незначительное улучшение)
- Среднее структурированного текста: LoGo (Entropy) 50,7% vs LoRARetriever 47,6% (+3,1% улучшение)
- Среднее закрытых вопросов: LoGo (Entropy) 44,3% vs LoRARetriever 43,7% (незначительное улучшение)
- Среднее NLI: LoGo (Entropy) 37,2% vs LoRARetriever 32,6% (+4,6% улучшение)
- Qwen-2.5-7B:
- Среднее BBH: LoGo (Norm) 53,3% vs LoRARetriever 53,6% (конкурентоспособно)
- Среднее перевода: LoGo (Norm) 25,9% vs LoRARetriever 26,0% (сравнимо)
- Среднее структурированного текста: LoGo (Entropy) 53,0% vs LoRARetriever 53,1% (конкурентоспособно)
- Среднее закрытых вопросов: LoGo (Norm) 50,7% vs LoRARetriever 50,7% (сравнимо)
- Среднее NLI: LoGo (Entropy) 63,8% vs LoRARetriever 63,7% (незначительное улучшение)
- DeepSeek-LLM-7B-Base:
- Среднее структурированного текста: LoGo (Norm) 48,2% vs LoRARetriever 44,6% (+3,6% улучшение)
- Общая производительность ниже, но LoGo сохраняет относительное преимущество
Ключевые наблюдения:
- LoGo достигает производительности, сравнимой или превосходящей требующие обучения методы без какого-либо обучения
- Особенно хорошо работает на задачах генерации структурированного текста и NLI
- Показывает согласованную производительность на разных семействах моделей, демонстрируя хорошую обобщаемость
Результаты таблицы 2:
- Code Refinement: LoGo (Norm) 46,3 vs LoRARetriever (Fusion) 42,1
- Code Translation (Java→C#): LoGo (Norm) 11,2 vs LoRARetriever (Fusion) 6,3
- Среднее: LoGo (Norm) 14,4% vs лучший базовый метод 13,3%
Важное значение:
- LoGo эффективно выбирает релевантные адаптеры даже в полностью невидимой области программирования
- Доказывает способность механизма, управляемого сигналом, к кросс-доменной адаптации
- Не требует переобучения или сбора данных для новых областей
Таблица 3: Время вывода (сек/образец):
- Базовая модель: 0,47s (самая быстрая, без адаптеров)
- LoRAHub: 1,15s (вывод) + 24,28s (стоимость обучения)
- LoRARetriever: ~2,03-2,19s
- LoGo: ~1,87-2,08s (сравнимо с LoRARetriever)
Ключевые выводы:
- Время вывода LoGo сравнимо с LoRARetriever
- Но LoRARetriever требует поддержки наборов данных задач и обучения вспомогательной модели эмбеддингов
- Хотя LoRAHub немного быстрее при выводе, требует 24 секунды обучения для каждой новой задачи
Преимущество генерации длинного текста (рисунок 6):
- На наборе данных CNN-DailyMail время вывода на токен быстро снижается с увеличением количества генерируемых токенов
- Стабилизируется примерно после 100 токенов
- Одноразовые затраты на извлечение сигнала амортизируются на длинных последовательностях
Тестирование трёх позиций извлечения сигнала:
- First token: первый токен
- Average: среднее всех токенов
- Last token (по умолчанию): последний токен
Результаты: различия в производительности минимальны, Last token немного лучше, указывая на нечувствительность LoGo к выбору токена.
Тестирование k ∈ {3, 5, 10, 20}:
- Производительность улучшается с увеличением k, но прирост умеренный
- Даже при k=3 достигается производительность, близкая к k=20
- Демонстрирует робастность LoGo, позволяя эффективно работать с небольшим количеством модулей
Тестирование слоёв 0, 7, 15, 23, 31:
- Различия в производительности между слоями незначительны
- Указывает, что паттерны активации, связанные с задачей, распределены по нескольким слоям
- LoGo может робастно оценивать релевантность адаптера с разных глубин
Сравнение Mixture (уровень выхода) и Fusion (уровень параметров):
- Обе стратегии показывают сравнимую производительность
- Но Fusion требует пересчёта и переприсоединения параметров, что увеличивает вычислительные затраты
- Mixture более практична и является выбором по умолчанию для LoGo
- Показывают интенсивность сигнала различных LoRA на разных наборах данных
- Демонстрируют чёткую блочно-диагональную структуру (отмечена красными прямоугольниками)
- Похожие задачи активируют похожие LoRA, подтверждая семантическую релевантность сигнала
- Веса объединения положительно коррелируют с сходством задач
- LoRA с большими весами соответствуют задачам с высоким сходством
- Доказывает, что веса, управляемые сигналом в LoGo, захватывают семантические отношения
Пример BBH Word Sorting:
- Некоторые универсальные LoRA (например, семейство wiki_bio) выбираются последовательно
- Разные образцы выбирают специфичные LoRA в зависимости от потребностей:
- Образец A: предпочитает связанные с суммаризацией (ag_news)
- Образец B: предпочитает генерацию длинного текста (семейство duorc)
Пример E2ENLG:
- Два образца выбирают одинаковые 5 универсальных модулей понимания
- Потому что задача генерации историй не требует специализированных знаний конкретного домена
- Mixture of LoRAs (MoA):
- Обучение маршрутизатора для выбора одного LoRA из кандидатного пула
- Требует аннотированные образцы
- LoRAHub:
- Обучение весов, специфичных для задачи, путём взвешенного суммирования параметров
- Требует небольшой аннотированный набор
- Mixture of LoRA Experts (MoLE):
- Обучение весов, применяемых к выходам LoRA, а не параметрам
- Всё ещё требует обучение, специфичное для задачи
- LoRARetriever:
- Обучение вспомогательной языковой модели для поиска релевантных LoRA
- Требует образцы из смешанного распределения наборов данных
- Новые LoRA требуют пересчёта точек эмбеддинга
- Может показать снижение производительности в сценариях OOD
| Характеристика | LoRAHub/MoLE | LoRARetriever | LoGo |
|---|
| Требование обучения | Требуется (специфично для задачи) | Требуется (модель эмбеддинга) | Не требуется |
| Аннотированные данные | Требуются | Требуются | Не требуются |
| Адаптация на уровне экземпляра | Нет | Да | Да |
| Интеграция новых LoRA | Требуется переобучение | Требуется пересчёт эмбеддинга | Беспрепятственная интеграция |
| Обобщение OOD | Плохое | Среднее | Сильное |
- Эффективность LoGo: LoGo достигает производительности, сравнимой или превосходящей требующие обучения методы без какого-либо обучения, с улучшением до 3,6% на некоторых задачах
- Практичность: сохраняет пропускную способность вывода, сравнимую с методами-базовыми, с амортизацией затрат на длинных выходных задачах
- Обобщаемость: показывает отличную производительность на невидимых областях (CodeXGLUE), доказывая способность кросс-доменной адаптации
- Робастность: нечувствителен к гиперпараметрам (позиция токена, количество модулей, целевой слой)
- Интерпретируемость: веса, управляемые сигналом, выравниваются с сходством задач, обеспечивая интерпретируемый механизм выбора
Ограничения, указанные авторами:
- Надёжность сигнала:
- Основана на сигналах проекции из одного прямого прохода
- В высокой степени OOD сценариях не гарантирует выравнивание с релевантностью задачи
- Область оценки:
- Адаптеры в основном обучены на наборе данных Flan-v2
- Расширение на мультимодальные, низкоресурсные и другие разнообразные области требует дальнейшей оценки
- Память и затраты вывода:
- Одновременное присоединение нескольких адаптеров увеличивает использование памяти
- Может замедлить скорость вывода
- Требует оптимизации управления адаптерами (например, обрезка, выборочная загрузка)
- Чувствительность параметров:
- Хотя нечувствителен к параметрам, таким как k, оптимальная конфигурация может варьироваться в зависимости от задачи
- Управление пулом адаптеров:
- Разработка эффективных стратегий обрезки адаптеров и выборочной загрузки
- Снижение использования памяти и задержки вывода
- Расширение на мультимодальность:
- Расширение LoGo на модели зрения-языка
- Исследование механизмов извлечения кросс-модальных сигналов
- Теоретический анализ:
- Предоставление теоретических гарантий отношения между сигналом и релевантностью задачи
- Анализ робастности при различных сдвигах распределения
- Адаптивный выбор сигнала:
- Динамический выбор типа сигнала (норма/энтропия) на основе характеристик входа
- Исследование более богатых представлений сигналов
- Онлайн обучение:
- Интеграция онлайн-обратной связи для непрерывной настройки стратегии выбора
- Без необходимости полного переобучения
- Сильная инновационность:
- Первый полностью беспрепятственный фреймворк выбора и объединения LoRA на уровне экземпляра
- Новый и интуитивный дизайн, управляемый сигналом
- Решает критические проблемы реального развёртывания
- Комплексные эксперименты:
- 5 бенчмарков, 27 наборов данных, 3 семейства моделей
- Включает сценарии смешанных наборов данных (CodeXGLUE)
- Подробные абляционные исследования и анализ случаев
- Приложение содержит полный список 260 задач Flan-v2
- Убедительные результаты:
- Достигает производительности, сравнимой или превосходящей требующие обучения методы на большинстве задач
- Полный анализ вычислительной эффективности
- Интуитивные визуализации (тепловые карты, графики выравнивания) демонстрируют механизм
- Высокая практическая ценность:
- Не требует аннотированных данных и переобучения
- Беспрепятственная интеграция новых LoRA
- Подходит для динамически развивающихся реальных систем
- Ясное изложение:
- Достаточное обоснование проблемной мотивации
- Подробное описание метода (включая псевдокод алгоритма)
- Прозрачная экспериментальная установка, обещание открытого исходного кода
- Слабая теоретическая база:
- Отсутствует теоретический анализ отношения между сигналом и релевантностью задачи
- Почему норма/энтропия захватывают релевантность не доказано строго
- Условия, при которых метод может не сработать, не уточнены
- Ограниченное улучшение производительности:
- На некоторых задачах улучшение значительно (3,6%), но на других только сравнимо
- Нет явного преимущества над LoRARetriever
- Общая производительность ниже на модели DeepSeek
- Проблемы в дизайне экспериментов:
- Все методы фиксируют k=20, но разные задачи могут требовать разные количества
- Отсутствует сравнение с более новыми методами (например, новые подходы MoE)
- Отсутствуют тесты статистической значимости (только результаты одного прогона)
- Ограничения применимости:
- Зависит от большого пула предварительно обученных LoRA (260)
- Производительность при малом количестве LoRA неизвестна
- Зависимость от качества LoRA не обсуждается
- Недостаточная глубина анализа:
- Отсутствует анализ случаев отказа
- Почему некоторые задачи показывают большое улучшение, а другие нет, не исследовано глубоко
- Сценарии применимости различных сигналов (норма vs энтропия) недостаточно проанализированы
- Вычислительные затраты:
- Хотя время вывода сравнимо, требуется один прямой проход всех LoRA
- Затраты растут линейно с количеством LoRA
- Масштабирование на тысячи LoRA не обсуждается
- Академический вклад:
- Предлагает новую парадигму без обучения для комбинирования нескольких LoRA
- Вдохновляет последующие исследования на исследование большего количества типов сигналов и стратегий выбора
- Может повлиять на практику развёртывания методов PEFT
- Практическая ценность:
- Прямо применимо к производственным системам, обрабатывающим гетерогенные задачи
- Снижает стоимость развёртывания многозадачной адаптации
- Особенно подходит для конфиденциальных или трудно аннотируемых сценариев
- Воспроизводимость:
- Достаточно подробные детали реализации
- Обещание открытого исходного кода и 260 LoRA
- Основано на популярных библиотеках (HuggingFace, PEFT)
- Ограниченное влияние:
- Зависимость от большого пула высокого качества LoRA может ограничить применение малыми командами
- Слабая теоретическая база может ограничить дальнейшее развитие метода
Наиболее подходящие сценарии:
- Многодоменные системы диалога: запросы пользователей охватывают несколько несвязанных задач
- Приложения, чувствительные к конфиденциальности: невозможно собрать аннотированные данные
- Быстрое прототипирование: быстрая интеграция способностей нескольких задач
- Динамическая среда задач: требования задач часто меняются
- Генерация длинного текста: амортизация затрат выбора
Менее подходящие сценарии:
- Развёртывание одной задачи: прямое использование специализированного LoRA проще
- Очень маленький пул LoRA: преимущества не очевидны
- Экстремальные требования реального времени: затраты одного прямого прохода могут быть слишком велики
- Высокая степень OOD: сигнал может быть ненадёжным
Ключевые цитирования:
- Hu et al. (2022): LoRA: Low-rank adaptation of large language models (ICLR) — оригинальный метод LoRA
- Huang et al. (2024): LoRAHub: Efficient cross-task generalization via dynamic lora composition (ICLR) — основной базовый метод
- Zhao et al. (2024): LoRARetriever: Input-aware lora retrieval and composition for mixed tasks in the wild (ACL) — основной базовый метод
- Wei et al. (2022): Finetuned language models are zero-shot learners (ICLR) — модели Flan и наборы данных
- Feng et al. (2024): Mixture-of-loras: An efficient multitask tuning for large language models (COLING) — метод MoA
Общая оценка: Это инновационная и практически ценная статья, предлагающая первый полностью беспрепятственный фреймворк выбора и объединения LoRA на уровне экземпляра. Эксперименты комплексны, результаты убедительны, решаются критические проблемы реального развёртывания. Основные недостатки заключаются в слабой теоретической базе и ограниченном улучшении производительности на некоторых задачах. Однако, учитывая огромное преимущество отсутствия необходимости в каком-либо обучении, эта работа имеет важное значение для развёртывания многозадачных LLM и, как ожидается, будет иметь значительное влияние. Рекомендуется обратить внимание на последующие теоретические анализы и работы по расширению.