Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
- ID статьи: 2507.16083
- Название: Efficient Compositional Multi-tasking for On-device Large Language Models
- Авторы: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- Учреждения: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
- Классификация: cs.CL cs.AI cs.LG
- Дата публикации: 11 октября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2507.16083
Параметры адаптеров предоставляют механизм для изменения поведения моделей машинного обучения и получили широкое распространение в области больших языковых моделей (LLMs) и генеративного ИИ. Эти параметры могут поддерживать многозадачную обработку через процесс объединения задач. Однако предыдущие работы по объединению в LLMs, особенно в области обработки естественного языка, ограничивались сценариями, в которых каждый тестовый образец обрабатывает только одну задачу. Данная статья сосредоточена на параметрах на устройстве и исследует проблему композиционной многозадачности на основе текста, где каждый тестовый образец должен одновременно выполнять несколько задач. Например, создание переведённого резюме длинного текста требует одновременного решения задач перевода и суммаризации. Для содействия исследованиям в этой области мы предлагаем эталон, содержащий четыре практических композиционных задачи. Мы также предлагаем эффективный метод для приложений на устройстве (Learnable Calibration), подчёркивающий необходимость решений, которые являются одновременно ресурсоэффективными и высокопроизводительными в среде с ограниченными вычислительными ресурсами.
Традиционная многозадачная обработка LLM в основном сосредоточена на однозадачных сценариях, когда каждый тестовый образец включает только одну задачу (например, только перевод или только суммаризация). Однако практические приложения часто требуют композиционной многозадачной обработки, то есть одновременного выполнения нескольких задач при одном выводе, таких как создание переведённого резюме, создание ответа с определённым тоном и т.д.
- Практическая ценность: Композиционная многозадачность широко востребована в реальных сценариях, таких как интеллектуальные ответы в кросс-языковых сценариях, создание резюме с определённым тоном и т.д.
- Требования к эффективности: LLMs на устройстве имеют ограниченные ресурсы и требуют выполнения нескольких задач при одном выводе, избегая потерь эффективности от многократного вывода
- Ограничения хранилища: Мобильные устройства имеют ограниченное хранилище и не могут обучать независимые адаптеры для каждой композиционной задачи
- Традиционные стратегии объединения: Методы, такие как TIES и DARE, показывают плохую производительность в сценариях многозадачного объединения
- Многошаговые решения: Хотя эффективны, они требуют многократного вывода, что неэффективно
- Независимое обучение: Обучение специализированных адаптеров для каждой композиционной задачи требует больших затрат на хранилище
- Первое предложение проблемы композиционной многозадачности: Определение проблемы композиционной многозадачной обработки для LLMs на устройстве
- Построение практического эталона: Разработка комплексного эталона с 14 подзадачами, охватывающего четыре основные категории: суммаризация + перевод, суммаризация + корректировка тона, ответ + перевод, ответ + корректировка тона
- Предложение метода Learnable Calibration: Разработка двух вариантов эффективного решения, минимизирующего затраты на хранилище и вычисления при сохранении высокой производительности
- Комплексная экспериментальная проверка: Проверка эффективности и универсальности метода на нескольких LLMs на устройстве
Композиционная многозадачность определяется как:
TC[N](x)=TN(…T2(T1(x)))
где входные данные x последовательно обрабатываются N задачами, в данной работе в основном исследуется случай N=2, включая:
- Основная задача T1: создание резюме или ответа
- Вспомогательная задача T2: перевод или корректировка тона
На основе механизма адаптера LoRA, скорректированное прямое распространение:
h=W0x+ΔWx=W0x+BAx
где B∈Rd×r, A∈Rr×k, r≪min(d,k).
Основная идея: Начиная с линейного объединения однозадачных LoRAs, калибровка с помощью небольшого количества дополнительных параметров.
Начальное объединение:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
Вариант 1 - Learnable Calibration:
Использование вектора смещения столбца калибровки p∈Rd:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
Вариант 2 - Learnable Calibration++:
Введение матрицы калибровки LoRA P2P1:
ΔWc=P2P1+ΔW′
- Лёгкая калибровка: Требует только 0,08-0,56% дополнительных параметров, затраты на хранилище менее 0,5 МБ
- Специфичность задачи: Обучение специализированных параметров калибровки для различных композиционных задач
- Сильная совместимость: Совместимость с существующими фреймворками (Android AI Core, Apple Intelligence)
- Совместное использование параметров: Поддержка совместного использования параметров между задачами для дальнейшего снижения требований к хранилищу
Построение эталонного набора данных:
- Задача суммаризации: Набор данных DialogSum (12 460/500/1 500 для обучения/валидации/тестирования)
- Задача ответа: Синтетический набор данных Persona Chat (225 061/1 000/1 000)
- Задача перевода: Набор данных TED Talks, английский на испанский/французский/немецкий
- Корректировка тона: Набор данных Sound Natural, четыре тона (профессиональный/неформальный/юмористический/пересказ)
Создание композиционных задач:
- Использование модели OpusMT для перевода
- Использование модели RedPajama-INCITE-Base 3B для корректировки тона
- Задачи суммаризации: ROUGE-L (R-L)
- Задачи ответа: Взвешенный ROUGE (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- LLM Judge: Использование Llama 3.1 70B для двоичной оценки
Базовые методы:
- Zero-shot, основная задача LoRA, вспомогательная задача LoRA
- Обучение в контексте, многошаговое использование LoRA
- Различные стратегии объединения: Linear, TIES, DARE, Slerp, LoraHub и т.д.
Справочные методы:
- Многошаговое использование LoRA (неэффективно, но высокопроизводительно)
- Объединённые специалисты LoRA (специально обучены для каждой композиционной задачи)
- Модели: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
- Конфигурация LoRA: rank=32, α=16, dropout=0,05
- Обучение: Оптимизатор Adam, скорость обучения 5×10⁻⁵ (LoRA), 5×10⁻⁴ (параметры калибровки)
- Обучение калибровки: Случайный выбор 10 000 образцов композиционных задач
| Категория метода | Сум.+Пер. | Сум.+Тон | Отв.+Пер. | Отв.+Тон | Эффективность |
|---|
| Эффективные базовые методы | | | | | |
| Zero-shot | 0,44% | 6,52% | 4,11% | 33,66% | ✓ |
| Основная задача LoRA | 3,49% | 4,18% | 7,17% | 36,25% | ✓ |
| Линейное объединение | 0,33% | 2,74% | 12,81% | 41,93% | ✓ |
| Объединение TIES | 0,81% | 6,06% | 8,30% | 47,87% | ✓ |
| Неэффективные базовые методы | | | | | |
| Многошаговая LoRA | 72,92% | 34,32% | 69,83% | 45,78% | ✗ |
| Объединённые специалисты LoRA | 49,85% | 16,14% | 65,73% | 47,06% | ✗ |
| Предложенный метод | | | | | |
| Learnable Calibration | 59,23% | 28,89% | 57,46% | 44,99% | ✓ |
| Learnable Calibration++ | 65,15% | 34,34% | 63,81% | 45,40% | ✓ |
Значения в таблице - оценки LLM Judge (%)
- Отказ традиционных стратегий объединения: Существующие методы объединения показывают крайне плохую производительность в сценариях композиционной многозадачности (оценки LLM Judge обычно <10%)
- Компромисс между эффективностью и производительностью: Предложенный метод при ограничении одного вывода достигает производительности, близкой или превосходящей многошаговые базовые методы
- Последовательная производительность: Learnable Calibration++ достигает лучшей производительности на всех задачах
Анализ эффективности хранилища:
- Многошаговая LoRA: 0 дополнительных параметров, но требует 2 выводов
- Объединённые специалисты LoRA: 30M параметров, 57,10 МБ хранилища
- Learnable Calibration: 23K параметров, 0,05 МБ хранилища
- Learnable Calibration++: 166K параметров, 0,32 МБ хранилища
Роль предварительно обученных адаптеров:
После удаления предварительно обученных LoRAs производительность немного снижается, но остаётся лучше большинства базовых методов, что доказывает ценность использования существующих адаптеров.
- Адаптивность к размеру модели: Хорошая производительность на моделях с параметрами 0,5B-3B
- Обобщение вне домена: Стабильная производительность на различных наборах данных диалогов
- Расширение на три задачи: Поддержка трёхсторонних композиционных задач суммаризация + тон + перевод
- LoRA и его варианты: Методы расширения DoRA, AdaLoRA, Delta-LoRA и т.д.
- Другие методы PEFT: Методы обучения параметров смещения BitFit и т.д.
- Ранние работы: Методы линейного объединения Model Soup и т.д.
- Продвинутые техники: Стратегии разрешения конфликтов TIES, DARE, Slerp и т.д.
- Адаптивные методы: Обучаемое объединение LoraHub, LM-Cocktail, DAM и т.д.
- Техники сжатия: Квантизация моделей, дистилляция знаний и т.д.
- Представительные модели: LLaMA 3.2, Qwen2.5, StableLM2 и другие модели с параметрами 1-3B
- Проблемы развёртывания: Ограничения хранилища, вычислительные ограничения, требования конфиденциальности
- Значимость проблемы: Композиционная многозадачность является важным требованием для LLMs на устройстве, традиционные методы не могут эффективно её решить
- Эффективность метода: Learnable Calibration достигает производительности, сравнимой с неэффективными базовыми методами, сохраняя эффективность
- Практическая ценность: Минимальные затраты на хранилище (<0,5 МБ) делают метод пригодным для практического развёртывания
- Диапазон оценки: В основном сосредоточена на моделях на устройстве с параметрами 1-3B, проверка на больших моделях отсутствует
- Количество задач: В основном исследуются композиции 2-3 задач, масштабируемость для большего количества задач требует дальнейшей проверки
- Зависимость от данных: Требует данных композиционных задач для обучения параметров калибровки, менее эффективна, чем полностью бездатные методы объединения
- Исследование безопасности: Изучение влияния композиционной многозадачности на механизмы безопасности модели
- Оптимизация масштабируемости: Исследование методов обработки большего количества композиций задач
- Объединение без образцов: Разработка методов композиционной многозадачности без дополнительных данных
- Инновативность проблемы: Первое систематическое исследование проблемы композиционной многозадачности, заполнение важного исследовательского пробела
- Практичность метода: Минимальные затраты на хранилище и вычисления, пригодны для практического развёртывания
- Полнота экспериментов: Комплексное сравнение базовых методов, абляционные исследования и расширенный анализ
- Вклад эталона: Построенный эталон с 14 подзадачами предоставляет стандартную платформу оценки для последующих исследований
- Недостаток теоретического анализа: Отсутствие глубокого теоретического объяснения того, почему параметры калибровки эффективны
- Ограничение выбора задач: В основном сосредоточена на задачах NLP, применимость в других модальностях неизвестна
- Единственность метрик оценки: В основном полагается на ROUGE и LLM Judge, отсутствует человеческая оценка
- Академическая ценность: Открытие нового направления исследований, ожидается последующая работа
- Промышленное применение: Прямое применение в разработке приложений ИИ для мобильных устройств
- Воспроизводимость: Предоставление подробных деталей реализации и данных эталона
- Мобильные приложения: Смартфоны, планшеты и другие устройства с ограниченными ресурсами
- Граничные вычисления: Устройства IoT, встроенные системы
- Сценарии, чувствительные к конфиденциальности: Приложения, требующие локальной обработки для избежания загрузки данных
Статья ссылается на большое количество связанных работ, включая в основном:
- Hu et al. (2022): Оригинальная статья LoRA
- Wortsman et al. (2022): Метод объединения моделей Model Soup
- Yadav et al. (2024): Стратегия объединения TIES
- Gunter et al. (2024): Опыт развёртывания Apple Intelligence на устройстве
Общая оценка: Это высококачественная исследовательская статья, решающая практически важную проблему, предлагающая эффективное решение и проводящая полную экспериментальную проверку. Данная работа предоставляет новые идеи для многозадачной обработки LLMs на устройстве и имеет важную академическую и практическую ценность.