2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.
Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
academic

Эффективная композиционная многозадачность для больших языковых моделей на устройстве

Основная информация

  • ID статьи: 2507.16083
  • Название: Efficient Compositional Multi-tasking for On-device Large Language Models
  • Авторы: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
  • Учреждения: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
  • Классификация: cs.CL cs.AI cs.LG
  • Дата публикации: 11 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2507.16083

Аннотация

Параметры адаптеров предоставляют механизм для изменения поведения моделей машинного обучения и получили широкое распространение в области больших языковых моделей (LLMs) и генеративного ИИ. Эти параметры могут поддерживать многозадачную обработку через процесс объединения задач. Однако предыдущие работы по объединению в LLMs, особенно в области обработки естественного языка, ограничивались сценариями, в которых каждый тестовый образец обрабатывает только одну задачу. Данная статья сосредоточена на параметрах на устройстве и исследует проблему композиционной многозадачности на основе текста, где каждый тестовый образец должен одновременно выполнять несколько задач. Например, создание переведённого резюме длинного текста требует одновременного решения задач перевода и суммаризации. Для содействия исследованиям в этой области мы предлагаем эталон, содержащий четыре практических композиционных задачи. Мы также предлагаем эффективный метод для приложений на устройстве (Learnable Calibration), подчёркивающий необходимость решений, которые являются одновременно ресурсоэффективными и высокопроизводительными в среде с ограниченными вычислительными ресурсами.

Исследовательский контекст и мотивация

Определение проблемы

Традиционная многозадачная обработка LLM в основном сосредоточена на однозадачных сценариях, когда каждый тестовый образец включает только одну задачу (например, только перевод или только суммаризация). Однако практические приложения часто требуют композиционной многозадачной обработки, то есть одновременного выполнения нескольких задач при одном выводе, таких как создание переведённого резюме, создание ответа с определённым тоном и т.д.

Анализ значимости

  1. Практическая ценность: Композиционная многозадачность широко востребована в реальных сценариях, таких как интеллектуальные ответы в кросс-языковых сценариях, создание резюме с определённым тоном и т.д.
  2. Требования к эффективности: LLMs на устройстве имеют ограниченные ресурсы и требуют выполнения нескольких задач при одном выводе, избегая потерь эффективности от многократного вывода
  3. Ограничения хранилища: Мобильные устройства имеют ограниченное хранилище и не могут обучать независимые адаптеры для каждой композиционной задачи

Ограничения существующих методов

  1. Традиционные стратегии объединения: Методы, такие как TIES и DARE, показывают плохую производительность в сценариях многозадачного объединения
  2. Многошаговые решения: Хотя эффективны, они требуют многократного вывода, что неэффективно
  3. Независимое обучение: Обучение специализированных адаптеров для каждой композиционной задачи требует больших затрат на хранилище

Основные вклады

  1. Первое предложение проблемы композиционной многозадачности: Определение проблемы композиционной многозадачной обработки для LLMs на устройстве
  2. Построение практического эталона: Разработка комплексного эталона с 14 подзадачами, охватывающего четыре основные категории: суммаризация + перевод, суммаризация + корректировка тона, ответ + перевод, ответ + корректировка тона
  3. Предложение метода Learnable Calibration: Разработка двух вариантов эффективного решения, минимизирующего затраты на хранилище и вычисления при сохранении высокой производительности
  4. Комплексная экспериментальная проверка: Проверка эффективности и универсальности метода на нескольких LLMs на устройстве

Подробное описание метода

Определение задачи

Композиционная многозадачность определяется как: TC[N](x)=TN(T2(T1(x)))T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))

где входные данные xx последовательно обрабатываются NN задачами, в данной работе в основном исследуется случай N=2N=2, включая:

  • Основная задача T1T_1: создание резюме или ответа
  • Вспомогательная задача T2T_2: перевод или корректировка тона

Архитектура модели

Основа LoRA

На основе механизма адаптера LoRA, скорректированное прямое распространение: h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

где BRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, rmin(d,k)r \ll \min(d,k).

Метод Learnable Calibration

Основная идея: Начиная с линейного объединения однозадачных LoRAs, калибровка с помощью небольшого количества дополнительных параметров.

Начальное объединение: B=1Ni=1NBi,A=1Ni=1NAiB' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i

Вариант 1 - Learnable Calibration: Использование вектора смещения столбца калибровки pRdp \in \mathbb{R}^d: ΔWc=pBA=i=1dpiΔWi\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i

Вариант 2 - Learnable Calibration++: Введение матрицы калибровки LoRA P2P1P_2P_1: ΔWc=P2P1+ΔW\Delta W^c = P_2P_1 + \Delta W'

Технические инновации

  1. Лёгкая калибровка: Требует только 0,08-0,56% дополнительных параметров, затраты на хранилище менее 0,5 МБ
  2. Специфичность задачи: Обучение специализированных параметров калибровки для различных композиционных задач
  3. Сильная совместимость: Совместимость с существующими фреймворками (Android AI Core, Apple Intelligence)
  4. Совместное использование параметров: Поддержка совместного использования параметров между задачами для дальнейшего снижения требований к хранилищу

Экспериментальная установка

Наборы данных

Построение эталонного набора данных:

  • Задача суммаризации: Набор данных DialogSum (12 460/500/1 500 для обучения/валидации/тестирования)
  • Задача ответа: Синтетический набор данных Persona Chat (225 061/1 000/1 000)
  • Задача перевода: Набор данных TED Talks, английский на испанский/французский/немецкий
  • Корректировка тона: Набор данных Sound Natural, четыре тона (профессиональный/неформальный/юмористический/пересказ)

Создание композиционных задач:

  • Использование модели OpusMT для перевода
  • Использование модели RedPajama-INCITE-Base 3B для корректировки тона

Метрики оценки

  • Задачи суммаризации: ROUGE-L (R-L)
  • Задачи ответа: Взвешенный ROUGE (W-R) = ROUGE-16+ROUGE-23+ROUGE-32\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}
  • LLM Judge: Использование Llama 3.1 70B для двоичной оценки

Методы сравнения

Базовые методы:

  • Zero-shot, основная задача LoRA, вспомогательная задача LoRA
  • Обучение в контексте, многошаговое использование LoRA
  • Различные стратегии объединения: Linear, TIES, DARE, Slerp, LoraHub и т.д.

Справочные методы:

  • Многошаговое использование LoRA (неэффективно, но высокопроизводительно)
  • Объединённые специалисты LoRA (специально обучены для каждой композиционной задачи)

Детали реализации

  • Модели: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
  • Конфигурация LoRA: rank=32, α=16, dropout=0,05
  • Обучение: Оптимизатор Adam, скорость обучения 5×10⁻⁵ (LoRA), 5×10⁻⁴ (параметры калибровки)
  • Обучение калибровки: Случайный выбор 10 000 образцов композиционных задач

Результаты экспериментов

Основные результаты

Категория методаСум.+Пер.Сум.+ТонОтв.+Пер.Отв.+ТонЭффективность
Эффективные базовые методы
Zero-shot0,44%6,52%4,11%33,66%
Основная задача LoRA3,49%4,18%7,17%36,25%
Линейное объединение0,33%2,74%12,81%41,93%
Объединение TIES0,81%6,06%8,30%47,87%
Неэффективные базовые методы
Многошаговая LoRA72,92%34,32%69,83%45,78%
Объединённые специалисты LoRA49,85%16,14%65,73%47,06%
Предложенный метод
Learnable Calibration59,23%28,89%57,46%44,99%
Learnable Calibration++65,15%34,34%63,81%45,40%

Значения в таблице - оценки LLM Judge (%)

Ключевые выводы

  1. Отказ традиционных стратегий объединения: Существующие методы объединения показывают крайне плохую производительность в сценариях композиционной многозадачности (оценки LLM Judge обычно <10%)
  2. Компромисс между эффективностью и производительностью: Предложенный метод при ограничении одного вывода достигает производительности, близкой или превосходящей многошаговые базовые методы
  3. Последовательная производительность: Learnable Calibration++ достигает лучшей производительности на всех задачах

Абляционные исследования

Анализ эффективности хранилища:

  • Многошаговая LoRA: 0 дополнительных параметров, но требует 2 выводов
  • Объединённые специалисты LoRA: 30M параметров, 57,10 МБ хранилища
  • Learnable Calibration: 23K параметров, 0,05 МБ хранилища
  • Learnable Calibration++: 166K параметров, 0,32 МБ хранилища

Роль предварительно обученных адаптеров: После удаления предварительно обученных LoRAs производительность немного снижается, но остаётся лучше большинства базовых методов, что доказывает ценность использования существующих адаптеров.

Расширенный анализ

  1. Адаптивность к размеру модели: Хорошая производительность на моделях с параметрами 0,5B-3B
  2. Обобщение вне домена: Стабильная производительность на различных наборах данных диалогов
  3. Расширение на три задачи: Поддержка трёхсторонних композиционных задач суммаризация + тон + перевод

Связанные работы

Параметрически эффективная тонкая настройка (PEFT)

  • LoRA и его варианты: Методы расширения DoRA, AdaLoRA, Delta-LoRA и т.д.
  • Другие методы PEFT: Методы обучения параметров смещения BitFit и т.д.

Объединение моделей

  • Ранние работы: Методы линейного объединения Model Soup и т.д.
  • Продвинутые техники: Стратегии разрешения конфликтов TIES, DARE, Slerp и т.д.
  • Адаптивные методы: Обучаемое объединение LoraHub, LM-Cocktail, DAM и т.д.

LLMs на устройстве

  • Техники сжатия: Квантизация моделей, дистилляция знаний и т.д.
  • Представительные модели: LLaMA 3.2, Qwen2.5, StableLM2 и другие модели с параметрами 1-3B
  • Проблемы развёртывания: Ограничения хранилища, вычислительные ограничения, требования конфиденциальности

Заключение и обсуждение

Основные выводы

  1. Значимость проблемы: Композиционная многозадачность является важным требованием для LLMs на устройстве, традиционные методы не могут эффективно её решить
  2. Эффективность метода: Learnable Calibration достигает производительности, сравнимой с неэффективными базовыми методами, сохраняя эффективность
  3. Практическая ценность: Минимальные затраты на хранилище (<0,5 МБ) делают метод пригодным для практического развёртывания

Ограничения

  1. Диапазон оценки: В основном сосредоточена на моделях на устройстве с параметрами 1-3B, проверка на больших моделях отсутствует
  2. Количество задач: В основном исследуются композиции 2-3 задач, масштабируемость для большего количества задач требует дальнейшей проверки
  3. Зависимость от данных: Требует данных композиционных задач для обучения параметров калибровки, менее эффективна, чем полностью бездатные методы объединения

Будущие направления

  1. Исследование безопасности: Изучение влияния композиционной многозадачности на механизмы безопасности модели
  2. Оптимизация масштабируемости: Исследование методов обработки большего количества композиций задач
  3. Объединение без образцов: Разработка методов композиционной многозадачности без дополнительных данных

Глубокая оценка

Преимущества

  1. Инновативность проблемы: Первое систематическое исследование проблемы композиционной многозадачности, заполнение важного исследовательского пробела
  2. Практичность метода: Минимальные затраты на хранилище и вычисления, пригодны для практического развёртывания
  3. Полнота экспериментов: Комплексное сравнение базовых методов, абляционные исследования и расширенный анализ
  4. Вклад эталона: Построенный эталон с 14 подзадачами предоставляет стандартную платформу оценки для последующих исследований

Недостатки

  1. Недостаток теоретического анализа: Отсутствие глубокого теоретического объяснения того, почему параметры калибровки эффективны
  2. Ограничение выбора задач: В основном сосредоточена на задачах NLP, применимость в других модальностях неизвестна
  3. Единственность метрик оценки: В основном полагается на ROUGE и LLM Judge, отсутствует человеческая оценка

Влияние

  1. Академическая ценность: Открытие нового направления исследований, ожидается последующая работа
  2. Промышленное применение: Прямое применение в разработке приложений ИИ для мобильных устройств
  3. Воспроизводимость: Предоставление подробных деталей реализации и данных эталона

Применимые сценарии

  1. Мобильные приложения: Смартфоны, планшеты и другие устройства с ограниченными ресурсами
  2. Граничные вычисления: Устройства IoT, встроенные системы
  3. Сценарии, чувствительные к конфиденциальности: Приложения, требующие локальной обработки для избежания загрузки данных

Библиография

Статья ссылается на большое количество связанных работ, включая в основном:

  • Hu et al. (2022): Оригинальная статья LoRA
  • Wortsman et al. (2022): Метод объединения моделей Model Soup
  • Yadav et al. (2024): Стратегия объединения TIES
  • Gunter et al. (2024): Опыт развёртывания Apple Intelligence на устройстве

Общая оценка: Это высококачественная исследовательская статья, решающая практически важную проблему, предлагающая эффективное решение и проводящая полную экспериментальную проверку. Данная работа предоставляет новые идеи для многозадачной обработки LLMs на устройстве и имеет важную академическую и практическую ценность.