2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

Multitâches Compositionnels Efficaces pour les Grands Modèles de Langage sur Appareil

Informations Fondamentales

ID de l'article: 2507.16083
Titre: Efficient Compositional Multi-tasking for On-device Large Language Models
Auteurs: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
Institutions: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
Classification: cs.CL cs.AI cs.LG
Date de publication: 11 octobre 2025 (arXiv v2)
Lien de l'article: https://arxiv.org/abs/2507.16083

Résumé

Les paramètres d'adaptateurs fournissent un mécanisme pour modifier le comportement des modèles d'apprentissage automatique et ont reçu une attention considérable dans le domaine des grands modèles de langage (LLMs) et de l'IA générative. Ces paramètres peuvent soutenir le traitement multitâche par le biais de processus de fusion de tâches. Cependant, les travaux antérieurs sur la fusion dans les LLMs, en particulier dans le domaine du traitement du langage naturel, se limitaient à des scénarios où chaque échantillon de test ne traite qu'une seule tâche. Cet article se concentre sur les paramètres sur appareil et étudie les problèmes multitâches compositionnels basés sur du texte, où chaque échantillon de test doit exécuter simultanément plusieurs tâches. Par exemple, générer un résumé traduit d'un long texte nécessite de résoudre simultanément les tâches de traduction et de résumé. Pour promouvoir la recherche dans ce domaine, nous proposons un benchmark contenant quatre tâches compositionnelles pratiques. Nous proposons également une méthode efficace pour les applications sur appareil (Learnable Calibration), soulignant le besoin de solutions à la fois efficaces en ressources et performantes dans les environnements aux ressources informatiques limitées.

Contexte de Recherche et Motivation

Définition du Problème

Le traitement multitâche traditionnel des LLMs se concentre principalement sur des scénarios à tâche unique, où chaque échantillon de test n'implique qu'une seule tâche (comme la traduction seule ou le résumé seul). Cependant, les applications pratiques nécessitent souvent un traitement multitâche compositionnel, c'est-à-dire l'exécution simultanée de plusieurs tâches lors d'une seule inférence, comme la génération d'un résumé traduit, la génération de réponses avec un ton spécifique, etc.

Analyse de l'Importance

Valeur pratique: Le multitâche compositionnel est largement demandé dans les scénarios réels, comme les réponses intelligentes dans les contextes multilingues, la génération de résumés avec un ton spécifique, etc.
Exigences d'efficacité: Les LLMs sur appareil ont des ressources limitées et doivent accomplir plusieurs tâches lors d'une seule inférence, évitant les pertes d'efficacité dues à plusieurs inférences.
Contraintes de stockage: Les appareils mobiles ont un stockage limité et ne peuvent pas entraîner des adaptateurs indépendants pour chaque tâche composite.

Limitations des Méthodes Existantes

Stratégies de fusion traditionnelles: Les méthodes telles que TIES et DARE fonctionnent mal dans les scénarios multitâches composites.
Solutions multi-étapes: Bien qu'efficaces, elles nécessitent plusieurs inférences, ce qui est inefficace.
Entraînement indépendant: L'entraînement d'adaptateurs spécialisés pour chaque tâche composite entraîne des frais généraux de stockage importants.

Contributions Principales

Première proposition du problème multitâche compositionnel: Définition des défis du traitement multitâche compositionnel pour les LLMs sur appareil.
Construction d'un benchmark pratique: Développement d'un benchmark complet contenant 14 sous-tâches, couvrant quatre catégories: résumé + traduction, résumé + ajustement de ton, réponse + traduction, réponse + ajustement de ton.
Proposition de la méthode Learnable Calibration: Conception de deux variantes de solutions efficaces qui minimisent les frais généraux de stockage et de calcul tout en maintenant des performances élevées.
Vérification expérimentale complète: Validation de l'efficacité et de la généralité de la méthode sur plusieurs LLMs sur appareil.

Explication Détaillée de la Méthode

Définition des Tâches

Le multitâche compositionnel est défini comme: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

où l'entrée $x$ est traitée successivement par $N$ tâches. Cet article étudie principalement le cas $N=2$ , incluant:

Tâche principale $T_1$ : Génération de résumé ou de réponse
Tâche auxiliaire $T_2$ : Traduction ou ajustement de ton

Architecture du Modèle

Fondements de LoRA

Basé sur le mécanisme d'adaptateur LoRA, la propagation avant ajustée est: $h = W_0x + \Delta Wx = W_0x + BAx$

où $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$ .

Méthode Learnable Calibration

Idée centrale: Commencer par la fusion linéaire des LoRAs à tâche unique, puis calibrer avec un petit nombre de paramètres supplémentaires.

Fusion initiale: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

Variante 1 - Learnable Calibration: Utilisation d'un vecteur de biais colonne $p \in \mathbb{R}^d$ pour la calibration: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

Variante 2 - Learnable Calibration++: Introduction d'une matrice LoRA de calibration $P_2P_1$ : $\Delta W^c = P_2P_1 + \Delta W'$

Points d'Innovation Technique

Calibration légère: Nécessite seulement 0,08-0,56% de paramètres supplémentaires, frais généraux de stockage inférieurs à 0,5 MB.
Spécificité des tâches: Apprentissage de paramètres de calibration spécialisés pour différentes tâches composites.
Forte compatibilité: Compatible avec les cadres existants (Android AI Core, Apple Intelligence).
Partage de paramètres: Soutien du partage de paramètres entre tâches pour réduire davantage les besoins de stockage.

Configuration Expérimentale

Ensembles de Données

Construction du benchmark:

Tâche de résumé: Ensemble de données DialogSum (12 460/500/1 500 entraînement/validation/test)
Tâche de réponse: Ensemble de données Synthetic Persona Chat (225 061/1 000/1 000)
Tâche de traduction: Ensemble de données TED Talks, anglais vers espagnol/français/allemand
Ajustement de ton: Ensemble de données Sound Natural, quatre tons (professionnel/décontracté/humoristique/rapporté)

Génération de tâches composites:

Utilisation du modèle OpusMT pour la traduction
Utilisation du modèle RedPajama-INCITE-Base 3B pour l'ajustement de ton

Métriques d'Évaluation

Tâches de résumé: ROUGE-L (R-L)
Tâches de réponse: ROUGE pondéré (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
Juge LLM: Utilisation de Llama 3.1 70B pour l'évaluation binaire

Méthodes de Comparaison

Méthodes de base:

Zero-shot, LoRA de tâche principale, LoRA de tâche auxiliaire
Apprentissage en contexte, utilisation de LoRA multi-étapes
Diverses stratégies de fusion: Linear, TIES, DARE, Slerp, LoraHub, etc.

Méthodes de référence:

Utilisation de LoRA multi-étapes (inefficace mais performante)
LoRA d'experts conjoints (entraînement spécialisé pour chaque tâche composite)

Détails d'Implémentation

Modèles: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
Configuration LoRA: rank=32, α=16, dropout=0.05
Entraînement: Optimiseur Adam, taux d'apprentissage 5×10⁻⁵ (LoRA), 5×10⁻⁴ (paramètres de calibration)
Entraînement de calibration: Sélection aléatoire de 10 000 échantillons de tâches composites

Résultats Expérimentaux

Résultats Principaux

Catégorie de Méthode	Rés.+Trad.	Rés.+Ton	Rép.+Trad.	Rép.+Ton	Efficacité
Bases Efficaces
Zero-shot	0,44%	6,52%	4,11%	33,66%	✓
LoRA Tâche Principale	3,49%	4,18%	7,17%	36,25%	✓
Fusion Linéaire	0,33%	2,74%	12,81%	41,93%	✓
Fusion TIES	0,81%	6,06%	8,30%	47,87%	✓
Bases Inefficaces
LoRA Multi-étapes	72,92%	34,32%	69,83%	45,78%	✗
LoRA Experts Conjoints	49,85%	16,14%	65,73%	47,06%	✗
Méthode Proposée
Learnable Calibration	59,23%	28,89%	57,46%	44,99%	✓
Learnable Calibration++	65,15%	34,34%	63,81%	45,40%	✓

Les valeurs du tableau sont les scores du Juge LLM (%)

Découvertes Clés

Échec des stratégies de fusion traditionnelles: Les méthodes de fusion existantes fonctionnent extrêmement mal dans les scénarios multitâches composites (les scores du Juge LLM sont généralement <10%).
Compromis efficacité-performance: La méthode proposée, sous la contrainte d'une seule inférence, atteint une performance proche ou supérieure aux bases multi-étapes.
Performance cohérente: Learnable Calibration++ atteint les meilleures performances sur toutes les tâches.

Études d'Ablation

Analyse de l'efficacité du stockage:

LoRA Multi-étapes: 0 paramètre supplémentaire, mais 2 inférences nécessaires
LoRA Experts Conjoints: 30M paramètres, 57,10 MB de stockage
Learnable Calibration: 23K paramètres, 0,05 MB de stockage
Learnable Calibration++: 166K paramètres, 0,32 MB de stockage

Rôle des adaptateurs pré-entraînés: La suppression des LoRAs pré-entraînés entraîne une légère baisse de performance mais reste supérieure à la plupart des bases, prouvant la valeur de l'utilisation des adaptateurs existants.

Analyse Étendue

Adaptabilité à l'échelle du modèle: Bonnes performances sur les modèles de 0,5B à 3B paramètres.
Généralisation hors domaine: Stabilité des performances sur différents ensembles de données de conversation.
Extension à trois tâches: Support des tâches composites à trois voies (résumé + ton + traduction).

Travaux Connexes

Ajustement Fin Efficace en Paramètres (PEFT)

LoRA et ses variantes: Méthodes d'extension DoRA, AdaLoRA, Delta-LoRA, etc.
Autres méthodes PEFT: Entraînement des paramètres de biais BitFit, etc.

Fusion de Modèles

Travaux antérieurs: Méthodes de fusion linéaire Model Soup
Techniques avancées: Stratégies de résolution de conflits TIES, DARE, Slerp, etc.
Méthodes adaptatives: Fusion d'apprentissage LoraHub, LM-Cocktail, DAM, etc.

LLMs sur Appareil

Techniques de compression: Quantification de modèle, distillation de connaissances, etc.
Modèles représentatifs: LLaMA 3.2, Qwen2.5, StableLM2 et autres modèles de 1-3B paramètres
Défis de déploiement: Limitations de stockage, contraintes de calcul, exigences de confidentialité

Conclusion et Discussion

Conclusions Principales

Importance du problème: Le multitâche compositionnel est un besoin important pour les LLMs sur appareil, et les méthodes traditionnelles ne peuvent pas le résoudre efficacement.
Efficacité de la méthode: Learnable Calibration réalise une performance comparable aux bases inefficaces tout en maintenant l'efficacité.
Valeur pratique: Les frais généraux de stockage extrêmement faibles (<0,5 MB) rendent la méthode adaptée au déploiement réel.

Limitations

Portée d'évaluation: Concentration principale sur les modèles sur appareil de 1-3B paramètres, validation sur les grands modèles non effectuée.
Nombre de tâches: Étude principale des combinaisons de 2-3 tâches, l'extensibilité à plus de tâches reste à vérifier.
Dépendance aux données: Nécessite des données de tâches composites pour l'entraînement des paramètres de calibration, moins efficace que les méthodes de fusion complètement sans données.

Directions Futures

Recherche en sécurité: Exploration de l'impact du multitâche compositionnel sur les mécanismes de sécurité du modèle.
Optimisation de l'extensibilité: Étude des méthodes pour traiter des combinaisons de plus de tâches.
Fusion sans données: Développement de méthodes multitâches composites sans données supplémentaires.

Évaluation Approfondie

Avantages

Innovativité du problème: Première étude systématique du problème multitâche compositionnel, comblant une lacune importante.
Praticité de la méthode: Frais généraux extrêmement faibles de stockage et de calcul, adaptés au déploiement réel.
Complétude expérimentale: Comparaisons de base complètes, études d'ablation et analyses étendues.
Contribution du benchmark: Le benchmark de 14 sous-tâches construit fournit une plateforme d'évaluation standard pour les recherches ultérieures.

Insuffisances

Manque d'analyse théorique: Absence d'explication théorique approfondie sur l'efficacité des paramètres de calibration.
Limitations du choix des tâches: Concentration principale sur les tâches NLP, applicabilité dans d'autres modalités inconnue.
Unicité des métriques d'évaluation: Dépendance principale sur ROUGE et Juge LLM, manque d'évaluation humaine.

Impact

Valeur académique: Ouverture d'une nouvelle direction de recherche, attendant des travaux ultérieurs.
Applications industrielles: Directement applicable au développement d'applications IA sur appareils mobiles.
Reproductibilité: Fourniture de détails d'implémentation détaillés et de données de benchmark.

Scénarios d'Application

Applications mobiles: Smartphones, tablettes et autres appareils aux ressources limitées.
Informatique de périphérie: Appareils IoT, systèmes embarqués.
Scénarios sensibles à la confidentialité: Applications nécessitant un traitement local pour éviter le téléchargement de données.

Références

L'article cite de nombreux travaux connexes, incluant principalement:

Hu et al. (2022): Article original LoRA
Wortsman et al. (2022): Méthode de fusion Model Soup
Yadav et al. (2024): Stratégie de fusion TIES
Gunter et al. (2024): Expérience de déploiement sur appareil Apple Intelligence

Évaluation Générale: Cet article est un travail de recherche de haute qualité qui résout un problème pratique important, propose une solution efficace et effectue une vérification expérimentale complète. Ce travail fournit de nouvelles perspectives pour le traitement multitâche des LLMs sur appareil et possède une valeur académique et pratique importante.