Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
Multitâches Compositionnels Efficaces pour les Grands Modèles de Langage sur Appareil
- ID de l'article: 2507.16083
- Titre: Efficient Compositional Multi-tasking for On-device Large Language Models
- Auteurs: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- Institutions: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
- Classification: cs.CL cs.AI cs.LG
- Date de publication: 11 octobre 2025 (arXiv v2)
- Lien de l'article: https://arxiv.org/abs/2507.16083
Les paramètres d'adaptateurs fournissent un mécanisme pour modifier le comportement des modèles d'apprentissage automatique et ont reçu une attention considérable dans le domaine des grands modèles de langage (LLMs) et de l'IA générative. Ces paramètres peuvent soutenir le traitement multitâche par le biais de processus de fusion de tâches. Cependant, les travaux antérieurs sur la fusion dans les LLMs, en particulier dans le domaine du traitement du langage naturel, se limitaient à des scénarios où chaque échantillon de test ne traite qu'une seule tâche. Cet article se concentre sur les paramètres sur appareil et étudie les problèmes multitâches compositionnels basés sur du texte, où chaque échantillon de test doit exécuter simultanément plusieurs tâches. Par exemple, générer un résumé traduit d'un long texte nécessite de résoudre simultanément les tâches de traduction et de résumé. Pour promouvoir la recherche dans ce domaine, nous proposons un benchmark contenant quatre tâches compositionnelles pratiques. Nous proposons également une méthode efficace pour les applications sur appareil (Learnable Calibration), soulignant le besoin de solutions à la fois efficaces en ressources et performantes dans les environnements aux ressources informatiques limitées.
Le traitement multitâche traditionnel des LLMs se concentre principalement sur des scénarios à tâche unique, où chaque échantillon de test n'implique qu'une seule tâche (comme la traduction seule ou le résumé seul). Cependant, les applications pratiques nécessitent souvent un traitement multitâche compositionnel, c'est-à-dire l'exécution simultanée de plusieurs tâches lors d'une seule inférence, comme la génération d'un résumé traduit, la génération de réponses avec un ton spécifique, etc.
- Valeur pratique: Le multitâche compositionnel est largement demandé dans les scénarios réels, comme les réponses intelligentes dans les contextes multilingues, la génération de résumés avec un ton spécifique, etc.
- Exigences d'efficacité: Les LLMs sur appareil ont des ressources limitées et doivent accomplir plusieurs tâches lors d'une seule inférence, évitant les pertes d'efficacité dues à plusieurs inférences.
- Contraintes de stockage: Les appareils mobiles ont un stockage limité et ne peuvent pas entraîner des adaptateurs indépendants pour chaque tâche composite.
- Stratégies de fusion traditionnelles: Les méthodes telles que TIES et DARE fonctionnent mal dans les scénarios multitâches composites.
- Solutions multi-étapes: Bien qu'efficaces, elles nécessitent plusieurs inférences, ce qui est inefficace.
- Entraînement indépendant: L'entraînement d'adaptateurs spécialisés pour chaque tâche composite entraîne des frais généraux de stockage importants.
- Première proposition du problème multitâche compositionnel: Définition des défis du traitement multitâche compositionnel pour les LLMs sur appareil.
- Construction d'un benchmark pratique: Développement d'un benchmark complet contenant 14 sous-tâches, couvrant quatre catégories: résumé + traduction, résumé + ajustement de ton, réponse + traduction, réponse + ajustement de ton.
- Proposition de la méthode Learnable Calibration: Conception de deux variantes de solutions efficaces qui minimisent les frais généraux de stockage et de calcul tout en maintenant des performances élevées.
- Vérification expérimentale complète: Validation de l'efficacité et de la généralité de la méthode sur plusieurs LLMs sur appareil.
Le multitâche compositionnel est défini comme:
TC[N](x)=TN(…T2(T1(x)))
où l'entrée x est traitée successivement par N tâches. Cet article étudie principalement le cas N=2, incluant:
- Tâche principale T1: Génération de résumé ou de réponse
- Tâche auxiliaire T2: Traduction ou ajustement de ton
Basé sur le mécanisme d'adaptateur LoRA, la propagation avant ajustée est:
h=W0x+ΔWx=W0x+BAx
où B∈Rd×r, A∈Rr×k, r≪min(d,k).
Idée centrale: Commencer par la fusion linéaire des LoRAs à tâche unique, puis calibrer avec un petit nombre de paramètres supplémentaires.
Fusion initiale:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
Variante 1 - Learnable Calibration:
Utilisation d'un vecteur de biais colonne p∈Rd pour la calibration:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
Variante 2 - Learnable Calibration++:
Introduction d'une matrice LoRA de calibration P2P1:
ΔWc=P2P1+ΔW′
- Calibration légère: Nécessite seulement 0,08-0,56% de paramètres supplémentaires, frais généraux de stockage inférieurs à 0,5 MB.
- Spécificité des tâches: Apprentissage de paramètres de calibration spécialisés pour différentes tâches composites.
- Forte compatibilité: Compatible avec les cadres existants (Android AI Core, Apple Intelligence).
- Partage de paramètres: Soutien du partage de paramètres entre tâches pour réduire davantage les besoins de stockage.
Construction du benchmark:
- Tâche de résumé: Ensemble de données DialogSum (12 460/500/1 500 entraînement/validation/test)
- Tâche de réponse: Ensemble de données Synthetic Persona Chat (225 061/1 000/1 000)
- Tâche de traduction: Ensemble de données TED Talks, anglais vers espagnol/français/allemand
- Ajustement de ton: Ensemble de données Sound Natural, quatre tons (professionnel/décontracté/humoristique/rapporté)
Génération de tâches composites:
- Utilisation du modèle OpusMT pour la traduction
- Utilisation du modèle RedPajama-INCITE-Base 3B pour l'ajustement de ton
- Tâches de résumé: ROUGE-L (R-L)
- Tâches de réponse: ROUGE pondéré (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- Juge LLM: Utilisation de Llama 3.1 70B pour l'évaluation binaire
Méthodes de base:
- Zero-shot, LoRA de tâche principale, LoRA de tâche auxiliaire
- Apprentissage en contexte, utilisation de LoRA multi-étapes
- Diverses stratégies de fusion: Linear, TIES, DARE, Slerp, LoraHub, etc.
Méthodes de référence:
- Utilisation de LoRA multi-étapes (inefficace mais performante)
- LoRA d'experts conjoints (entraînement spécialisé pour chaque tâche composite)
- Modèles: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
- Configuration LoRA: rank=32, α=16, dropout=0.05
- Entraînement: Optimiseur Adam, taux d'apprentissage 5×10⁻⁵ (LoRA), 5×10⁻⁴ (paramètres de calibration)
- Entraînement de calibration: Sélection aléatoire de 10 000 échantillons de tâches composites
| Catégorie de Méthode | Rés.+Trad. | Rés.+Ton | Rép.+Trad. | Rép.+Ton | Efficacité |
|---|
| Bases Efficaces | | | | | |
| Zero-shot | 0,44% | 6,52% | 4,11% | 33,66% | ✓ |
| LoRA Tâche Principale | 3,49% | 4,18% | 7,17% | 36,25% | ✓ |
| Fusion Linéaire | 0,33% | 2,74% | 12,81% | 41,93% | ✓ |
| Fusion TIES | 0,81% | 6,06% | 8,30% | 47,87% | ✓ |
| Bases Inefficaces | | | | | |
| LoRA Multi-étapes | 72,92% | 34,32% | 69,83% | 45,78% | ✗ |
| LoRA Experts Conjoints | 49,85% | 16,14% | 65,73% | 47,06% | ✗ |
| Méthode Proposée | | | | | |
| Learnable Calibration | 59,23% | 28,89% | 57,46% | 44,99% | ✓ |
| Learnable Calibration++ | 65,15% | 34,34% | 63,81% | 45,40% | ✓ |
Les valeurs du tableau sont les scores du Juge LLM (%)
- Échec des stratégies de fusion traditionnelles: Les méthodes de fusion existantes fonctionnent extrêmement mal dans les scénarios multitâches composites (les scores du Juge LLM sont généralement <10%).
- Compromis efficacité-performance: La méthode proposée, sous la contrainte d'une seule inférence, atteint une performance proche ou supérieure aux bases multi-étapes.
- Performance cohérente: Learnable Calibration++ atteint les meilleures performances sur toutes les tâches.
Analyse de l'efficacité du stockage:
- LoRA Multi-étapes: 0 paramètre supplémentaire, mais 2 inférences nécessaires
- LoRA Experts Conjoints: 30M paramètres, 57,10 MB de stockage
- Learnable Calibration: 23K paramètres, 0,05 MB de stockage
- Learnable Calibration++: 166K paramètres, 0,32 MB de stockage
Rôle des adaptateurs pré-entraînés:
La suppression des LoRAs pré-entraînés entraîne une légère baisse de performance mais reste supérieure à la plupart des bases, prouvant la valeur de l'utilisation des adaptateurs existants.
- Adaptabilité à l'échelle du modèle: Bonnes performances sur les modèles de 0,5B à 3B paramètres.
- Généralisation hors domaine: Stabilité des performances sur différents ensembles de données de conversation.
- Extension à trois tâches: Support des tâches composites à trois voies (résumé + ton + traduction).
- LoRA et ses variantes: Méthodes d'extension DoRA, AdaLoRA, Delta-LoRA, etc.
- Autres méthodes PEFT: Entraînement des paramètres de biais BitFit, etc.
- Travaux antérieurs: Méthodes de fusion linéaire Model Soup
- Techniques avancées: Stratégies de résolution de conflits TIES, DARE, Slerp, etc.
- Méthodes adaptatives: Fusion d'apprentissage LoraHub, LM-Cocktail, DAM, etc.
- Techniques de compression: Quantification de modèle, distillation de connaissances, etc.
- Modèles représentatifs: LLaMA 3.2, Qwen2.5, StableLM2 et autres modèles de 1-3B paramètres
- Défis de déploiement: Limitations de stockage, contraintes de calcul, exigences de confidentialité
- Importance du problème: Le multitâche compositionnel est un besoin important pour les LLMs sur appareil, et les méthodes traditionnelles ne peuvent pas le résoudre efficacement.
- Efficacité de la méthode: Learnable Calibration réalise une performance comparable aux bases inefficaces tout en maintenant l'efficacité.
- Valeur pratique: Les frais généraux de stockage extrêmement faibles (<0,5 MB) rendent la méthode adaptée au déploiement réel.
- Portée d'évaluation: Concentration principale sur les modèles sur appareil de 1-3B paramètres, validation sur les grands modèles non effectuée.
- Nombre de tâches: Étude principale des combinaisons de 2-3 tâches, l'extensibilité à plus de tâches reste à vérifier.
- Dépendance aux données: Nécessite des données de tâches composites pour l'entraînement des paramètres de calibration, moins efficace que les méthodes de fusion complètement sans données.
- Recherche en sécurité: Exploration de l'impact du multitâche compositionnel sur les mécanismes de sécurité du modèle.
- Optimisation de l'extensibilité: Étude des méthodes pour traiter des combinaisons de plus de tâches.
- Fusion sans données: Développement de méthodes multitâches composites sans données supplémentaires.
- Innovativité du problème: Première étude systématique du problème multitâche compositionnel, comblant une lacune importante.
- Praticité de la méthode: Frais généraux extrêmement faibles de stockage et de calcul, adaptés au déploiement réel.
- Complétude expérimentale: Comparaisons de base complètes, études d'ablation et analyses étendues.
- Contribution du benchmark: Le benchmark de 14 sous-tâches construit fournit une plateforme d'évaluation standard pour les recherches ultérieures.
- Manque d'analyse théorique: Absence d'explication théorique approfondie sur l'efficacité des paramètres de calibration.
- Limitations du choix des tâches: Concentration principale sur les tâches NLP, applicabilité dans d'autres modalités inconnue.
- Unicité des métriques d'évaluation: Dépendance principale sur ROUGE et Juge LLM, manque d'évaluation humaine.
- Valeur académique: Ouverture d'une nouvelle direction de recherche, attendant des travaux ultérieurs.
- Applications industrielles: Directement applicable au développement d'applications IA sur appareils mobiles.
- Reproductibilité: Fourniture de détails d'implémentation détaillés et de données de benchmark.
- Applications mobiles: Smartphones, tablettes et autres appareils aux ressources limitées.
- Informatique de périphérie: Appareils IoT, systèmes embarqués.
- Scénarios sensibles à la confidentialité: Applications nécessitant un traitement local pour éviter le téléchargement de données.
L'article cite de nombreux travaux connexes, incluant principalement:
- Hu et al. (2022): Article original LoRA
- Wortsman et al. (2022): Méthode de fusion Model Soup
- Yadav et al. (2024): Stratégie de fusion TIES
- Gunter et al. (2024): Expérience de déploiement sur appareil Apple Intelligence
Évaluation Générale: Cet article est un travail de recherche de haute qualité qui résout un problème pratique important, propose une solution efficace et effectue une vérification expérimentale complète. Ce travail fournit de nouvelles perspectives pour le traitement multitâche des LLMs sur appareil et possède une valeur académique et pratique importante.