Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
Efficiente Multi-tasking Composizionale per Modelli di Linguaggio di Grandi Dimensioni On-device
- ID Articolo: 2507.16083
- Titolo: Efficient Compositional Multi-tasking for On-device Large Language Models
- Autori: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- Istituzioni: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
- Classificazione: cs.CL cs.AI cs.LG
- Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
- Link Articolo: https://arxiv.org/abs/2507.16083
I parametri degli adattatori forniscono un meccanismo per modificare il comportamento dei modelli di apprendimento automatico, ottenendo ampia attenzione nel campo dei modelli di linguaggio di grandi dimensioni (LLM) e dell'IA generativa. Questi parametri possono supportare l'elaborazione multi-task attraverso processi di fusione di task. Tuttavia, i lavori precedenti sulla fusione negli LLM, in particolare nel campo dell'elaborazione del linguaggio naturale, si limitano a scenari in cui ogni campione di test elabora un singolo task. Questo articolo si concentra sull'impostazione on-device, investigando il problema del multi-tasking composizionale basato su testo, dove ogni campione di test deve eseguire simultaneamente più task. Ad esempio, la generazione di un riassunto tradotto di un testo lungo richiede di risolvere contemporaneamente i task di traduzione e riassunto. Per promuovere la ricerca in questo campo, proponiamo un benchmark contenente quattro task composizionali pratici. Proponiamo inoltre un metodo efficiente per applicazioni on-device (Learnable Calibration), enfatizzando la necessità di soluzioni sia efficienti in termini di risorse che ad alte prestazioni in ambienti con risorse computazionali limitate.
L'elaborazione multi-task tradizionale degli LLM si concentra principalmente su scenari a singolo task, ovvero ogni campione di test coinvolge un solo task (come solo traduzione o solo riassunto). Tuttavia, le applicazioni pratiche richiedono frequentemente elaborazione multi-task composizionale, cioè l'esecuzione simultanea di più task in una singola inferenza, come la generazione di riassunti tradotti, la generazione di risposte con tono specifico, ecc.
- Valore Pratico: Il multi-tasking composizionale è ampiamente richiesto in scenari reali, come risposte intelligenti in scenari multilingue, generazione di riassunti con tono specifico, ecc.
- Esigenze di Efficienza: Gli LLM on-device hanno risorse limitate, necessitando di completare più task in una singola inferenza, evitando perdite di efficienza dovute a inferenze multiple
- Vincoli di Archiviazione: I dispositivi mobili hanno spazio di archiviazione limitato, non potendo addestrare adattatori indipendenti per ogni task composizionale
- Strategie di Fusione Tradizionali: Metodi come TIES, DARE mostrano scarse prestazioni in scenari multi-task composizionali
- Soluzioni Multi-step: Sebbene efficaci, richiedono inferenze multiple, risultando inefficienti
- Addestramento Indipendente: L'addestramento di adattatori specializzati per ogni task composizionale comporta elevati costi di archiviazione
- Prima Proposta del Problema Multi-task Composizionale: Definisce le sfide dell'elaborazione multi-task composizionale per gli LLM on-device
- Costruzione di Benchmark Pratico: Sviluppa un benchmark completo con 14 sub-task, coprendo quattro categorie: riassunto+traduzione, riassunto+adattamento di tono, risposta+traduzione, risposta+adattamento di tono
- Proposta del Metodo Learnable Calibration: Progetta una soluzione efficiente con due varianti, minimizzando i costi di archiviazione e computazione mantenendo alte prestazioni
- Verifica Sperimentale Completa: Verifica l'efficacia e la generalizzabilità del metodo su più LLM on-device
Il multi-tasking composizionale è definito come:
TC[N](x)=TN(…T2(T1(x)))
dove l'input x passa successivamente attraverso N task, con questo articolo che studia principalmente il caso N=2, includendo:
- Task Principale T1: Generazione di riassunto o risposta
- Task Ausiliario T2: Traduzione o adattamento di tono
Basato sul meccanismo dell'adattatore LoRA, la propagazione in avanti regolata è:
h=W0x+ΔWx=W0x+BAx
dove B∈Rd×r, A∈Rr×k, r≪min(d,k).
Idea Centrale: Partendo dalla fusione lineare di LoRA a singolo task come punto di partenza, eseguire la calibrazione attraverso parametri aggiuntivi limitati.
Fusione Iniziale:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
Variante 1 - Learnable Calibration:
Utilizzo di vettore di bias di colonna p∈Rd per la calibrazione:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
Variante 2 - Learnable Calibration++:
Introduzione di matrice LoRA di calibrazione P2P1:
ΔWc=P2P1+ΔW′
- Calibrazione Leggera: Richiede solo 0,08-0,56% di parametri aggiuntivi, con costi di archiviazione inferiori a 0,5MB
- Specificità del Task: Apprendimento di parametri di calibrazione specializzati per diversi task composizionali
- Forte Compatibilità: Compatibile con framework esistenti (Android AI Core, Apple Intelligence)
- Condivisione di Parametri: Supporta la condivisione di parametri tra task per ridurre ulteriormente i requisiti di archiviazione
Costruzione del Benchmark:
- Task di Riassunto: Dataset DialogSum (12.460/500/1.500 training/validazione/test)
- Task di Risposta: Dataset Synthetic Persona Chat (225.061/1.000/1.000)
- Task di Traduzione: Dataset TED Talks, da inglese a spagnolo/francese/tedesco
- Adattamento di Tono: Dataset Sound Natural, quattro toni (professionale/informale/umoristico/narrativo)
Generazione di Task Composizionali:
- Utilizzo del modello OpusMT per la traduzione
- Utilizzo del modello RedPajama-INCITE-Base 3B per l'adattamento di tono
- Task di Riassunto: ROUGE-L (R-L)
- Task di Risposta: ROUGE Ponderato (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- LLM Judge: Utilizzo di Llama 3.1 70B per valutazione binaria
Metodi di Base:
- Zero-shot, LoRA task principale, LoRA task ausiliario
- Apprendimento in contesto, utilizzo LoRA multi-step
- Varie strategie di fusione: Linear, TIES, DARE, Slerp, LoraHub, ecc.
Metodi di Riferimento:
- Utilizzo LoRA multi-step (inefficiente ma performante)
- LoRA Esperti Congiunti (addestramento specializzato per ogni task composizionale)
- Modelli: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
- Configurazione LoRA: rank=32, α=16, dropout=0,05
- Addestramento: Ottimizzatore Adam, learning rate 5×10⁻⁵ (LoRA), 5×10⁻⁴ (parametri di calibrazione)
- Addestramento di Calibrazione: Selezione casuale di 10.000 campioni di task composizionali
| Categoria di Metodo | Rass.+Trad. | Rass.+Tono | Risp.+Trad. | Risp.+Tono | Efficienza |
|---|
| Baseline Efficienti | | | | | |
| Zero-shot | 0,44% | 6,52% | 4,11% | 33,66% | ✓ |
| LoRA Task Principale | 3,49% | 4,18% | 7,17% | 36,25% | ✓ |
| Fusione Lineare | 0,33% | 2,74% | 12,81% | 41,93% | ✓ |
| Fusione TIES | 0,81% | 6,06% | 8,30% | 47,87% | ✓ |
| Baseline Inefficienti | | | | | |
| LoRA Multi-step | 72,92% | 34,32% | 69,83% | 45,78% | ✗ |
| LoRA Esperti Congiunti | 49,85% | 16,14% | 65,73% | 47,06% | ✗ |
| Metodo Proposto | | | | | |
| Learnable Calibration | 59,23% | 28,89% | 57,46% | 44,99% | ✓ |
| Learnable Calibration++ | 65,15% | 34,34% | 63,81% | 45,40% | ✓ |
I valori nella tabella sono punteggi LLM Judge (%)
- Fallimento delle Strategie di Fusione Tradizionali: I metodi di fusione esistenti mostrano prestazioni estremamente scarse in scenari multi-task composizionali (punteggi LLM Judge tipicamente <10%)
- Compromesso Efficienza-Prestazioni: Il metodo proposto, sotto il vincolo di inferenza singola, raggiunge prestazioni comparabili o superiori ai baseline multi-step
- Prestazioni Coerenti: Learnable Calibration++ raggiunge le migliori prestazioni su tutti i task
Analisi dell'Efficienza di Archiviazione:
- LoRA Multi-step: 0 parametri aggiuntivi, ma richiede 2 inferenze
- LoRA Esperti Congiunti: 30M parametri, 57,10MB di archiviazione
- Learnable Calibration: 23K parametri, 0,05MB di archiviazione
- Learnable Calibration++: 166K parametri, 0,32MB di archiviazione
Ruolo degli Adattatori Pre-addestrati:
La rimozione dei LoRA pre-addestrati comporta un leggero calo di prestazioni ma rimane superiore alla maggior parte dei baseline, provando il valore dell'utilizzo degli adattatori esistenti.
- Adattabilità della Scala del Modello: Prestazioni eccellenti su modelli da 0,5B a 3B parametri
- Generalizzazione Fuori Dominio: Mantenimento di prestazioni stabili su diversi dataset di conversazione
- Estensione a Tre Task: Supporto per task composizionali a tre vie (riassunto+tono+traduzione)
- LoRA e Varianti: Metodi di estensione come DoRA, AdaLoRA, Delta-LoRA
- Altri Metodi PEFT: Metodi di addestramento di parametri di bias come BitFit
- Lavori Iniziali: Metodi di fusione lineare come Model Soup
- Tecniche Avanzate: Strategie di risoluzione dei conflitti come TIES, DARE, Slerp
- Metodi Adattivi: Fusione basata su apprendimento come LoraHub, LM-Cocktail, DAM
- Tecniche di Compressione: Quantizzazione del modello, distillazione della conoscenza
- Modelli Rappresentativi: LLaMA 3.2, Qwen2.5, StableLM2 e altri modelli da 1-3B parametri
- Sfide di Distribuzione: Limitazioni di archiviazione, vincoli computazionali, requisiti di privacy
- Importanza del Problema: Il multi-tasking composizionale è un'esigenza importante per gli LLM on-device, con i metodi tradizionali incapaci di risolvere efficacemente
- Efficacia del Metodo: Learnable Calibration raggiunge prestazioni comparabili ai baseline inefficienti mantenendo l'efficienza
- Valore Pratico: I costi di archiviazione estremamente ridotti (<0,5MB) rendono il metodo adatto alla distribuzione pratica
- Ambito di Valutazione: Focalizzato principalmente su modelli on-device da 1-3B parametri, non verificato su modelli di grandi dimensioni
- Numero di Task: Studio principale su composizioni di 2-3 task, con scalabilità per più task ancora da verificare
- Dipendenza dai Dati: Richiede dati di task composizionali per l'addestramento dei parametri di calibrazione, meno flessibile dei metodi di fusione completamente senza dati
- Ricerca sulla Sicurezza: Esplorazione dell'impatto del multi-tasking composizionale sui meccanismi di sicurezza del modello
- Ottimizzazione della Scalabilità: Ricerca di metodi per gestire composizioni di più task
- Fusione Zero-shot: Sviluppo di metodi per il multi-tasking composizionale senza dati aggiuntivi
- Innovazione del Problema: Primo studio sistematico del problema multi-task composizionale, colmando un importante vuoto di ricerca
- Praticità del Metodo: Costi di archiviazione e computazione estremamente ridotti, adatti alla distribuzione pratica
- Completezza Sperimentale: Confronti completi con baseline, esperimenti di ablazione e analisi estese
- Contributo del Benchmark: Il benchmark di 14 sub-task fornisce una piattaforma di valutazione standard per la ricerca successiva
- Mancanza di Analisi Teorica: Assenza di spiegazioni teoriche approfondite sul perché i parametri di calibrazione siano efficaci
- Limitazioni nella Selezione dei Task: Focalizzazione principale su task NLP, con applicabilità in altre modalità sconosciuta
- Singolarità delle Metriche di Valutazione: Dipendenza principalmente da ROUGE e LLM Judge, mancanza di valutazione umana
- Valore Accademico: Apertura di una nuova direzione di ricerca, con previsione di lavori successivi
- Applicazione Industriale: Applicazione diretta allo sviluppo di applicazioni AI su dispositivi mobili
- Riproducibilità: Fornitura di dettagli di implementazione dettagliati e dati di benchmark
- Applicazioni Mobili: Smartphone, tablet e altri dispositivi con risorse limitate
- Calcolo Edge: Dispositivi IoT, sistemi embedded
- Scenari Sensibili alla Privacy: Applicazioni che richiedono elaborazione locale per evitare caricamento di dati
L'articolo cita numerosi lavori correlati, principalmente includendo:
- Hu et al. (2022): Articolo originale LoRA
- Wortsman et al. (2022): Metodo di fusione di modelli Model Soup
- Yadav et al. (2024): Strategia di fusione TIES
- Gunter et al. (2024): Esperienza di distribuzione on-device Apple Intelligence
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema praticamente importante, propone una soluzione efficace e conduce una verifica sperimentale completa. Questo lavoro fornisce nuove prospettive per l'elaborazione multi-task degli LLM on-device, possedendo significativo valore accademico e pratico.