2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

Efficiente Multi-tasking Composizionale per Modelli di Linguaggio di Grandi Dimensioni On-device

Informazioni Fondamentali

ID Articolo: 2507.16083
Titolo: Efficient Compositional Multi-tasking for On-device Large Language Models
Autori: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
Istituzioni: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
Classificazione: cs.CL cs.AI cs.LG
Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
Link Articolo: https://arxiv.org/abs/2507.16083

Riassunto

I parametri degli adattatori forniscono un meccanismo per modificare il comportamento dei modelli di apprendimento automatico, ottenendo ampia attenzione nel campo dei modelli di linguaggio di grandi dimensioni (LLM) e dell'IA generativa. Questi parametri possono supportare l'elaborazione multi-task attraverso processi di fusione di task. Tuttavia, i lavori precedenti sulla fusione negli LLM, in particolare nel campo dell'elaborazione del linguaggio naturale, si limitano a scenari in cui ogni campione di test elabora un singolo task. Questo articolo si concentra sull'impostazione on-device, investigando il problema del multi-tasking composizionale basato su testo, dove ogni campione di test deve eseguire simultaneamente più task. Ad esempio, la generazione di un riassunto tradotto di un testo lungo richiede di risolvere contemporaneamente i task di traduzione e riassunto. Per promuovere la ricerca in questo campo, proponiamo un benchmark contenente quattro task composizionali pratici. Proponiamo inoltre un metodo efficiente per applicazioni on-device (Learnable Calibration), enfatizzando la necessità di soluzioni sia efficienti in termini di risorse che ad alte prestazioni in ambienti con risorse computazionali limitate.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'elaborazione multi-task tradizionale degli LLM si concentra principalmente su scenari a singolo task, ovvero ogni campione di test coinvolge un solo task (come solo traduzione o solo riassunto). Tuttavia, le applicazioni pratiche richiedono frequentemente elaborazione multi-task composizionale, cioè l'esecuzione simultanea di più task in una singola inferenza, come la generazione di riassunti tradotti, la generazione di risposte con tono specifico, ecc.

Analisi dell'Importanza

Valore Pratico: Il multi-tasking composizionale è ampiamente richiesto in scenari reali, come risposte intelligenti in scenari multilingue, generazione di riassunti con tono specifico, ecc.
Esigenze di Efficienza: Gli LLM on-device hanno risorse limitate, necessitando di completare più task in una singola inferenza, evitando perdite di efficienza dovute a inferenze multiple
Vincoli di Archiviazione: I dispositivi mobili hanno spazio di archiviazione limitato, non potendo addestrare adattatori indipendenti per ogni task composizionale

Limitazioni dei Metodi Esistenti

Strategie di Fusione Tradizionali: Metodi come TIES, DARE mostrano scarse prestazioni in scenari multi-task composizionali
Soluzioni Multi-step: Sebbene efficaci, richiedono inferenze multiple, risultando inefficienti
Addestramento Indipendente: L'addestramento di adattatori specializzati per ogni task composizionale comporta elevati costi di archiviazione

Contributi Principali

Prima Proposta del Problema Multi-task Composizionale: Definisce le sfide dell'elaborazione multi-task composizionale per gli LLM on-device
Costruzione di Benchmark Pratico: Sviluppa un benchmark completo con 14 sub-task, coprendo quattro categorie: riassunto+traduzione, riassunto+adattamento di tono, risposta+traduzione, risposta+adattamento di tono
Proposta del Metodo Learnable Calibration: Progetta una soluzione efficiente con due varianti, minimizzando i costi di archiviazione e computazione mantenendo alte prestazioni
Verifica Sperimentale Completa: Verifica l'efficacia e la generalizzabilità del metodo su più LLM on-device

Spiegazione Dettagliata del Metodo

Definizione del Task

Il multi-tasking composizionale è definito come: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

dove l'input $x$ passa successivamente attraverso $N$ task, con questo articolo che studia principalmente il caso $N=2$ , includendo:

Task Principale $T_1$ : Generazione di riassunto o risposta
Task Ausiliario $T_2$ : Traduzione o adattamento di tono

Architettura del Modello

Base LoRA

Basato sul meccanismo dell'adattatore LoRA, la propagazione in avanti regolata è: $h = W_0x + \Delta Wx = W_0x + BAx$

dove $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$ .

Metodo Learnable Calibration

Idea Centrale: Partendo dalla fusione lineare di LoRA a singolo task come punto di partenza, eseguire la calibrazione attraverso parametri aggiuntivi limitati.

Fusione Iniziale: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

Variante 1 - Learnable Calibration: Utilizzo di vettore di bias di colonna $p \in \mathbb{R}^d$ per la calibrazione: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

Variante 2 - Learnable Calibration++: Introduzione di matrice LoRA di calibrazione $P_2P_1$ : $\Delta W^c = P_2P_1 + \Delta W'$

Punti di Innovazione Tecnica

Calibrazione Leggera: Richiede solo 0,08-0,56% di parametri aggiuntivi, con costi di archiviazione inferiori a 0,5MB
Specificità del Task: Apprendimento di parametri di calibrazione specializzati per diversi task composizionali
Forte Compatibilità: Compatibile con framework esistenti (Android AI Core, Apple Intelligence)
Condivisione di Parametri: Supporta la condivisione di parametri tra task per ridurre ulteriormente i requisiti di archiviazione

Impostazione Sperimentale

Dataset

Costruzione del Benchmark:

Task di Riassunto: Dataset DialogSum (12.460/500/1.500 training/validazione/test)
Task di Risposta: Dataset Synthetic Persona Chat (225.061/1.000/1.000)
Task di Traduzione: Dataset TED Talks, da inglese a spagnolo/francese/tedesco
Adattamento di Tono: Dataset Sound Natural, quattro toni (professionale/informale/umoristico/narrativo)

Generazione di Task Composizionali:

Utilizzo del modello OpusMT per la traduzione
Utilizzo del modello RedPajama-INCITE-Base 3B per l'adattamento di tono

Metriche di Valutazione

Task di Riassunto: ROUGE-L (R-L)
Task di Risposta: ROUGE Ponderato (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
LLM Judge: Utilizzo di Llama 3.1 70B per valutazione binaria

Metodi di Confronto

Metodi di Base:

Zero-shot, LoRA task principale, LoRA task ausiliario
Apprendimento in contesto, utilizzo LoRA multi-step
Varie strategie di fusione: Linear, TIES, DARE, Slerp, LoraHub, ecc.

Metodi di Riferimento:

Utilizzo LoRA multi-step (inefficiente ma performante)
LoRA Esperti Congiunti (addestramento specializzato per ogni task composizionale)

Dettagli di Implementazione

Modelli: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
Configurazione LoRA: rank=32, α=16, dropout=0,05
Addestramento: Ottimizzatore Adam, learning rate 5×10⁻⁵ (LoRA), 5×10⁻⁴ (parametri di calibrazione)
Addestramento di Calibrazione: Selezione casuale di 10.000 campioni di task composizionali

Risultati Sperimentali

Risultati Principali

Categoria di Metodo	Rass.+Trad.	Rass.+Tono	Risp.+Trad.	Risp.+Tono	Efficienza
Baseline Efficienti
Zero-shot	0,44%	6,52%	4,11%	33,66%	✓
LoRA Task Principale	3,49%	4,18%	7,17%	36,25%	✓
Fusione Lineare	0,33%	2,74%	12,81%	41,93%	✓
Fusione TIES	0,81%	6,06%	8,30%	47,87%	✓
Baseline Inefficienti
LoRA Multi-step	72,92%	34,32%	69,83%	45,78%	✗
LoRA Esperti Congiunti	49,85%	16,14%	65,73%	47,06%	✗
Metodo Proposto
Learnable Calibration	59,23%	28,89%	57,46%	44,99%	✓
Learnable Calibration++	65,15%	34,34%	63,81%	45,40%	✓

I valori nella tabella sono punteggi LLM Judge (%)

Scoperte Chiave

Fallimento delle Strategie di Fusione Tradizionali: I metodi di fusione esistenti mostrano prestazioni estremamente scarse in scenari multi-task composizionali (punteggi LLM Judge tipicamente <10%)
Compromesso Efficienza-Prestazioni: Il metodo proposto, sotto il vincolo di inferenza singola, raggiunge prestazioni comparabili o superiori ai baseline multi-step
Prestazioni Coerenti: Learnable Calibration++ raggiunge le migliori prestazioni su tutti i task

Esperimenti di Ablazione

Analisi dell'Efficienza di Archiviazione:

LoRA Multi-step: 0 parametri aggiuntivi, ma richiede 2 inferenze
LoRA Esperti Congiunti: 30M parametri, 57,10MB di archiviazione
Learnable Calibration: 23K parametri, 0,05MB di archiviazione
Learnable Calibration++: 166K parametri, 0,32MB di archiviazione

Ruolo degli Adattatori Pre-addestrati: La rimozione dei LoRA pre-addestrati comporta un leggero calo di prestazioni ma rimane superiore alla maggior parte dei baseline, provando il valore dell'utilizzo degli adattatori esistenti.

Analisi Estesa

Adattabilità della Scala del Modello: Prestazioni eccellenti su modelli da 0,5B a 3B parametri
Generalizzazione Fuori Dominio: Mantenimento di prestazioni stabili su diversi dataset di conversazione
Estensione a Tre Task: Supporto per task composizionali a tre vie (riassunto+tono+traduzione)

Lavori Correlati

Fine-tuning Efficiente in Termini di Parametri (PEFT)

LoRA e Varianti: Metodi di estensione come DoRA, AdaLoRA, Delta-LoRA
Altri Metodi PEFT: Metodi di addestramento di parametri di bias come BitFit

Fusione di Modelli

Lavori Iniziali: Metodi di fusione lineare come Model Soup
Tecniche Avanzate: Strategie di risoluzione dei conflitti come TIES, DARE, Slerp
Metodi Adattivi: Fusione basata su apprendimento come LoraHub, LM-Cocktail, DAM

LLM On-device

Tecniche di Compressione: Quantizzazione del modello, distillazione della conoscenza
Modelli Rappresentativi: LLaMA 3.2, Qwen2.5, StableLM2 e altri modelli da 1-3B parametri
Sfide di Distribuzione: Limitazioni di archiviazione, vincoli computazionali, requisiti di privacy

Conclusioni e Discussione

Conclusioni Principali

Importanza del Problema: Il multi-tasking composizionale è un'esigenza importante per gli LLM on-device, con i metodi tradizionali incapaci di risolvere efficacemente
Efficacia del Metodo: Learnable Calibration raggiunge prestazioni comparabili ai baseline inefficienti mantenendo l'efficienza
Valore Pratico: I costi di archiviazione estremamente ridotti (<0,5MB) rendono il metodo adatto alla distribuzione pratica

Limitazioni

Ambito di Valutazione: Focalizzato principalmente su modelli on-device da 1-3B parametri, non verificato su modelli di grandi dimensioni
Numero di Task: Studio principale su composizioni di 2-3 task, con scalabilità per più task ancora da verificare
Dipendenza dai Dati: Richiede dati di task composizionali per l'addestramento dei parametri di calibrazione, meno flessibile dei metodi di fusione completamente senza dati

Direzioni Future

Ricerca sulla Sicurezza: Esplorazione dell'impatto del multi-tasking composizionale sui meccanismi di sicurezza del modello
Ottimizzazione della Scalabilità: Ricerca di metodi per gestire composizioni di più task
Fusione Zero-shot: Sviluppo di metodi per il multi-tasking composizionale senza dati aggiuntivi

Valutazione Approfondita

Punti di Forza

Innovazione del Problema: Primo studio sistematico del problema multi-task composizionale, colmando un importante vuoto di ricerca
Praticità del Metodo: Costi di archiviazione e computazione estremamente ridotti, adatti alla distribuzione pratica
Completezza Sperimentale: Confronti completi con baseline, esperimenti di ablazione e analisi estese
Contributo del Benchmark: Il benchmark di 14 sub-task fornisce una piattaforma di valutazione standard per la ricerca successiva

Insufficienze

Mancanza di Analisi Teorica: Assenza di spiegazioni teoriche approfondite sul perché i parametri di calibrazione siano efficaci
Limitazioni nella Selezione dei Task: Focalizzazione principale su task NLP, con applicabilità in altre modalità sconosciuta
Singolarità delle Metriche di Valutazione: Dipendenza principalmente da ROUGE e LLM Judge, mancanza di valutazione umana

Impatto

Valore Accademico: Apertura di una nuova direzione di ricerca, con previsione di lavori successivi
Applicazione Industriale: Applicazione diretta allo sviluppo di applicazioni AI su dispositivi mobili
Riproducibilità: Fornitura di dettagli di implementazione dettagliati e dati di benchmark

Scenari Applicabili

Applicazioni Mobili: Smartphone, tablet e altri dispositivi con risorse limitate
Calcolo Edge: Dispositivi IoT, sistemi embedded
Scenari Sensibili alla Privacy: Applicazioni che richiedono elaborazione locale per evitare caricamento di dati

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, principalmente includendo:

Hu et al. (2022): Articolo originale LoRA
Wortsman et al. (2022): Metodo di fusione di modelli Model Soup
Yadav et al. (2024): Strategia di fusione TIES
Gunter et al. (2024): Esperienza di distribuzione on-device Apple Intelligence

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che affronta un problema praticamente importante, propone una soluzione efficace e conduce una verifica sperimentale completa. Questo lavoro fornisce nuove prospettive per l'elaborazione multi-task degli LLM on-device, possedendo significativo valore accademico e pratico.