2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

Effiziente kompositorische Multitasking für On-Device Large Language Models

Grundinformationen

Paper-ID: 2507.16083
Titel: Efficient Compositional Multi-tasking for On-device Large Language Models
Autoren: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
Institutionen: ¹Samsung R&D Institute UK, ²Samsung Research, Südkorea
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2507.16083

Zusammenfassung

Adapter-Parameter bieten einen Mechanismus zur Änderung des Verhaltens von Machine-Learning-Modellen und haben in den Bereichen Large Language Models (LLMs) und generativer KI große Aufmerksamkeit erhalten. Diese Parameter können durch Aufgabenzusammenführungsprozesse zur Unterstützung von Multitasking genutzt werden. Frühere Zusammenführungsarbeiten bei LLMs, insbesondere im Bereich der Verarbeitung natürlicher Sprache, waren jedoch auf Szenarien beschränkt, in denen jede Testprobe nur eine einzelne Aufgabe verarbeitet. Dieses Papier konzentriert sich auf die On-Device-Einstellung und untersucht textbasierte kompositorische Multitasking-Probleme, bei denen jede Testprobe mehrere Aufgaben gleichzeitig ausführen muss. Beispielsweise erfordert die Generierung einer übersetzten Zusammenfassung eines langen Textes die gleichzeitige Lösung von Übersetzungs- und Zusammenfassungsaufgaben. Um die Forschung in diesem Bereich zu fördern, schlagen wir einen Benchmark mit vier praktischen kompositorischen Aufgaben vor. Wir präsentieren auch eine effiziente Methode für On-Device-Anwendungen (Learnable Calibration), die in ressourcenbeschränkten Umgebungen die Notwendigkeit von Lösungen unterstreicht, die sowohl ressourceneffizient als auch hochleistungsfähig sind.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle LLM-Multitasking-Verarbeitung konzentriert sich hauptsächlich auf Single-Task-Szenarien, bei denen jede Testprobe nur eine Aufgabe betrifft (z. B. nur Übersetzung oder nur Zusammenfassung). In praktischen Anwendungen ist jedoch häufig kompositorisches Multitasking erforderlich, d. h. die gleichzeitige Ausführung mehrerer Aufgaben in einer einzigen Inferenz, wie die Generierung übersetzter Zusammenfassungen oder die Generierung von Antworten mit spezifischem Ton.

Bedeutungsanalyse

Praktischer Wert: Kompositorisches Multitasking wird in praktischen Szenarien weit verbreitet benötigt, wie intelligente Antworten in sprachübergreifenden Szenarien, Zusammenfassungsgenerierung mit spezifischem Ton usw.
Effizienzanforderungen: On-Device-LLMs haben begrenzte Ressourcen und müssen mehrere Aufgaben in einer einzigen Inferenz ausführen, um Effizienzverluste durch mehrfache Inferenzen zu vermeiden
Speicherbeschränkungen: Mobile Geräte haben begrenzten Speicher und können nicht für jede kompositorische Aufgabe unabhängige Adapter trainieren

Einschränkungen bestehender Methoden

Traditionelle Zusammenführungsstrategien: Methoden wie TIES und DARE zeigen schlechte Leistung in kompositorischen Multitasking-Szenarien
Mehrstufige Ansätze: Obwohl wirksam, erfordern sie mehrfache Inferenzen und sind ineffizient
Unabhängiges Training: Das Training spezialisierter Adapter für jede kompositorische Aufgabe verursacht großen Speicheraufwand

Kernbeiträge

Erstmalige Formulierung des kompositorischen Multitasking-Problems: Definition der Herausforderungen des kompositorischen Multitasking-Verarbeitung für On-Device-LLMs
Konstruktion eines praktischen Benchmarks: Entwicklung eines umfassenden Benchmarks mit 14 Teilaufgaben, die vier Hauptkategorien abdecken: Zusammenfassung + Übersetzung, Zusammenfassung + Tonanpassung, Antwort + Übersetzung, Antwort + Tonanpassung
Vorschlag der Learnable Calibration-Methode: Entwurf einer effizienten Lösung mit zwei Varianten, die hohe Leistung bei minimalen Speicher- und Rechenaufwand aufrechterhält
Umfassende experimentelle Validierung: Validierung der Methodeneffektivität und Allgemeingültigkeit auf mehreren On-Device-LLMs

Methodische Details

Aufgabendefinition

Kompositorisches Multitasking wird definiert als: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

wobei die Eingabe $x$ nacheinander $N$ Aufgaben durchläuft. Dieses Papier konzentriert sich hauptsächlich auf den Fall $N=2$ , einschließlich:

Hauptaufgabe $T_1$ : Zusammenfassung oder Antworterzeugung
Hilfsaufgabe $T_2$ : Übersetzung oder Tonanpassung

Modellarchitektur

LoRA-Grundlagen

Basierend auf dem LoRA-Adapter-Mechanismus ist die angepasste Vorwärtsausbreitung: $h = W_0x + \Delta Wx = W_0x + BAx$

wobei $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$ .

Learnable Calibration-Methode

Kernidee: Ausgehend von linear zusammengeführten Single-Task-LoRAs erfolgt die Kalibrierung durch eine kleine Anzahl zusätzlicher Parameter.

Initiale Zusammenführung: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

Variante 1 - Learnable Calibration: Verwendung eines spaltenweisen Bias-Vektors $p \in \mathbb{R}^d$ für die Kalibrierung: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

Variante 2 - Learnable Calibration++: Einführung einer Kalibrierungs-LoRA-Matrix $P_2P_1$ : $\Delta W^c = P_2P_1 + \Delta W'$

Technische Innovationen

Leichte Kalibrierung: Nur 0,08-0,56% zusätzliche Parameter erforderlich, Speicheraufwand unter 0,5 MB
Aufgabenspezifität: Spezialisierte Kalibrierungsparameter für verschiedene kompositorische Aufgaben
Starke Kompatibilität: Kompatibilität mit bestehenden Frameworks (Android AI Core, Apple Intelligence)
Parameterfreigabe: Unterstützt aufgabenübergreifende Parameterfreigabe zur weiteren Speicherreduktion

Experimentelle Einrichtung

Datensätze

Benchmark-Datensatz-Konstruktion:

Zusammenfassungsaufgabe: DialogSum-Datensatz (12.460/500/1.500 Training/Validierung/Test)
Antwortaufgabe: Synthetic Persona Chat-Datensatz (225.061/1.000/1.000)
Übersetzungsaufgabe: TED Talks-Datensatz, Englisch zu Spanisch/Französisch/Deutsch
Tonanpassung: Sound Natural-Datensatz, vier Töne (professionell/ungezwungen/humorvoll/Nacherzählung)

Kompositorische Aufgabengenerierung:

Verwendung des OpusMT-Modells für Übersetzung
Verwendung des RedPajama-INCITE-Base 3B-Modells für Tonanpassung

Bewertungsmetriken

Zusammenfassungsaufgaben: ROUGE-L (R-L)
Antwortaufgaben: Gewichtetes ROUGE (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
LLM Judge: Verwendung von Llama 3.1 70B für binäre Bewertung

Vergleichsmethoden

Baseline-Methoden:

Zero-shot, Hauptaufgaben-LoRA, Hilfsaufgaben-LoRA
In-Context-Learning, mehrstufige LoRA-Verwendung
Verschiedene Zusammenführungsstrategien: Linear, TIES, DARE, Slerp, LoraHub usw.

Referenzmethoden:

Mehrstufige LoRA-Verwendung (ineffizient aber leistungsstark)
Joint Expert LoRA (speziell für jede kompositorische Aufgabe trainiert)

Implementierungsdetails

Modelle: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
LoRA-Konfiguration: rank=32, α=16, dropout=0,05
Training: Adam-Optimierer, Lernrate 5×10⁻⁵ (LoRA), 5×10⁻⁴ (Kalibrierungsparameter)
Kalibrierungstraining: Zufällige Auswahl von 10.000 kompositorischen Aufgabenproben

Experimentelle Ergebnisse

Hauptergebnisse

Methodenkategorie	Zus.+Übers.	Zus.+Ton	Antw.+Übers.	Antw.+Ton	Effizienz
Effiziente Baselines
Zero-shot	0,44%	6,52%	4,11%	33,66%	✓
Hauptaufgaben-LoRA	3,49%	4,18%	7,17%	36,25%	✓
Lineare Zusammenführung	0,33%	2,74%	12,81%	41,93%	✓
TIES-Zusammenführung	0,81%	6,06%	8,30%	47,87%	✓
Ineffiziente Baselines
Mehrstufige LoRA	72,92%	34,32%	69,83%	45,78%	✗
Joint Expert LoRA	49,85%	16,14%	65,73%	47,06%	✗
Diese Methode
Learnable Calibration	59,23%	28,89%	57,46%	44,99%	✓
Learnable Calibration++	65,15%	34,34%	63,81%	45,40%	✓

Werte in der Tabelle sind LLM Judge-Bewertungen (%)

Wichtigste Erkenntnisse

Versagen traditioneller Zusammenführungsstrategien: Bestehende Zusammenführungsmethoden zeigen extrem schlechte Leistung in kompositorischen Multitasking-Szenarien (LLM Judge-Bewertungen typischerweise <10%)
Effizienz-Leistungs-Kompromiss: Die vorgeschlagene Methode erreicht unter der Einschränkung einer einzigen Inferenz eine Leistung, die der mehrstufigen Baseline nahekommt oder sie übertrifft
Konsistente Leistung: Learnable Calibration++ erzielte bei allen Aufgaben die beste Leistung

Ablationsstudien

Speichereffizienzanalyse:

Mehrstufige LoRA: 0 zusätzliche Parameter, aber 2 Inferenzen erforderlich
Joint Expert LoRA: 30M Parameter, 57,10 MB Speicher
Learnable Calibration: 23K Parameter, 0,05 MB Speicher
Learnable Calibration++: 166K Parameter, 0,32 MB Speicher

Rolle vortrainierter Adapter: Nach Entfernung vortrainierter LoRAs zeigt sich ein leichter Leistungsrückgang, bleibt aber den meisten Baselines überlegen, was den Wert der Nutzung bestehender Adapter demonstriert.

Erweiterte Analyse

Modellgrößen-Adaptivität: Zeigt gute Leistung bei Modellen mit 0,5B-3B Parametern
Out-of-Domain-Generalisierung: Aufrechterhaltung stabiler Leistung auf verschiedenen Dialogdatensätzen
Drei-Aufgaben-Erweiterung: Unterstützung für dreigliedrige kompositorische Aufgaben (Zusammenfassung + Ton + Übersetzung)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Problemwichtigkeit: Kompositorisches Multitasking ist ein wichtiger Bedarf für On-Device-LLMs, den traditionelle Methoden nicht wirksam erfüllen können
Methodeneffektivität: Learnable Calibration erreicht eine Leistung, die der ineffizienten Baseline entspricht, während die Effizienz aufrechterhalten wird
Praktischer Wert: Der äußerst geringe Speicheraufwand (<0,5 MB) macht die Methode für praktische Bereitstellung geeignet

Einschränkungen

Bewertungsumfang: Konzentriert sich hauptsächlich auf On-Device-Modelle mit 1-3B Parametern, Validierung auf größeren Modellen ausstehend
Aufgabenanzahl: Konzentriert sich hauptsächlich auf die Kombination von 2-3 Aufgaben, Skalierbarkeit für mehr Aufgaben zu überprüfen
Datenabhängigkeit: Erfordert kompositorische Aufgabendaten zum Trainieren von Kalibrierungsparametern, nicht so datenlos wie reine Zusammenführungsmethoden

Zukünftige Richtungen

Sicherheitsforschung: Erforschung der Auswirkungen kompositorischen Multitaskings auf die Sicherheitsmechanismen von Modellen
Skalierungsoptimierung: Untersuchung von Methoden zur Verarbeitung von mehr Aufgabenkombinationen
Zero-Shot-Zusammenführung: Entwicklung kompositorischer Multitasking-Methoden ohne zusätzliche Daten

Tiefgreifende Bewertung

Stärken

Problemnovität: Erste systematische Untersuchung des kompositorischen Multitasking-Problems, füllt wichtige Forschungslücke
Methodenpraktikabilität: Äußerst geringer Speicher- und Rechenaufwand, geeignet für praktische Bereitstellung
Experimentelle Vollständigkeit: Umfassende Baseline-Vergleiche, Ablationsstudien und erweiterte Analysen
Benchmark-Beitrag: Der konstruierte 14-Teilaufgaben-Benchmark bietet eine Standardbewertungsplattform für nachfolgende Forschung

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Kalibrierungsparameter wirksam sind
Begrenzte Aufgabenauswahl: Konzentriert sich hauptsächlich auf NLP-Aufgaben, Anwendbarkeit auf andere Modalitäten unbekannt
Einzelne Bewertungsmetriken: Hauptsächlich auf ROUGE und LLM Judge angewiesen, Mangel an menschlicher Bewertung

Auswirkungen

Akademischer Wert: Eröffnet neue Forschungsrichtung, erwartet nachfolgende Arbeiten
Industrielle Anwendung: Direkt anwendbar auf KI-Anwendungsentwicklung für mobile Geräte
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Benchmark-Daten

Anwendungsszenarien

Mobile Anwendungen: Smartphones, Tablets und andere ressourcenbeschränkte Geräte
Edge Computing: IoT-Geräte, eingebettete Systeme
Datenschutzsensible Szenarien: Anwendungen, die lokale Verarbeitung erfordern, um Datenuploads zu vermeiden

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Hu et al. (2022): Originales LoRA-Papier
Wortsman et al. (2022): Model Soup-Zusammenführungsmethode
Yadav et al. (2024): TIES-Zusammenführungsstrategie
Gunter et al. (2024): Apple Intelligence On-Device-Bereitstellungserfahrung

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein praktisch wichtiges Problem löst, eine wirksame Lösung vorschlägt und umfassende experimentelle Validierung durchführt. Diese Arbeit bietet neue Perspektiven für die Multitasking-Verarbeitung von On-Device-LLMs und hat wichtigen akademischen und praktischen Wert.