2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.
Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
academic

Effiziente kompositorische Multitasking für On-Device Large Language Models

Grundinformationen

  • Paper-ID: 2507.16083
  • Titel: Efficient Compositional Multi-tasking for On-device Large Language Models
  • Autoren: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
  • Institutionen: ¹Samsung R&D Institute UK, ²Samsung Research, Südkorea
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2507.16083

Zusammenfassung

Adapter-Parameter bieten einen Mechanismus zur Änderung des Verhaltens von Machine-Learning-Modellen und haben in den Bereichen Large Language Models (LLMs) und generativer KI große Aufmerksamkeit erhalten. Diese Parameter können durch Aufgabenzusammenführungsprozesse zur Unterstützung von Multitasking genutzt werden. Frühere Zusammenführungsarbeiten bei LLMs, insbesondere im Bereich der Verarbeitung natürlicher Sprache, waren jedoch auf Szenarien beschränkt, in denen jede Testprobe nur eine einzelne Aufgabe verarbeitet. Dieses Papier konzentriert sich auf die On-Device-Einstellung und untersucht textbasierte kompositorische Multitasking-Probleme, bei denen jede Testprobe mehrere Aufgaben gleichzeitig ausführen muss. Beispielsweise erfordert die Generierung einer übersetzten Zusammenfassung eines langen Textes die gleichzeitige Lösung von Übersetzungs- und Zusammenfassungsaufgaben. Um die Forschung in diesem Bereich zu fördern, schlagen wir einen Benchmark mit vier praktischen kompositorischen Aufgaben vor. Wir präsentieren auch eine effiziente Methode für On-Device-Anwendungen (Learnable Calibration), die in ressourcenbeschränkten Umgebungen die Notwendigkeit von Lösungen unterstreicht, die sowohl ressourceneffizient als auch hochleistungsfähig sind.

Forschungshintergrund und Motivation

Problemdefinition

Die traditionelle LLM-Multitasking-Verarbeitung konzentriert sich hauptsächlich auf Single-Task-Szenarien, bei denen jede Testprobe nur eine Aufgabe betrifft (z. B. nur Übersetzung oder nur Zusammenfassung). In praktischen Anwendungen ist jedoch häufig kompositorisches Multitasking erforderlich, d. h. die gleichzeitige Ausführung mehrerer Aufgaben in einer einzigen Inferenz, wie die Generierung übersetzter Zusammenfassungen oder die Generierung von Antworten mit spezifischem Ton.

Bedeutungsanalyse

  1. Praktischer Wert: Kompositorisches Multitasking wird in praktischen Szenarien weit verbreitet benötigt, wie intelligente Antworten in sprachübergreifenden Szenarien, Zusammenfassungsgenerierung mit spezifischem Ton usw.
  2. Effizienzanforderungen: On-Device-LLMs haben begrenzte Ressourcen und müssen mehrere Aufgaben in einer einzigen Inferenz ausführen, um Effizienzverluste durch mehrfache Inferenzen zu vermeiden
  3. Speicherbeschränkungen: Mobile Geräte haben begrenzten Speicher und können nicht für jede kompositorische Aufgabe unabhängige Adapter trainieren

Einschränkungen bestehender Methoden

  1. Traditionelle Zusammenführungsstrategien: Methoden wie TIES und DARE zeigen schlechte Leistung in kompositorischen Multitasking-Szenarien
  2. Mehrstufige Ansätze: Obwohl wirksam, erfordern sie mehrfache Inferenzen und sind ineffizient
  3. Unabhängiges Training: Das Training spezialisierter Adapter für jede kompositorische Aufgabe verursacht großen Speicheraufwand

Kernbeiträge

  1. Erstmalige Formulierung des kompositorischen Multitasking-Problems: Definition der Herausforderungen des kompositorischen Multitasking-Verarbeitung für On-Device-LLMs
  2. Konstruktion eines praktischen Benchmarks: Entwicklung eines umfassenden Benchmarks mit 14 Teilaufgaben, die vier Hauptkategorien abdecken: Zusammenfassung + Übersetzung, Zusammenfassung + Tonanpassung, Antwort + Übersetzung, Antwort + Tonanpassung
  3. Vorschlag der Learnable Calibration-Methode: Entwurf einer effizienten Lösung mit zwei Varianten, die hohe Leistung bei minimalen Speicher- und Rechenaufwand aufrechterhält
  4. Umfassende experimentelle Validierung: Validierung der Methodeneffektivität und Allgemeingültigkeit auf mehreren On-Device-LLMs

Methodische Details

Aufgabendefinition

Kompositorisches Multitasking wird definiert als: TC[N](x)=TN(T2(T1(x)))T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))

wobei die Eingabe xx nacheinander NN Aufgaben durchläuft. Dieses Papier konzentriert sich hauptsächlich auf den Fall N=2N=2, einschließlich:

  • Hauptaufgabe T1T_1: Zusammenfassung oder Antworterzeugung
  • Hilfsaufgabe T2T_2: Übersetzung oder Tonanpassung

Modellarchitektur

LoRA-Grundlagen

Basierend auf dem LoRA-Adapter-Mechanismus ist die angepasste Vorwärtsausbreitung: h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

wobei BRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, rmin(d,k)r \ll \min(d,k).

Learnable Calibration-Methode

Kernidee: Ausgehend von linear zusammengeführten Single-Task-LoRAs erfolgt die Kalibrierung durch eine kleine Anzahl zusätzlicher Parameter.

Initiale Zusammenführung: B=1Ni=1NBi,A=1Ni=1NAiB' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i

Variante 1 - Learnable Calibration: Verwendung eines spaltenweisen Bias-Vektors pRdp \in \mathbb{R}^d für die Kalibrierung: ΔWc=pBA=i=1dpiΔWi\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i

Variante 2 - Learnable Calibration++: Einführung einer Kalibrierungs-LoRA-Matrix P2P1P_2P_1: ΔWc=P2P1+ΔW\Delta W^c = P_2P_1 + \Delta W'

Technische Innovationen

  1. Leichte Kalibrierung: Nur 0,08-0,56% zusätzliche Parameter erforderlich, Speicheraufwand unter 0,5 MB
  2. Aufgabenspezifität: Spezialisierte Kalibrierungsparameter für verschiedene kompositorische Aufgaben
  3. Starke Kompatibilität: Kompatibilität mit bestehenden Frameworks (Android AI Core, Apple Intelligence)
  4. Parameterfreigabe: Unterstützt aufgabenübergreifende Parameterfreigabe zur weiteren Speicherreduktion

Experimentelle Einrichtung

Datensätze

Benchmark-Datensatz-Konstruktion:

  • Zusammenfassungsaufgabe: DialogSum-Datensatz (12.460/500/1.500 Training/Validierung/Test)
  • Antwortaufgabe: Synthetic Persona Chat-Datensatz (225.061/1.000/1.000)
  • Übersetzungsaufgabe: TED Talks-Datensatz, Englisch zu Spanisch/Französisch/Deutsch
  • Tonanpassung: Sound Natural-Datensatz, vier Töne (professionell/ungezwungen/humorvoll/Nacherzählung)

Kompositorische Aufgabengenerierung:

  • Verwendung des OpusMT-Modells für Übersetzung
  • Verwendung des RedPajama-INCITE-Base 3B-Modells für Tonanpassung

Bewertungsmetriken

  • Zusammenfassungsaufgaben: ROUGE-L (R-L)
  • Antwortaufgaben: Gewichtetes ROUGE (W-R) = ROUGE-16+ROUGE-23+ROUGE-32\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}
  • LLM Judge: Verwendung von Llama 3.1 70B für binäre Bewertung

Vergleichsmethoden

Baseline-Methoden:

  • Zero-shot, Hauptaufgaben-LoRA, Hilfsaufgaben-LoRA
  • In-Context-Learning, mehrstufige LoRA-Verwendung
  • Verschiedene Zusammenführungsstrategien: Linear, TIES, DARE, Slerp, LoraHub usw.

Referenzmethoden:

  • Mehrstufige LoRA-Verwendung (ineffizient aber leistungsstark)
  • Joint Expert LoRA (speziell für jede kompositorische Aufgabe trainiert)

Implementierungsdetails

  • Modelle: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
  • LoRA-Konfiguration: rank=32, α=16, dropout=0,05
  • Training: Adam-Optimierer, Lernrate 5×10⁻⁵ (LoRA), 5×10⁻⁴ (Kalibrierungsparameter)
  • Kalibrierungstraining: Zufällige Auswahl von 10.000 kompositorischen Aufgabenproben

Experimentelle Ergebnisse

Hauptergebnisse

MethodenkategorieZus.+Übers.Zus.+TonAntw.+Übers.Antw.+TonEffizienz
Effiziente Baselines
Zero-shot0,44%6,52%4,11%33,66%
Hauptaufgaben-LoRA3,49%4,18%7,17%36,25%
Lineare Zusammenführung0,33%2,74%12,81%41,93%
TIES-Zusammenführung0,81%6,06%8,30%47,87%
Ineffiziente Baselines
Mehrstufige LoRA72,92%34,32%69,83%45,78%
Joint Expert LoRA49,85%16,14%65,73%47,06%
Diese Methode
Learnable Calibration59,23%28,89%57,46%44,99%
Learnable Calibration++65,15%34,34%63,81%45,40%

Werte in der Tabelle sind LLM Judge-Bewertungen (%)

Wichtigste Erkenntnisse

  1. Versagen traditioneller Zusammenführungsstrategien: Bestehende Zusammenführungsmethoden zeigen extrem schlechte Leistung in kompositorischen Multitasking-Szenarien (LLM Judge-Bewertungen typischerweise <10%)
  2. Effizienz-Leistungs-Kompromiss: Die vorgeschlagene Methode erreicht unter der Einschränkung einer einzigen Inferenz eine Leistung, die der mehrstufigen Baseline nahekommt oder sie übertrifft
  3. Konsistente Leistung: Learnable Calibration++ erzielte bei allen Aufgaben die beste Leistung

Ablationsstudien

Speichereffizienzanalyse:

  • Mehrstufige LoRA: 0 zusätzliche Parameter, aber 2 Inferenzen erforderlich
  • Joint Expert LoRA: 30M Parameter, 57,10 MB Speicher
  • Learnable Calibration: 23K Parameter, 0,05 MB Speicher
  • Learnable Calibration++: 166K Parameter, 0,32 MB Speicher

Rolle vortrainierter Adapter: Nach Entfernung vortrainierter LoRAs zeigt sich ein leichter Leistungsrückgang, bleibt aber den meisten Baselines überlegen, was den Wert der Nutzung bestehender Adapter demonstriert.

Erweiterte Analyse

  1. Modellgrößen-Adaptivität: Zeigt gute Leistung bei Modellen mit 0,5B-3B Parametern
  2. Out-of-Domain-Generalisierung: Aufrechterhaltung stabiler Leistung auf verschiedenen Dialogdatensätzen
  3. Drei-Aufgaben-Erweiterung: Unterstützung für dreigliedrige kompositorische Aufgaben (Zusammenfassung + Ton + Übersetzung)

Verwandte Arbeiten

Parameter-effiziente Feinabstimmung (PEFT)

  • LoRA und Varianten: DoRA, AdaLoRA, Delta-LoRA und andere Erweiterungsmethoden
  • Andere PEFT-Methoden: BitFit und andere Bias-Parameter-Trainingsmethoden

Modellzusammenführung

  • Frühe Arbeiten: Model Soup und andere lineare Zusammenführungsmethoden
  • Fortgeschrittene Techniken: TIES, DARE, Slerp und andere Konfliktlösungsstrategien
  • Adaptive Methoden: LoraHub, LM-Cocktail, DAM und andere lernbasierte Zusammenführungen

On-Device-LLMs

  • Kompressionstechniken: Modellquantisierung, Wissensdestillation usw.
  • Repräsentative Modelle: LLaMA 3.2, Qwen2.5, StableLM2 und andere 1-3B-Parameter-Modelle
  • Bereitstellungsherausforderungen: Speicherbeschränkungen, Rechenbeschränkungen, Datenschutzanforderungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Problemwichtigkeit: Kompositorisches Multitasking ist ein wichtiger Bedarf für On-Device-LLMs, den traditionelle Methoden nicht wirksam erfüllen können
  2. Methodeneffektivität: Learnable Calibration erreicht eine Leistung, die der ineffizienten Baseline entspricht, während die Effizienz aufrechterhalten wird
  3. Praktischer Wert: Der äußerst geringe Speicheraufwand (<0,5 MB) macht die Methode für praktische Bereitstellung geeignet

Einschränkungen

  1. Bewertungsumfang: Konzentriert sich hauptsächlich auf On-Device-Modelle mit 1-3B Parametern, Validierung auf größeren Modellen ausstehend
  2. Aufgabenanzahl: Konzentriert sich hauptsächlich auf die Kombination von 2-3 Aufgaben, Skalierbarkeit für mehr Aufgaben zu überprüfen
  3. Datenabhängigkeit: Erfordert kompositorische Aufgabendaten zum Trainieren von Kalibrierungsparametern, nicht so datenlos wie reine Zusammenführungsmethoden

Zukünftige Richtungen

  1. Sicherheitsforschung: Erforschung der Auswirkungen kompositorischen Multitaskings auf die Sicherheitsmechanismen von Modellen
  2. Skalierungsoptimierung: Untersuchung von Methoden zur Verarbeitung von mehr Aufgabenkombinationen
  3. Zero-Shot-Zusammenführung: Entwicklung kompositorischer Multitasking-Methoden ohne zusätzliche Daten

Tiefgreifende Bewertung

Stärken

  1. Problemnovität: Erste systematische Untersuchung des kompositorischen Multitasking-Problems, füllt wichtige Forschungslücke
  2. Methodenpraktikabilität: Äußerst geringer Speicher- und Rechenaufwand, geeignet für praktische Bereitstellung
  3. Experimentelle Vollständigkeit: Umfassende Baseline-Vergleiche, Ablationsstudien und erweiterte Analysen
  4. Benchmark-Beitrag: Der konstruierte 14-Teilaufgaben-Benchmark bietet eine Standardbewertungsplattform für nachfolgende Forschung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Kalibrierungsparameter wirksam sind
  2. Begrenzte Aufgabenauswahl: Konzentriert sich hauptsächlich auf NLP-Aufgaben, Anwendbarkeit auf andere Modalitäten unbekannt
  3. Einzelne Bewertungsmetriken: Hauptsächlich auf ROUGE und LLM Judge angewiesen, Mangel an menschlicher Bewertung

Auswirkungen

  1. Akademischer Wert: Eröffnet neue Forschungsrichtung, erwartet nachfolgende Arbeiten
  2. Industrielle Anwendung: Direkt anwendbar auf KI-Anwendungsentwicklung für mobile Geräte
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Benchmark-Daten

Anwendungsszenarien

  1. Mobile Anwendungen: Smartphones, Tablets und andere ressourcenbeschränkte Geräte
  2. Edge Computing: IoT-Geräte, eingebettete Systeme
  3. Datenschutzsensible Szenarien: Anwendungen, die lokale Verarbeitung erfordern, um Datenuploads zu vermeiden

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Hu et al. (2022): Originales LoRA-Papier
  • Wortsman et al. (2022): Model Soup-Zusammenführungsmethode
  • Yadav et al. (2024): TIES-Zusammenführungsstrategie
  • Gunter et al. (2024): Apple Intelligence On-Device-Bereitstellungserfahrung

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein praktisch wichtiges Problem löst, eine wirksame Lösung vorschlägt und umfassende experimentelle Validierung durchführt. Diese Arbeit bietet neue Perspektiven für die Multitasking-Verarbeitung von On-Device-LLMs und hat wichtigen akademischen und praktischen Wert.