Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
- Paper-ID: 2507.16083
- Titel: Efficient Compositional Multi-tasking for On-device Large Language Models
- Autoren: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- Institutionen: ¹Samsung R&D Institute UK, ²Samsung Research, Südkorea
- Klassifizierung: cs.CL cs.AI cs.LG
- Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
- Paper-Link: https://arxiv.org/abs/2507.16083
Adapter-Parameter bieten einen Mechanismus zur Änderung des Verhaltens von Machine-Learning-Modellen und haben in den Bereichen Large Language Models (LLMs) und generativer KI große Aufmerksamkeit erhalten. Diese Parameter können durch Aufgabenzusammenführungsprozesse zur Unterstützung von Multitasking genutzt werden. Frühere Zusammenführungsarbeiten bei LLMs, insbesondere im Bereich der Verarbeitung natürlicher Sprache, waren jedoch auf Szenarien beschränkt, in denen jede Testprobe nur eine einzelne Aufgabe verarbeitet. Dieses Papier konzentriert sich auf die On-Device-Einstellung und untersucht textbasierte kompositorische Multitasking-Probleme, bei denen jede Testprobe mehrere Aufgaben gleichzeitig ausführen muss. Beispielsweise erfordert die Generierung einer übersetzten Zusammenfassung eines langen Textes die gleichzeitige Lösung von Übersetzungs- und Zusammenfassungsaufgaben. Um die Forschung in diesem Bereich zu fördern, schlagen wir einen Benchmark mit vier praktischen kompositorischen Aufgaben vor. Wir präsentieren auch eine effiziente Methode für On-Device-Anwendungen (Learnable Calibration), die in ressourcenbeschränkten Umgebungen die Notwendigkeit von Lösungen unterstreicht, die sowohl ressourceneffizient als auch hochleistungsfähig sind.
Die traditionelle LLM-Multitasking-Verarbeitung konzentriert sich hauptsächlich auf Single-Task-Szenarien, bei denen jede Testprobe nur eine Aufgabe betrifft (z. B. nur Übersetzung oder nur Zusammenfassung). In praktischen Anwendungen ist jedoch häufig kompositorisches Multitasking erforderlich, d. h. die gleichzeitige Ausführung mehrerer Aufgaben in einer einzigen Inferenz, wie die Generierung übersetzter Zusammenfassungen oder die Generierung von Antworten mit spezifischem Ton.
- Praktischer Wert: Kompositorisches Multitasking wird in praktischen Szenarien weit verbreitet benötigt, wie intelligente Antworten in sprachübergreifenden Szenarien, Zusammenfassungsgenerierung mit spezifischem Ton usw.
- Effizienzanforderungen: On-Device-LLMs haben begrenzte Ressourcen und müssen mehrere Aufgaben in einer einzigen Inferenz ausführen, um Effizienzverluste durch mehrfache Inferenzen zu vermeiden
- Speicherbeschränkungen: Mobile Geräte haben begrenzten Speicher und können nicht für jede kompositorische Aufgabe unabhängige Adapter trainieren
- Traditionelle Zusammenführungsstrategien: Methoden wie TIES und DARE zeigen schlechte Leistung in kompositorischen Multitasking-Szenarien
- Mehrstufige Ansätze: Obwohl wirksam, erfordern sie mehrfache Inferenzen und sind ineffizient
- Unabhängiges Training: Das Training spezialisierter Adapter für jede kompositorische Aufgabe verursacht großen Speicheraufwand
- Erstmalige Formulierung des kompositorischen Multitasking-Problems: Definition der Herausforderungen des kompositorischen Multitasking-Verarbeitung für On-Device-LLMs
- Konstruktion eines praktischen Benchmarks: Entwicklung eines umfassenden Benchmarks mit 14 Teilaufgaben, die vier Hauptkategorien abdecken: Zusammenfassung + Übersetzung, Zusammenfassung + Tonanpassung, Antwort + Übersetzung, Antwort + Tonanpassung
- Vorschlag der Learnable Calibration-Methode: Entwurf einer effizienten Lösung mit zwei Varianten, die hohe Leistung bei minimalen Speicher- und Rechenaufwand aufrechterhält
- Umfassende experimentelle Validierung: Validierung der Methodeneffektivität und Allgemeingültigkeit auf mehreren On-Device-LLMs
Kompositorisches Multitasking wird definiert als:
TC[N](x)=TN(…T2(T1(x)))
wobei die Eingabe x nacheinander N Aufgaben durchläuft. Dieses Papier konzentriert sich hauptsächlich auf den Fall N=2, einschließlich:
- Hauptaufgabe T1: Zusammenfassung oder Antworterzeugung
- Hilfsaufgabe T2: Übersetzung oder Tonanpassung
Basierend auf dem LoRA-Adapter-Mechanismus ist die angepasste Vorwärtsausbreitung:
h=W0x+ΔWx=W0x+BAx
wobei B∈Rd×r, A∈Rr×k, r≪min(d,k).
Kernidee: Ausgehend von linear zusammengeführten Single-Task-LoRAs erfolgt die Kalibrierung durch eine kleine Anzahl zusätzlicher Parameter.
Initiale Zusammenführung:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
Variante 1 - Learnable Calibration:
Verwendung eines spaltenweisen Bias-Vektors p∈Rd für die Kalibrierung:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
Variante 2 - Learnable Calibration++:
Einführung einer Kalibrierungs-LoRA-Matrix P2P1:
ΔWc=P2P1+ΔW′
- Leichte Kalibrierung: Nur 0,08-0,56% zusätzliche Parameter erforderlich, Speicheraufwand unter 0,5 MB
- Aufgabenspezifität: Spezialisierte Kalibrierungsparameter für verschiedene kompositorische Aufgaben
- Starke Kompatibilität: Kompatibilität mit bestehenden Frameworks (Android AI Core, Apple Intelligence)
- Parameterfreigabe: Unterstützt aufgabenübergreifende Parameterfreigabe zur weiteren Speicherreduktion
Benchmark-Datensatz-Konstruktion:
- Zusammenfassungsaufgabe: DialogSum-Datensatz (12.460/500/1.500 Training/Validierung/Test)
- Antwortaufgabe: Synthetic Persona Chat-Datensatz (225.061/1.000/1.000)
- Übersetzungsaufgabe: TED Talks-Datensatz, Englisch zu Spanisch/Französisch/Deutsch
- Tonanpassung: Sound Natural-Datensatz, vier Töne (professionell/ungezwungen/humorvoll/Nacherzählung)
Kompositorische Aufgabengenerierung:
- Verwendung des OpusMT-Modells für Übersetzung
- Verwendung des RedPajama-INCITE-Base 3B-Modells für Tonanpassung
- Zusammenfassungsaufgaben: ROUGE-L (R-L)
- Antwortaufgaben: Gewichtetes ROUGE (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- LLM Judge: Verwendung von Llama 3.1 70B für binäre Bewertung
Baseline-Methoden:
- Zero-shot, Hauptaufgaben-LoRA, Hilfsaufgaben-LoRA
- In-Context-Learning, mehrstufige LoRA-Verwendung
- Verschiedene Zusammenführungsstrategien: Linear, TIES, DARE, Slerp, LoraHub usw.
Referenzmethoden:
- Mehrstufige LoRA-Verwendung (ineffizient aber leistungsstark)
- Joint Expert LoRA (speziell für jede kompositorische Aufgabe trainiert)
- Modelle: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
- LoRA-Konfiguration: rank=32, α=16, dropout=0,05
- Training: Adam-Optimierer, Lernrate 5×10⁻⁵ (LoRA), 5×10⁻⁴ (Kalibrierungsparameter)
- Kalibrierungstraining: Zufällige Auswahl von 10.000 kompositorischen Aufgabenproben
| Methodenkategorie | Zus.+Übers. | Zus.+Ton | Antw.+Übers. | Antw.+Ton | Effizienz |
|---|
| Effiziente Baselines | | | | | |
| Zero-shot | 0,44% | 6,52% | 4,11% | 33,66% | ✓ |
| Hauptaufgaben-LoRA | 3,49% | 4,18% | 7,17% | 36,25% | ✓ |
| Lineare Zusammenführung | 0,33% | 2,74% | 12,81% | 41,93% | ✓ |
| TIES-Zusammenführung | 0,81% | 6,06% | 8,30% | 47,87% | ✓ |
| Ineffiziente Baselines | | | | | |
| Mehrstufige LoRA | 72,92% | 34,32% | 69,83% | 45,78% | ✗ |
| Joint Expert LoRA | 49,85% | 16,14% | 65,73% | 47,06% | ✗ |
| Diese Methode | | | | | |
| Learnable Calibration | 59,23% | 28,89% | 57,46% | 44,99% | ✓ |
| Learnable Calibration++ | 65,15% | 34,34% | 63,81% | 45,40% | ✓ |
Werte in der Tabelle sind LLM Judge-Bewertungen (%)
- Versagen traditioneller Zusammenführungsstrategien: Bestehende Zusammenführungsmethoden zeigen extrem schlechte Leistung in kompositorischen Multitasking-Szenarien (LLM Judge-Bewertungen typischerweise <10%)
- Effizienz-Leistungs-Kompromiss: Die vorgeschlagene Methode erreicht unter der Einschränkung einer einzigen Inferenz eine Leistung, die der mehrstufigen Baseline nahekommt oder sie übertrifft
- Konsistente Leistung: Learnable Calibration++ erzielte bei allen Aufgaben die beste Leistung
Speichereffizienzanalyse:
- Mehrstufige LoRA: 0 zusätzliche Parameter, aber 2 Inferenzen erforderlich
- Joint Expert LoRA: 30M Parameter, 57,10 MB Speicher
- Learnable Calibration: 23K Parameter, 0,05 MB Speicher
- Learnable Calibration++: 166K Parameter, 0,32 MB Speicher
Rolle vortrainierter Adapter:
Nach Entfernung vortrainierter LoRAs zeigt sich ein leichter Leistungsrückgang, bleibt aber den meisten Baselines überlegen, was den Wert der Nutzung bestehender Adapter demonstriert.
- Modellgrößen-Adaptivität: Zeigt gute Leistung bei Modellen mit 0,5B-3B Parametern
- Out-of-Domain-Generalisierung: Aufrechterhaltung stabiler Leistung auf verschiedenen Dialogdatensätzen
- Drei-Aufgaben-Erweiterung: Unterstützung für dreigliedrige kompositorische Aufgaben (Zusammenfassung + Ton + Übersetzung)
- LoRA und Varianten: DoRA, AdaLoRA, Delta-LoRA und andere Erweiterungsmethoden
- Andere PEFT-Methoden: BitFit und andere Bias-Parameter-Trainingsmethoden
- Frühe Arbeiten: Model Soup und andere lineare Zusammenführungsmethoden
- Fortgeschrittene Techniken: TIES, DARE, Slerp und andere Konfliktlösungsstrategien
- Adaptive Methoden: LoraHub, LM-Cocktail, DAM und andere lernbasierte Zusammenführungen
- Kompressionstechniken: Modellquantisierung, Wissensdestillation usw.
- Repräsentative Modelle: LLaMA 3.2, Qwen2.5, StableLM2 und andere 1-3B-Parameter-Modelle
- Bereitstellungsherausforderungen: Speicherbeschränkungen, Rechenbeschränkungen, Datenschutzanforderungen
- Problemwichtigkeit: Kompositorisches Multitasking ist ein wichtiger Bedarf für On-Device-LLMs, den traditionelle Methoden nicht wirksam erfüllen können
- Methodeneffektivität: Learnable Calibration erreicht eine Leistung, die der ineffizienten Baseline entspricht, während die Effizienz aufrechterhalten wird
- Praktischer Wert: Der äußerst geringe Speicheraufwand (<0,5 MB) macht die Methode für praktische Bereitstellung geeignet
- Bewertungsumfang: Konzentriert sich hauptsächlich auf On-Device-Modelle mit 1-3B Parametern, Validierung auf größeren Modellen ausstehend
- Aufgabenanzahl: Konzentriert sich hauptsächlich auf die Kombination von 2-3 Aufgaben, Skalierbarkeit für mehr Aufgaben zu überprüfen
- Datenabhängigkeit: Erfordert kompositorische Aufgabendaten zum Trainieren von Kalibrierungsparametern, nicht so datenlos wie reine Zusammenführungsmethoden
- Sicherheitsforschung: Erforschung der Auswirkungen kompositorischen Multitaskings auf die Sicherheitsmechanismen von Modellen
- Skalierungsoptimierung: Untersuchung von Methoden zur Verarbeitung von mehr Aufgabenkombinationen
- Zero-Shot-Zusammenführung: Entwicklung kompositorischer Multitasking-Methoden ohne zusätzliche Daten
- Problemnovität: Erste systematische Untersuchung des kompositorischen Multitasking-Problems, füllt wichtige Forschungslücke
- Methodenpraktikabilität: Äußerst geringer Speicher- und Rechenaufwand, geeignet für praktische Bereitstellung
- Experimentelle Vollständigkeit: Umfassende Baseline-Vergleiche, Ablationsstudien und erweiterte Analysen
- Benchmark-Beitrag: Der konstruierte 14-Teilaufgaben-Benchmark bietet eine Standardbewertungsplattform für nachfolgende Forschung
- Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum Kalibrierungsparameter wirksam sind
- Begrenzte Aufgabenauswahl: Konzentriert sich hauptsächlich auf NLP-Aufgaben, Anwendbarkeit auf andere Modalitäten unbekannt
- Einzelne Bewertungsmetriken: Hauptsächlich auf ROUGE und LLM Judge angewiesen, Mangel an menschlicher Bewertung
- Akademischer Wert: Eröffnet neue Forschungsrichtung, erwartet nachfolgende Arbeiten
- Industrielle Anwendung: Direkt anwendbar auf KI-Anwendungsentwicklung für mobile Geräte
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Benchmark-Daten
- Mobile Anwendungen: Smartphones, Tablets und andere ressourcenbeschränkte Geräte
- Edge Computing: IoT-Geräte, eingebettete Systeme
- Datenschutzsensible Szenarien: Anwendungen, die lokale Verarbeitung erfordern, um Datenuploads zu vermeiden
Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
- Hu et al. (2022): Originales LoRA-Papier
- Wortsman et al. (2022): Model Soup-Zusammenführungsmethode
- Yadav et al. (2024): TIES-Zusammenführungsstrategie
- Gunter et al. (2024): Apple Intelligence On-Device-Bereitstellungserfahrung
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das ein praktisch wichtiges Problem löst, eine wirksame Lösung vorschlägt und umfassende experimentelle Validierung durchführt. Diese Arbeit bietet neue Perspektiven für die Multitasking-Verarbeitung von On-Device-LLMs und hat wichtigen akademischen und praktischen Wert.