Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
- معرّف الورقة: 2507.16083
- العنوان: Efficient Compositional Multi-tasking for On-device Large Language Models
- المؤلفون: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- المؤسسات: ¹معهد سامسونج للبحث والتطوير بالمملكة المتحدة، ²أبحاث سامسونج، كوريا الجنوبية
- التصنيف: cs.CL cs.AI cs.LG
- تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2507.16083
توفر معاملات المحولات آلية لتعديل سلوك نماذج التعلم الآلي، وقد حظيت باهتمام واسع في مجال نماذج اللغة الكبيرة (LLMs) والذكاء الاصطناعي التوليدي. يمكن لهذه المعاملات دعم معالجة متعددة المهام من خلال عمليات دمج المهام. ومع ذلك، فإن الأعمال السابقة في دمج المهام في نماذج اللغة الكبيرة، خاصة في مجال معالجة اللغات الطبيعية، اقتصرت على السيناريوهات التي تتعامل فيها كل عينة اختبار مع مهمة واحدة فقط. تركز هذه الورقة على إعدادات الأجهزة، وتدرس مشكلة المهام المتعددة التركيبية القائمة على النصوص، حيث تتطلب كل عينة اختبار تنفيذ عدة مهام في نفس الوقت. على سبيل المثال، إنشاء ملخص مترجم لنص طويل يتطلب حل مهام الترجمة والتلخيص معاً. لتعزيز البحث في هذا المجال، نقترح معيار يتضمن أربع مهام تركيبية عملية. نقترح أيضاً طريقة فعالة للتطبيقات على الأجهزة (Learnable Calibration)، مع التركيز على الحاجة إلى حلول فعالة من حيث الموارد وعالية الأداء في بيئات الموارد المحدودة.
يركز معالجة المهام المتعددة التقليدية في نماذج اللغة الكبيرة على سيناريوهات المهمة الواحدة، حيث تتضمن كل عينة اختبار مهمة واحدة فقط (مثل الترجمة فقط أو التلخيص فقط). ومع ذلك، غالباً ما تتطلب التطبيقات العملية معالجة متعددة المهام التركيبية، أي تنفيذ عدة مهام في استدلال واحد، مثل إنشاء ملخص مترجم أو إنشاء رد برنة صوتية محددة.
- القيمة العملية: معالجة المهام المتعددة التركيبية لها طلب واسع في السيناريوهات الفعلية، مثل الردود الذكية في السيناريوهات عبر اللغات وإنشاء ملخصات برنة صوتية محددة
- متطلبات الكفاءة: نماذج اللغة الكبيرة على الأجهزة محدودة الموارد، وتحتاج إلى إكمال مهام متعددة في استدلال واحد، مما يتجنب خسائر الكفاءة من الاستدلالات المتعددة
- قيود التخزين: الأجهزة المحمولة لديها تخزين محدود، ولا يمكن تدريب محولات منفصلة لكل مهمة تركيبية
- استراتيجيات الدمج التقليدية: طرق مثل TIES و DARE تؤدي أداءً سيئاً في سيناريوهات المهام المتعددة التركيبية
- حلول متعددة الخطوات: على الرغم من فعاليتها، تتطلب استدلالات متعددة، مما يقلل الكفاءة
- التدريب المستقل: تدريب محولات متخصصة لكل مهمة تركيبية يؤدي إلى نفقات تخزين كبيرة
- طرح مشكلة المهام المتعددة التركيبية للمرة الأولى: تعريف تحديات معالجة المهام المتعددة التركيبية في نماذج اللغة الكبيرة على الأجهزة
- بناء معيار عملي: تطوير معيار شامل يتضمن 14 مهمة فرعية، يغطي أربع فئات رئيسية: التلخيص + الترجمة، التلخيص + تعديل النبرة، الرد + الترجمة، الرد + تعديل النبرة
- اقتراح طريقة Learnable Calibration: تصميم حلين فعالين مع متغيرات مختلفة، يقللان نفقات التخزين والحساب مع الحفاظ على أداء عالية
- التحقق التجريبي الشامل: التحقق من فعالية الطريقة وعموميتها على نماذج لغة كبيرة متعددة على الأجهزة
يتم تعريف المهام المتعددة التركيبية على النحو التالي:
TC[N](x)=TN(…T2(T1(x)))
حيث يمر الإدخال x عبر N مهام بالتتابع، تركز هذه الورقة بشكل أساسي على حالة N=2، والتي تتضمن:
- المهمة الأساسية T1: إنشاء ملخص أو رد
- المهمة المساعدة T2: الترجمة أو تعديل النبرة
بناءً على آلية محول LoRA، يصبح الانتشار الأمامي المعدل:
h=W0x+ΔWx=W0x+BAx
حيث B∈Rd×r، A∈Rr×k، r≪min(d,k).
الفكرة الأساسية: البدء من LoRAs أحادية المهمة المدمجة خطياً، ثم إجراء معايرة من خلال معاملات إضافية قليلة.
الدمج الأولي:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
المتغير 1 - Learnable Calibration:
استخدام متجه انحياز عمود p∈Rd للمعايرة:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
المتغير 2 - Learnable Calibration++:
إدخال مصفوفة LoRA معايرة P2P1:
ΔWc=P2P1+ΔW′
- معايرة خفيفة الوزن: تتطلب فقط 0.08-0.56% معاملات إضافية، مع نفقات تخزين أقل من 0.5 ميجابايت
- خصوصية المهام: تعلم معاملات معايرة متخصصة لمهام تركيبية مختلفة
- توافقية قوية: متوافقة مع الأطر الموجودة (Android AI Core و Apple Intelligence)
- مشاركة المعاملات: دعم مشاركة المعاملات عبر المهام لتقليل متطلبات التخزين بشكل أكبر
بناء معيار البيانات:
- مهام التلخيص: مجموعة بيانات DialogSum (12,460/500/1,500 تدريب/تحقق/اختبار)
- مهام الرد: مجموعة بيانات Synthetic Persona Chat (225,061/1,000/1,000)
- مهام الترجمة: مجموعة بيانات TED Talks، من الإنجليزية إلى الإسبانية/الفرنسية/الألمانية
- تعديل النبرة: مجموعة بيانات Sound Natural، أربع نبرات (احترافية/عادية/فكاهية/سردية)
توليد المهام التركيبية:
- استخدام نموذج OpusMT للترجمة
- استخدام نموذج RedPajama-INCITE-Base 3B لتعديل النبرة
- مهام التلخيص: ROUGE-L (R-L)
- مهام الرد: ROUGE المرجح (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- حكم LLM: استخدام Llama 3.1 70B للتقييم الثنائي
طرق الأساس:
- Zero-shot، LoRA للمهمة الأساسية، LoRA للمهمة المساعدة
- التعلم من السياق، استخدام LoRA متعدد الخطوات
- استراتيجيات دمج مختلفة: Linear، TIES، DARE، Slerp، LoraHub وغيرها
طرق المرجع:
- استخدام LoRA متعدد الخطوات (كفاءة منخفضة لكن أداء عالية)
- LoRA الخبراء المشتركة (تدريب متخصص لكل مهمة تركيبية)
- النماذج: LLaMA 3.2 1B، Qwen2.5 1.5B، StableLM2 1.6B
- إعدادات LoRA: rank=32، α=16، dropout=0.05
- التدريب: محسّن Adam، معدل تعلم 5×10⁻⁵ (LoRA)، 5×10⁻⁴ (معاملات المعايرة)
- تدريب المعايرة: اختيار عشوائي لـ 10,000 عينة مهام تركيبية
| فئة الطريقة | التلخيص+الترجمة | التلخيص+النبرة | الرد+الترجمة | الرد+النبرة | الكفاءة |
|---|
| خطوط أساس فعالة | | | | | |
| Zero-shot | 0.44% | 6.52% | 4.11% | 33.66% | ✓ |
| LoRA للمهمة الأساسية | 3.49% | 4.18% | 7.17% | 36.25% | ✓ |
| دمج خطي | 0.33% | 2.74% | 12.81% | 41.93% | ✓ |
| دمج TIES | 0.81% | 6.06% | 8.30% | 47.87% | ✓ |
| خطوط أساس غير فعالة | | | | | |
| LoRA متعدد الخطوات | 72.92% | 34.32% | 69.83% | 45.78% | ✗ |
| LoRA الخبراء المشتركة | 49.85% | 16.14% | 65.73% | 47.06% | ✗ |
| طريقتنا | | | | | |
| Learnable Calibration | 59.23% | 28.89% | 57.46% | 44.99% | ✓ |
| Learnable Calibration++ | 65.15% | 34.34% | 63.81% | 45.40% | ✓ |
القيم في الجدول هي درجات حكم LLM (%)
- فشل استراتيجيات الدمج التقليدية: الطرق الموجودة تؤدي أداءً سيئاً جداً في سيناريوهات المهام المتعددة التركيبية (درجات حكم LLM عادة <10%)
- المقايضة بين الكفاءة والأداء: طريقتنا تحقق أداءً قريباً أو حتى أفضل من خطوط الأساس غير الفعالة تحت قيد الاستدلال الواحد
- الأداء المتسق: Learnable Calibration++ تحقق أفضل أداء على جميع المهام
تحليل كفاءة التخزين:
- LoRA متعدد الخطوات: 0 معاملات إضافية، لكن يتطلب استدلالين
- LoRA الخبراء المشتركة: 30 مليون معامل، 57.10 ميجابايت تخزين
- Learnable Calibration: 23 ألف معامل، 0.05 ميجابايت تخزين
- Learnable Calibration++: 166 ألف معامل، 0.32 ميجابايت تخزين
دور المحولات المدربة مسبقاً:
إزالة LoRAs المدربة مسبقاً تؤدي إلى انخفاض طفيف في الأداء لكن لا تزال أفضل من معظم خطوط الأساس، مما يثبت قيمة الاستفادة من المحولات الموجودة.
- توافقية حجم النموذج: تؤدي أداءً جيداً على نماذج بـ 0.5B-3B معاملات
- التعميم خارج المجال: الحفاظ على استقرار الأداء على مجموعات بيانات حوار مختلفة
- توسيع ثلاثي المهام: دعم مهام تركيبية ثلاثية الاتجاهات (التلخيص + النبرة + الترجمة)
- LoRA ومتغيراتها: طرق التوسيع مثل DoRA و AdaLoRA و Delta-LoRA
- طرق PEFT الأخرى: طرق تدريب معاملات الانحياز مثل BitFit
- الأعمال المبكرة: طرق الدمج الخطي مثل Model Soup
- التقنيات المتقدمة: TIES و DARE و Slerp وغيرها من استراتيجيات حل التضارب
- الطرق التكيفية: LoraHub و LM-Cocktail و DAM وغيرها من الدمج القائم على التعلم
- تقنيات الضغط: تكميم النموذج وتقطير المعرفة وغيرها
- النماذج الممثلة: LLaMA 3.2 و Qwen2.5 و StableLM2 وغيرها من نماذج 1-3B معامل
- تحديات النشر: قيود التخزين والقيود الحسابية ومتطلبات الخصوصية
- أهمية المشكلة: المهام المتعددة التركيبية هي احتياج مهم لنماذج اللغة الكبيرة على الأجهزة، والطرق التقليدية لا يمكنها حلها بفعالية
- فعالية الطريقة: Learnable Calibration تحقق أداءً مماثلة للطرق غير الفعالة مع الحفاظ على الكفاءة
- القيمة العملية: نفقات التخزين الصغيرة جداً (<0.5 ميجابايت) تجعل الطريقة مناسبة للنشر الفعلي
- نطاق التقييم: يركز بشكل أساسي على نماذج 1-3B معامل على الأجهزة، لم يتم التحقق على نماذج أكبر
- عدد المهام: يركز البحث بشكل أساسي على تركيب 2-3 مهام، قابلية التوسع لمهام أكثر تحتاج إلى التحقق
- الاعتماد على البيانات: يتطلب بيانات مهام تركيبية لتدريب معاملات المعايرة، ليس فعالاً مثل طرق الدمج الخالية من البيانات تماماً
- بحث الأمان: استكشاف تأثير المهام المتعددة التركيبية على آليات أمان النموذج
- تحسين التوسعية: البحث عن طرق للتعامل مع تركيبات مهام أكثر
- الدمج الخالي من العينات: تطوير طرق مهام متعددة تركيبية بدون بيانات إضافية
- ابتكار المشكلة: أول دراسة منهجية لمشكلة المهام المتعددة التركيبية، ملء فجوة بحثية مهمة
- عملية الطريقة: نفقات تخزين وحساب صغيرة جداً، مناسبة للنشر الفعلي
- اكتمال التجارب: مقارنة شاملة مع خطوط الأساس وتجارب استئصال وتحليل موسع
- مساهمة المعيار: المعيار المبني بـ 14 مهمة فرعية يوفر منصة تقييم معيارية للأبحاث اللاحقة
- نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب فعالية معاملات المعايرة
- قيود اختيار المهام: يركز بشكل أساسي على مهام NLP، قابلية التطبيق على الأنماط الأخرى غير معروفة
- مؤشرات التقييم الموحدة: يعتمد بشكل أساسي على ROUGE وحكم LLM، يفتقد التقييم البشري
- القيمة الأكاديمية: فتح اتجاه بحثي جديد، متوقع أن تتابعه أعمال لاحقة
- التطبيق الصناعي: قابل للتطبيق المباشر على تطوير تطبيقات الذكاء الاصطناعي على الأجهزة المحمولة
- قابلية الاستنساخ: توفير تفاصيل تنفيذ مفصلة وبيانات معيارية
- التطبيقات المحمولة: الهواتف الذكية والأجهزة اللوحية وغيرها من الأجهزة محدودة الموارد
- الحوسبة الطرفية: أجهزة IoT والأنظمة المدمجة
- السيناريوهات الحساسة للخصوصية: التطبيقات التي تتطلب معالجة محلية لتجنب تحميل البيانات
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تتضمن بشكل أساسي:
- Hu et al. (2022): ورقة LoRA الأصلية
- Wortsman et al. (2022): طريقة دمج النماذج Model Soup
- Yadav et al. (2024): استراتيجية دمج TIES
- Gunter et al. (2024): تجربة نشر Apple Intelligence على الأجهزة
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تحل مشكلة مهمة عملياً، وتقترح حلاً فعالاً، وتجري تحققاً تجريبياً شاملاً. يوفر هذا العمل أفكاراً جديدة لمعالجة المهام المتعددة في نماذج اللغة الكبيرة على الأجهزة، ويتمتع بقيمة أكاديمية وعملية مهمة.