2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

نماذج اللغة الكبيرة الفعالة متعددة المهام التركيبية للأجهزة

المعلومات الأساسية

معرّف الورقة: 2507.16083
العنوان: Efficient Compositional Multi-tasking for On-device Large Language Models
المؤلفون: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
المؤسسات: ¹معهد سامسونج للبحث والتطوير بالمملكة المتحدة، ²أبحاث سامسونج، كوريا الجنوبية
التصنيف: cs.CL cs.AI cs.LG
تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2507.16083

الملخص

توفر معاملات المحولات آلية لتعديل سلوك نماذج التعلم الآلي، وقد حظيت باهتمام واسع في مجال نماذج اللغة الكبيرة (LLMs) والذكاء الاصطناعي التوليدي. يمكن لهذه المعاملات دعم معالجة متعددة المهام من خلال عمليات دمج المهام. ومع ذلك، فإن الأعمال السابقة في دمج المهام في نماذج اللغة الكبيرة، خاصة في مجال معالجة اللغات الطبيعية، اقتصرت على السيناريوهات التي تتعامل فيها كل عينة اختبار مع مهمة واحدة فقط. تركز هذه الورقة على إعدادات الأجهزة، وتدرس مشكلة المهام المتعددة التركيبية القائمة على النصوص، حيث تتطلب كل عينة اختبار تنفيذ عدة مهام في نفس الوقت. على سبيل المثال، إنشاء ملخص مترجم لنص طويل يتطلب حل مهام الترجمة والتلخيص معاً. لتعزيز البحث في هذا المجال، نقترح معيار يتضمن أربع مهام تركيبية عملية. نقترح أيضاً طريقة فعالة للتطبيقات على الأجهزة (Learnable Calibration)، مع التركيز على الحاجة إلى حلول فعالة من حيث الموارد وعالية الأداء في بيئات الموارد المحدودة.

الخلفية البحثية والدافع

تعريف المشكلة

يركز معالجة المهام المتعددة التقليدية في نماذج اللغة الكبيرة على سيناريوهات المهمة الواحدة، حيث تتضمن كل عينة اختبار مهمة واحدة فقط (مثل الترجمة فقط أو التلخيص فقط). ومع ذلك، غالباً ما تتطلب التطبيقات العملية معالجة متعددة المهام التركيبية، أي تنفيذ عدة مهام في استدلال واحد، مثل إنشاء ملخص مترجم أو إنشاء رد برنة صوتية محددة.

تحليل الأهمية

القيمة العملية: معالجة المهام المتعددة التركيبية لها طلب واسع في السيناريوهات الفعلية، مثل الردود الذكية في السيناريوهات عبر اللغات وإنشاء ملخصات برنة صوتية محددة
متطلبات الكفاءة: نماذج اللغة الكبيرة على الأجهزة محدودة الموارد، وتحتاج إلى إكمال مهام متعددة في استدلال واحد، مما يتجنب خسائر الكفاءة من الاستدلالات المتعددة
قيود التخزين: الأجهزة المحمولة لديها تخزين محدود، ولا يمكن تدريب محولات منفصلة لكل مهمة تركيبية

قيود الطرق الموجودة

استراتيجيات الدمج التقليدية: طرق مثل TIES و DARE تؤدي أداءً سيئاً في سيناريوهات المهام المتعددة التركيبية
حلول متعددة الخطوات: على الرغم من فعاليتها، تتطلب استدلالات متعددة، مما يقلل الكفاءة
التدريب المستقل: تدريب محولات متخصصة لكل مهمة تركيبية يؤدي إلى نفقات تخزين كبيرة

المساهمات الأساسية

طرح مشكلة المهام المتعددة التركيبية للمرة الأولى: تعريف تحديات معالجة المهام المتعددة التركيبية في نماذج اللغة الكبيرة على الأجهزة
بناء معيار عملي: تطوير معيار شامل يتضمن 14 مهمة فرعية، يغطي أربع فئات رئيسية: التلخيص + الترجمة، التلخيص + تعديل النبرة، الرد + الترجمة، الرد + تعديل النبرة
اقتراح طريقة Learnable Calibration: تصميم حلين فعالين مع متغيرات مختلفة، يقللان نفقات التخزين والحساب مع الحفاظ على أداء عالية
التحقق التجريبي الشامل: التحقق من فعالية الطريقة وعموميتها على نماذج لغة كبيرة متعددة على الأجهزة

شرح الطريقة

تعريف المهام

يتم تعريف المهام المتعددة التركيبية على النحو التالي: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

حيث يمر الإدخال $x$ عبر $N$ مهام بالتتابع، تركز هذه الورقة بشكل أساسي على حالة $N=2$ ، والتي تتضمن:

المهمة الأساسية $T_1$ : إنشاء ملخص أو رد
المهمة المساعدة $T_2$ : الترجمة أو تعديل النبرة

معمارية النموذج

أساس LoRA

بناءً على آلية محول LoRA، يصبح الانتشار الأمامي المعدل: $h = W_0x + \Delta Wx = W_0x + BAx$

حيث $B \in \mathbb{R}^{d \times r}$ ، $A \in \mathbb{R}^{r \times k}$ ، $r \ll \min(d,k)$ .

طريقة Learnable Calibration

الفكرة الأساسية: البدء من LoRAs أحادية المهمة المدمجة خطياً، ثم إجراء معايرة من خلال معاملات إضافية قليلة.

الدمج الأولي: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

المتغير 1 - Learnable Calibration: استخدام متجه انحياز عمود $p \in \mathbb{R}^d$ للمعايرة: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

المتغير 2 - Learnable Calibration++: إدخال مصفوفة LoRA معايرة $P_2P_1$ : $\Delta W^c = P_2P_1 + \Delta W'$

نقاط الابتكار التقني

معايرة خفيفة الوزن: تتطلب فقط 0.08-0.56% معاملات إضافية، مع نفقات تخزين أقل من 0.5 ميجابايت
خصوصية المهام: تعلم معاملات معايرة متخصصة لمهام تركيبية مختلفة
توافقية قوية: متوافقة مع الأطر الموجودة (Android AI Core و Apple Intelligence)
مشاركة المعاملات: دعم مشاركة المعاملات عبر المهام لتقليل متطلبات التخزين بشكل أكبر

إعداد التجارب

مجموعات البيانات

بناء معيار البيانات:

مهام التلخيص: مجموعة بيانات DialogSum (12,460/500/1,500 تدريب/تحقق/اختبار)
مهام الرد: مجموعة بيانات Synthetic Persona Chat (225,061/1,000/1,000)
مهام الترجمة: مجموعة بيانات TED Talks، من الإنجليزية إلى الإسبانية/الفرنسية/الألمانية
تعديل النبرة: مجموعة بيانات Sound Natural، أربع نبرات (احترافية/عادية/فكاهية/سردية)

توليد المهام التركيبية:

استخدام نموذج OpusMT للترجمة
استخدام نموذج RedPajama-INCITE-Base 3B لتعديل النبرة

مقاييس التقييم

مهام التلخيص: ROUGE-L (R-L)
مهام الرد: ROUGE المرجح (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
حكم LLM: استخدام Llama 3.1 70B للتقييم الثنائي

طرق المقارنة

طرق الأساس:

Zero-shot، LoRA للمهمة الأساسية، LoRA للمهمة المساعدة
التعلم من السياق، استخدام LoRA متعدد الخطوات
استراتيجيات دمج مختلفة: Linear، TIES، DARE، Slerp، LoraHub وغيرها

طرق المرجع:

استخدام LoRA متعدد الخطوات (كفاءة منخفضة لكن أداء عالية)
LoRA الخبراء المشتركة (تدريب متخصص لكل مهمة تركيبية)

تفاصيل التنفيذ

النماذج: LLaMA 3.2 1B، Qwen2.5 1.5B، StableLM2 1.6B
إعدادات LoRA: rank=32، α=16، dropout=0.05
التدريب: محسّن Adam، معدل تعلم 5×10⁻⁵ (LoRA)، 5×10⁻⁴ (معاملات المعايرة)
تدريب المعايرة: اختيار عشوائي لـ 10,000 عينة مهام تركيبية

نتائج التجارب

النتائج الرئيسية

فئة الطريقة	التلخيص+الترجمة	التلخيص+النبرة	الرد+الترجمة	الرد+النبرة	الكفاءة
خطوط أساس فعالة
Zero-shot	0.44%	6.52%	4.11%	33.66%	✓
LoRA للمهمة الأساسية	3.49%	4.18%	7.17%	36.25%	✓
دمج خطي	0.33%	2.74%	12.81%	41.93%	✓
دمج TIES	0.81%	6.06%	8.30%	47.87%	✓
خطوط أساس غير فعالة
LoRA متعدد الخطوات	72.92%	34.32%	69.83%	45.78%	✗
LoRA الخبراء المشتركة	49.85%	16.14%	65.73%	47.06%	✗
طريقتنا
Learnable Calibration	59.23%	28.89%	57.46%	44.99%	✓
Learnable Calibration++	65.15%	34.34%	63.81%	45.40%	✓

القيم في الجدول هي درجات حكم LLM (%)

النتائج الرئيسية

فشل استراتيجيات الدمج التقليدية: الطرق الموجودة تؤدي أداءً سيئاً جداً في سيناريوهات المهام المتعددة التركيبية (درجات حكم LLM عادة <10%)
المقايضة بين الكفاءة والأداء: طريقتنا تحقق أداءً قريباً أو حتى أفضل من خطوط الأساس غير الفعالة تحت قيد الاستدلال الواحد
الأداء المتسق: Learnable Calibration++ تحقق أفضل أداء على جميع المهام

تجارب الاستئصال

تحليل كفاءة التخزين:

LoRA متعدد الخطوات: 0 معاملات إضافية، لكن يتطلب استدلالين
LoRA الخبراء المشتركة: 30 مليون معامل، 57.10 ميجابايت تخزين
Learnable Calibration: 23 ألف معامل، 0.05 ميجابايت تخزين
Learnable Calibration++: 166 ألف معامل، 0.32 ميجابايت تخزين

دور المحولات المدربة مسبقاً: إزالة LoRAs المدربة مسبقاً تؤدي إلى انخفاض طفيف في الأداء لكن لا تزال أفضل من معظم خطوط الأساس، مما يثبت قيمة الاستفادة من المحولات الموجودة.

التحليل الموسع

توافقية حجم النموذج: تؤدي أداءً جيداً على نماذج بـ 0.5B-3B معاملات
التعميم خارج المجال: الحفاظ على استقرار الأداء على مجموعات بيانات حوار مختلفة
توسيع ثلاثي المهام: دعم مهام تركيبية ثلاثية الاتجاهات (التلخيص + النبرة + الترجمة)

الأعمال ذات الصلة

الضبط الدقيق الفعال للمعاملات (PEFT)

LoRA ومتغيراتها: طرق التوسيع مثل DoRA و AdaLoRA و Delta-LoRA
طرق PEFT الأخرى: طرق تدريب معاملات الانحياز مثل BitFit

دمج النماذج

الأعمال المبكرة: طرق الدمج الخطي مثل Model Soup
التقنيات المتقدمة: TIES و DARE و Slerp وغيرها من استراتيجيات حل التضارب
الطرق التكيفية: LoraHub و LM-Cocktail و DAM وغيرها من الدمج القائم على التعلم

نماذج اللغة الكبيرة على الأجهزة

تقنيات الضغط: تكميم النموذج وتقطير المعرفة وغيرها
النماذج الممثلة: LLaMA 3.2 و Qwen2.5 و StableLM2 وغيرها من نماذج 1-3B معامل
تحديات النشر: قيود التخزين والقيود الحسابية ومتطلبات الخصوصية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

أهمية المشكلة: المهام المتعددة التركيبية هي احتياج مهم لنماذج اللغة الكبيرة على الأجهزة، والطرق التقليدية لا يمكنها حلها بفعالية
فعالية الطريقة: Learnable Calibration تحقق أداءً مماثلة للطرق غير الفعالة مع الحفاظ على الكفاءة
القيمة العملية: نفقات التخزين الصغيرة جداً (<0.5 ميجابايت) تجعل الطريقة مناسبة للنشر الفعلي

القيود

نطاق التقييم: يركز بشكل أساسي على نماذج 1-3B معامل على الأجهزة، لم يتم التحقق على نماذج أكبر
عدد المهام: يركز البحث بشكل أساسي على تركيب 2-3 مهام، قابلية التوسع لمهام أكثر تحتاج إلى التحقق
الاعتماد على البيانات: يتطلب بيانات مهام تركيبية لتدريب معاملات المعايرة، ليس فعالاً مثل طرق الدمج الخالية من البيانات تماماً

الاتجاهات المستقبلية

بحث الأمان: استكشاف تأثير المهام المتعددة التركيبية على آليات أمان النموذج
تحسين التوسعية: البحث عن طرق للتعامل مع تركيبات مهام أكثر
الدمج الخالي من العينات: تطوير طرق مهام متعددة تركيبية بدون بيانات إضافية

التقييم العميق

المزايا

ابتكار المشكلة: أول دراسة منهجية لمشكلة المهام المتعددة التركيبية، ملء فجوة بحثية مهمة
عملية الطريقة: نفقات تخزين وحساب صغيرة جداً، مناسبة للنشر الفعلي
اكتمال التجارب: مقارنة شاملة مع خطوط الأساس وتجارب استئصال وتحليل موسع
مساهمة المعيار: المعيار المبني بـ 14 مهمة فرعية يوفر منصة تقييم معيارية للأبحاث اللاحقة

أوجه القصور

نقص التحليل النظري: افتقار إلى شرح نظري عميق لسبب فعالية معاملات المعايرة
قيود اختيار المهام: يركز بشكل أساسي على مهام NLP، قابلية التطبيق على الأنماط الأخرى غير معروفة
مؤشرات التقييم الموحدة: يعتمد بشكل أساسي على ROUGE وحكم LLM، يفتقد التقييم البشري

التأثير

القيمة الأكاديمية: فتح اتجاه بحثي جديد، متوقع أن تتابعه أعمال لاحقة
التطبيق الصناعي: قابل للتطبيق المباشر على تطوير تطبيقات الذكاء الاصطناعي على الأجهزة المحمولة
قابلية الاستنساخ: توفير تفاصيل تنفيذ مفصلة وبيانات معيارية

السيناريوهات المطبقة

التطبيقات المحمولة: الهواتف الذكية والأجهزة اللوحية وغيرها من الأجهزة محدودة الموارد
الحوسبة الطرفية: أجهزة IoT والأنظمة المدمجة
السيناريوهات الحساسة للخصوصية: التطبيقات التي تتطلب معالجة محلية لتجنب تحميل البيانات

المراجع

تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تتضمن بشكل أساسي:

Hu et al. (2022): ورقة LoRA الأصلية
Wortsman et al. (2022): طريقة دمج النماذج Model Soup
Yadav et al. (2024): استراتيجية دمج TIES
Gunter et al. (2024): تجربة نشر Apple Intelligence على الأجهزة

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة، تحل مشكلة مهمة عملياً، وتقترح حلاً فعالاً، وتجري تحققاً تجريبياً شاملاً. يوفر هذا العمل أفكاراً جديدة لمعالجة المهام المتعددة في نماذج اللغة الكبيرة على الأجهزة، ويتمتع بقيمة أكاديمية وعملية مهمة.