2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

डिवाइस पर बड़े भाषा मॉडल के लिए कुशल संरचनात्मक बहु-कार्य प्रसंस्करण

मूल जानकारी

पेपर ID: 2507.16083
शीर्षक: डिवाइस पर बड़े भाषा मॉडल के लिए कुशल संरचनात्मक बहु-कार्य प्रसंस्करण
लेखक: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
संस्थान: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन तिथि: 25 अक्टूबर 2025 (arXiv v2)
पेपर लिंक: https://arxiv.org/abs/2507.16083

सारांश

अनुकूलक पैरामीटर मशीन लर्निंग मॉडल के व्यवहार को संशोधित करने के लिए एक तंत्र प्रदान करते हैं, जो बड़े भाषा मॉडल (LLMs) और जनरेटिव AI क्षेत्र में व्यापक ध्यान आकर्षित कर रहे हैं। ये पैरामीटर कार्य विलय प्रक्रिया के माध्यम से बहु-कार्य प्रसंस्करण का समर्थन कर सकते हैं। हालांकि, LLMs में पूर्व विलय कार्य, विशेषकर प्राकृतिक भाषा प्रसंस्करण क्षेत्र में, केवल उन परिदृश्यों तक सीमित हैं जहां प्रत्येक परीक्षण नमूना केवल एक एकल कार्य को संभालता है। यह पेपर डिवाइस पर सेटिंग पर ध्यान केंद्रित करता है और पाठ-आधारित संरचनात्मक बहु-कार्य समस्या का अध्ययन करता है, जहां प्रत्येक परीक्षण नमूने को एक साथ कई कार्यों को निष्पादित करने की आवश्यकता होती है। उदाहरण के लिए, लंबे पाठ के अनुवादित सारांश का निर्माण एक साथ अनुवाद और सारांश कार्यों को हल करने की आवश्यकता है। इस क्षेत्र में अनुसंधान को बढ़ावा देने के लिए, हम चार व्यावहारिक संरचनात्मक कार्यों वाला एक बेंचमार्क प्रस्तावित करते हैं। हम डिवाइस पर अनुप्रयोगों के लिए एक कुशल विधि (Learnable Calibration) भी प्रस्तावित करते हैं, जो संसाधन-सीमित वातावरण में संसाधन-कुशल और उच्च-प्रदर्शन दोनों समाधानों की आवश्यकता पर जोर देता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक LLM बहु-कार्य प्रसंस्करण मुख्य रूप से एकल-कार्य परिदृश्यों पर ध्यान केंद्रित करता है, अर्थात् प्रत्येक परीक्षण नमूना केवल एक कार्य से संबंधित होता है (जैसे केवल अनुवाद या केवल सारांश)। हालांकि, वास्तविक अनुप्रयोगों में अक्सर संरचनात्मक बहु-कार्य प्रसंस्करण की आवश्यकता होती है, अर्थात् एक एकल अनुमान में एक साथ कई कार्यों को निष्पादित करना, जैसे अनुवादित सारांश उत्पन्न करना, विशिष्ट टोन में प्रतिक्रिया उत्पन्न करना आदि।

महत्व विश्लेषण

व्यावहारिक मूल्य: संरचनात्मक बहु-कार्य वास्तविक परिदृश्यों में व्यापक मांग रखते हैं, जैसे क्रॉस-भाषा परिदृश्यों में स्मार्ट प्रतिक्रिया, विशिष्ट टोन के साथ सारांश निर्माण आदि
दक्षता आवश्यकता: डिवाइस पर LLMs संसाधन-सीमित हैं, एकल अनुमान में कई कार्यों को पूरा करने की आवश्यकता है, कई अनुमानों की दक्षता हानि से बचने के लिए
भंडारण बाधा: मोबाइल डिवाइस में सीमित भंडारण है, प्रत्येक संरचनात्मक कार्य के लिए स्वतंत्र अनुकूलक प्रशिक्षित नहीं कर सकते

मौजूदा विधियों की सीमाएं

पारंपरिक विलय रणनीति: TIES, DARE जैसी विधियां संरचनात्मक बहु-कार्य परिदृश्य में खराब प्रदर्शन करती हैं
बहु-चरणीय समाधान: प्रभावी होने के बावजूद कई अनुमानों की आवश्यकता है, दक्षता कम है
स्वतंत्र प्रशिक्षण: प्रत्येक संरचनात्मक कार्य के लिए विशेष अनुकूलक प्रशिक्षित करना, भंडारण ओवरहेड बड़ा है

मुख्य योगदान

संरचनात्मक बहु-कार्य समस्या का प्रथम प्रस्ताव: डिवाइस पर LLMs के लिए संरचनात्मक बहु-कार्य प्रसंस्करण चुनौती को परिभाषित किया
व्यावहारिक बेंचमार्क निर्माण: 14 उप-कार्यों वाला व्यापक बेंचमार्क विकसित किया, जो सारांश + अनुवाद, सारांश + टोन समायोजन, प्रतिक्रिया + अनुवाद, प्रतिक्रिया + टोन समायोजन चार श्रेणियों को कवर करता है
Learnable Calibration विधि प्रस्तावित: दो वेरिएंट के साथ कुशल समाधान डिज़ाइन किया गया, जो उच्च प्रदर्शन बनाए रखते हुए भंडारण और कम्प्यूटेशनल ओवरहेड को कम करता है
व्यापक प्रायोगिक सत्यापन: कई डिवाइस पर LLMs पर विधि की प्रभावशीलता और सामान्यता सत्यापित की

विधि विवरण

कार्य परिभाषा

संरचनात्मक बहु-कार्य को निम्नानुसार परिभाषित किया गया है: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

जहां इनपुट $x$ क्रमिक रूप से $N$ कार्यों के माध्यम से संसाधित होता है, यह पेपर मुख्य रूप से $N=2$ के मामले का अध्ययन करता है, जिसमें शामिल हैं:

प्राथमिक कार्य $T_1$ : सारांश या प्रतिक्रिया निर्माण
सहायक कार्य $T_2$ : अनुवाद या टोन समायोजन

मॉडल आर्किटेक्चर

LoRA आधार

LoRA अनुकूलक तंत्र के आधार पर, समायोजित आगे प्रसार निम्नानुसार है: $h = W_0x + \Delta Wx = W_0x + BAx$

जहां $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$ ।

Learnable Calibration विधि

मूल विचार: एकल-कार्य LoRAs के रैखिक विलय से शुरू करके, कुछ अतिरिक्त पैरामीटर के माध्यम से कैलिब्रेशन करना।

प्रारंभिक विलय: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

वेरिएंट 1 - Learnable Calibration: स्तंभ पूर्वाग्रह वेक्टर $p \in \mathbb{R}^d$ का उपयोग करके कैलिब्रेशन: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

वेरिएंट 2 - Learnable Calibration++: कैलिब्रेशन LoRA मैट्रिक्स $P_2P_1$ का परिचय: $\Delta W^c = P_2P_1 + \Delta W'$

तकनीकी नवाचार बिंदु

हल्का कैलिब्रेशन: केवल 0.08-0.56% अतिरिक्त पैरामीटर, भंडारण ओवरहेड 0.5MB से कम
कार्य विशिष्टता: विभिन्न संरचनात्मक कार्यों के लिए विशेष कैलिब्रेशन पैरामीटर सीखना
मजबूत संगतता: मौजूदा ढांचे (Android AI Core, Apple Intelligence) के साथ संगत
पैरामीटर साझाकरण: भंडारण आवश्यकता को और कम करने के लिए कार्यों में पैरामीटर साझाकरण का समर्थन

प्रायोगिक सेटअप

डेटासेट

बेंचमार्क डेटासेट निर्माण:

सारांश कार्य: DialogSum डेटासेट (12,460/500/1,500 प्रशिक्षण/सत्यापन/परीक्षण)
प्रतिक्रिया कार्य: Synthetic Persona Chat डेटासेट (225,061/1,000/1,000)
अनुवाद कार्य: TED Talks डेटासेट, अंग्रेजी से स्पेनिश/फ्रेंच/जर्मन
टोन समायोजन: Sound Natural डेटासेट, चार टोन (पेशेवर/अनौपचारिक/हास्य/पुनर्वर्णन)

संरचनात्मक कार्य निर्माण:

अनुवाद के लिए OpusMT मॉडल का उपयोग
टोन समायोजन के लिए RedPajama-INCITE-Base 3B मॉडल का उपयोग

मूल्यांकन मेट्रिक्स

सारांश-प्रकार कार्य: ROUGE-L (R-L)
प्रतिक्रिया-प्रकार कार्य: भारित ROUGE (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
LLM Judge: Llama 3.1 70B का उपयोग करके द्विआधारी मूल्यांकन

तुलनात्मक विधियां

आधार विधियां:

Zero-shot, प्राथमिक कार्य LoRA, सहायक कार्य LoRA
संदर्भ सीखना, बहु-चरणीय LoRA उपयोग
विभिन्न विलय रणनीतियां: Linear, TIES, DARE, Slerp, LoraHub आदि

संदर्भ विधियां:

बहु-चरणीय LoRA उपयोग (दक्षता कम लेकिन प्रदर्शन अच्छा)
संयुक्त विशेषज्ञ LoRA (प्रत्येक संरचनात्मक कार्य के लिए विशेष रूप से प्रशिक्षित)

कार्यान्वयन विवरण

मॉडल: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
LoRA कॉन्फ़िगरेशन: rank=32, α=16, dropout=0.05
प्रशिक्षण: Adam अनुकूलक, सीखने की दर 5×10⁻⁵ (LoRA), 5×10⁻⁴ (कैलिब्रेशन पैरामीटर)
कैलिब्रेशन प्रशिक्षण: 10,000 संरचनात्मक कार्य नमूनों का यादृच्छिक चयन

प्रायोगिक परिणाम

मुख्य परिणाम

विधि श्रेणी	Sum.+अनु.	Sum.+टोन	प्रति.+अनु.	प्रति.+टोन	दक्षता
कुशल आधार
Zero-shot	0.44%	6.52%	4.11%	33.66%	✓
प्राथमिक LoRA	3.49%	4.18%	7.17%	36.25%	✓
Linear merge	0.33%	2.74%	12.81%	41.93%	✓
TIES merge	0.81%	6.06%	8.30%	47.87%	✓
अकुशल आधार
बहु-चरणीय LoRA	72.92%	34.32%	69.83%	45.78%	✗
संयुक्त विशेषज्ञ LoRA	49.85%	16.14%	65.73%	47.06%	✗
यह पेपर
Learnable Calibration	59.23%	28.89%	57.46%	44.99%	✓
Learnable Calibration++	65.15%	34.34%	63.81%	45.40%	✓

तालिका में मान LLM Judge स्कोर (%) हैं

मुख्य निष्कर्ष

पारंपरिक विलय रणनीति विफल: मौजूदा विलय विधियां संरचनात्मक बहु-कार्य परिदृश्य में अत्यंत खराब प्रदर्शन करती हैं (LLM Judge स्कोर आमतौर पर <10%)
दक्षता-प्रदर्शन व्यापार: यह विधि एकल अनुमान की बाधा के तहत, बहु-चरणीय आधार के समान या बेहतर प्रदर्शन करती है
सुसंगत प्रदर्शन: Learnable Calibration++ सभी कार्यों पर सर्वोत्तम प्रदर्शन प्राप्त करता है

विलोपन प्रयोग

भंडारण दक्षता विश्लेषण:

बहु-चरणीय LoRA: 0 अतिरिक्त पैरामीटर, लेकिन 2 अनुमान की आवश्यकता
संयुक्त विशेषज्ञ LoRA: 30M पैरामीटर, 57.10MB भंडारण
Learnable Calibration: 23K पैरामीटर, 0.05MB भंडारण
Learnable Calibration++: 166K पैरामीटर, 0.32MB भंडारण

पूर्व-प्रशिक्षित अनुकूलक की भूमिका: पूर्व-प्रशिक्षित LoRAs को हटाने के बाद, प्रदर्शन में थोड़ी गिरावट आती है लेकिन अधिकांश आधार से बेहतर रहता है, जो मौजूदा अनुकूलक का उपयोग करने के मूल्य को साबित करता है।

विस्तार विश्लेषण

मॉडल स्केल अनुकूलन: 0.5B-3B पैरामीटर वाले मॉडल पर अच्छा प्रदर्शन
डोमेन-बाहर सामान्यीकरण: विभिन्न संवाद डेटासेट पर स्थिर प्रदर्शन
तीन-कार्य विस्तार: सारांश + टोन + अनुवाद के तीन-तरफा संरचनात्मक कार्य का समर्थन

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

समस्या महत्व: संरचनात्मक बहु-कार्य डिवाइस पर LLMs की महत्वपूर्ण आवश्यकता है, पारंपरिक विधियां प्रभावी ढंग से समाधान नहीं कर सकती
विधि प्रभावशीलता: Learnable Calibration दक्षता बनाए रखते हुए अकुशल आधार के समान प्रदर्शन प्राप्त करता है
व्यावहारिक मूल्य: अत्यंत छोटा भंडारण ओवरहेड (<0.5MB) विधि को वास्तविक तैनाती के लिए उपयुक्त बनाता है

सीमाएं

मूल्यांकन सीमा: मुख्य रूप से 1-3B पैरामीटर वाले डिवाइस पर मॉडल पर ध्यान केंद्रित, बड़े मॉडल पर सत्यापन नहीं किया गया
कार्य संख्या: मुख्य रूप से 2-3 कार्यों के संयोजन का अध्ययन, अधिक कार्यों का विस्तारशीलता सत्यापन की प्रतीक्षा में है
डेटा निर्भरता: कैलिब्रेशन पैरामीटर प्रशिक्षण के लिए संरचनात्मक कार्य डेटा की आवश्यकता है, पूरी तरह से डेटा-मुक्त विलय विधियों जितना प्रभावी नहीं

भविष्य की दिशाएं

सुरक्षा अनुसंधान: संरचनात्मक बहु-कार्य के मॉडल सुरक्षा तंत्र पर प्रभाव की खोज
विस्तारशीलता अनुकूलन: अधिक कार्य संयोजन को संभालने की विधियों का अनुसंधान
शून्य-शॉट विलय: अतिरिक्त डेटा के बिना संरचनात्मक बहु-कार्य विधि विकसित करना

गहन मूल्यांकन

शक्तियां

समस्या नवाचार: संरचनात्मक बहु-कार्य समस्या का प्रथम व्यवस्थित अध्ययन, महत्वपूर्ण अनुसंधान अंतराल को भरता है
विधि व्यावहारिकता: अत्यंत छोटा भंडारण और कम्प्यूटेशनल ओवरहेड, वास्तविक तैनाती के लिए उपयुक्त
प्रयोग पूर्णता: व्यापक आधार तुलना, विलोपन प्रयोग और विस्तार विश्लेषण
बेंचमार्क योगदान: निर्मित 14-उप-कार्य बेंचमार्क बाद के अनुसंधान के लिए मानक मूल्यांकन प्लेटफॉर्म प्रदान करता है

कमियां

सैद्धांतिक विश्लेषण की कमी: कैलिब्रेशन पैरामीटर प्रभावी क्यों हैं इसके गहन सैद्धांतिक व्याख्या की कमी
कार्य चयन सीमा: मुख्य रूप से NLP कार्यों पर ध्यान केंद्रित, अन्य मोडल में प्रयोज्यता अज्ञात
मूल्यांकन मेट्रिक्स एकल: मुख्य रूप से ROUGE और LLM Judge पर निर्भर, मानव मूल्यांकन की कमी

प्रभाव

शैक्षणिक मूल्य: नई अनुसंधान दिशा खोलता है, बाद के कार्यों के अनुसरण की अपेक्षा है
औद्योगिक अनुप्रयोग: मोबाइल डिवाइस AI अनुप्रयोग विकास में सीधे लागू
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और बेंचमार्क डेटा प्रदान करता है

लागू परिदृश्य

मोबाइल अनुप्रयोग: स्मार्टफोन, टैबलेट आदि संसाधन-सीमित डिवाइस
एज कंप्यूटिंग: IoT डिवाइस, एम्बेडेड सिस्टम
गोपनीयता-संवेदनशील परिदृश्य: डेटा अपलोड से बचने के लिए स्थानीय प्रसंस्करण की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर संबंधित कार्यों के बड़ी संख्या में उद्धृत करता है, मुख्य रूप से शामिल हैं:

Hu et al. (2022): LoRA मूल पेपर
Wortsman et al. (2022): Model Soup मॉडल विलय विधि
Yadav et al. (2024): TIES विलय रणनीति
Gunter et al. (2024): Apple Intelligence डिवाइस पर तैनाती अनुभव

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो वास्तविक महत्वपूर्ण समस्या को हल करता है, प्रभावी समाधान प्रस्तावित करता है, और व्यापक प्रायोगिक सत्यापन करता है। यह कार्य डिवाइस पर LLMs के बहु-कार्य प्रसंस्करण के लिए नई सोच प्रदान करता है, जिसका महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।