2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.
Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
academic

डिवाइस पर बड़े भाषा मॉडल के लिए कुशल संरचनात्मक बहु-कार्य प्रसंस्करण

मूल जानकारी

  • पेपर ID: 2507.16083
  • शीर्षक: डिवाइस पर बड़े भाषा मॉडल के लिए कुशल संरचनात्मक बहु-कार्य प्रसंस्करण
  • लेखक: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
  • संस्थान: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
  • वर्गीकरण: cs.CL cs.AI cs.LG
  • प्रकाशन तिथि: 25 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2507.16083

सारांश

अनुकूलक पैरामीटर मशीन लर्निंग मॉडल के व्यवहार को संशोधित करने के लिए एक तंत्र प्रदान करते हैं, जो बड़े भाषा मॉडल (LLMs) और जनरेटिव AI क्षेत्र में व्यापक ध्यान आकर्षित कर रहे हैं। ये पैरामीटर कार्य विलय प्रक्रिया के माध्यम से बहु-कार्य प्रसंस्करण का समर्थन कर सकते हैं। हालांकि, LLMs में पूर्व विलय कार्य, विशेषकर प्राकृतिक भाषा प्रसंस्करण क्षेत्र में, केवल उन परिदृश्यों तक सीमित हैं जहां प्रत्येक परीक्षण नमूना केवल एक एकल कार्य को संभालता है। यह पेपर डिवाइस पर सेटिंग पर ध्यान केंद्रित करता है और पाठ-आधारित संरचनात्मक बहु-कार्य समस्या का अध्ययन करता है, जहां प्रत्येक परीक्षण नमूने को एक साथ कई कार्यों को निष्पादित करने की आवश्यकता होती है। उदाहरण के लिए, लंबे पाठ के अनुवादित सारांश का निर्माण एक साथ अनुवाद और सारांश कार्यों को हल करने की आवश्यकता है। इस क्षेत्र में अनुसंधान को बढ़ावा देने के लिए, हम चार व्यावहारिक संरचनात्मक कार्यों वाला एक बेंचमार्क प्रस्तावित करते हैं। हम डिवाइस पर अनुप्रयोगों के लिए एक कुशल विधि (Learnable Calibration) भी प्रस्तावित करते हैं, जो संसाधन-सीमित वातावरण में संसाधन-कुशल और उच्च-प्रदर्शन दोनों समाधानों की आवश्यकता पर जोर देता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक LLM बहु-कार्य प्रसंस्करण मुख्य रूप से एकल-कार्य परिदृश्यों पर ध्यान केंद्रित करता है, अर्थात् प्रत्येक परीक्षण नमूना केवल एक कार्य से संबंधित होता है (जैसे केवल अनुवाद या केवल सारांश)। हालांकि, वास्तविक अनुप्रयोगों में अक्सर संरचनात्मक बहु-कार्य प्रसंस्करण की आवश्यकता होती है, अर्थात् एक एकल अनुमान में एक साथ कई कार्यों को निष्पादित करना, जैसे अनुवादित सारांश उत्पन्न करना, विशिष्ट टोन में प्रतिक्रिया उत्पन्न करना आदि।

महत्व विश्लेषण

  1. व्यावहारिक मूल्य: संरचनात्मक बहु-कार्य वास्तविक परिदृश्यों में व्यापक मांग रखते हैं, जैसे क्रॉस-भाषा परिदृश्यों में स्मार्ट प्रतिक्रिया, विशिष्ट टोन के साथ सारांश निर्माण आदि
  2. दक्षता आवश्यकता: डिवाइस पर LLMs संसाधन-सीमित हैं, एकल अनुमान में कई कार्यों को पूरा करने की आवश्यकता है, कई अनुमानों की दक्षता हानि से बचने के लिए
  3. भंडारण बाधा: मोबाइल डिवाइस में सीमित भंडारण है, प्रत्येक संरचनात्मक कार्य के लिए स्वतंत्र अनुकूलक प्रशिक्षित नहीं कर सकते

मौजूदा विधियों की सीमाएं

  1. पारंपरिक विलय रणनीति: TIES, DARE जैसी विधियां संरचनात्मक बहु-कार्य परिदृश्य में खराब प्रदर्शन करती हैं
  2. बहु-चरणीय समाधान: प्रभावी होने के बावजूद कई अनुमानों की आवश्यकता है, दक्षता कम है
  3. स्वतंत्र प्रशिक्षण: प्रत्येक संरचनात्मक कार्य के लिए विशेष अनुकूलक प्रशिक्षित करना, भंडारण ओवरहेड बड़ा है

मुख्य योगदान

  1. संरचनात्मक बहु-कार्य समस्या का प्रथम प्रस्ताव: डिवाइस पर LLMs के लिए संरचनात्मक बहु-कार्य प्रसंस्करण चुनौती को परिभाषित किया
  2. व्यावहारिक बेंचमार्क निर्माण: 14 उप-कार्यों वाला व्यापक बेंचमार्क विकसित किया, जो सारांश + अनुवाद, सारांश + टोन समायोजन, प्रतिक्रिया + अनुवाद, प्रतिक्रिया + टोन समायोजन चार श्रेणियों को कवर करता है
  3. Learnable Calibration विधि प्रस्तावित: दो वेरिएंट के साथ कुशल समाधान डिज़ाइन किया गया, जो उच्च प्रदर्शन बनाए रखते हुए भंडारण और कम्प्यूटेशनल ओवरहेड को कम करता है
  4. व्यापक प्रायोगिक सत्यापन: कई डिवाइस पर LLMs पर विधि की प्रभावशीलता और सामान्यता सत्यापित की

विधि विवरण

कार्य परिभाषा

संरचनात्मक बहु-कार्य को निम्नानुसार परिभाषित किया गया है: TC[N](x)=TN(T2(T1(x)))T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))

जहां इनपुट xx क्रमिक रूप से NN कार्यों के माध्यम से संसाधित होता है, यह पेपर मुख्य रूप से N=2N=2 के मामले का अध्ययन करता है, जिसमें शामिल हैं:

  • प्राथमिक कार्य T1T_1: सारांश या प्रतिक्रिया निर्माण
  • सहायक कार्य T2T_2: अनुवाद या टोन समायोजन

मॉडल आर्किटेक्चर

LoRA आधार

LoRA अनुकूलक तंत्र के आधार पर, समायोजित आगे प्रसार निम्नानुसार है: h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

जहां BRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, rmin(d,k)r \ll \min(d,k)

Learnable Calibration विधि

मूल विचार: एकल-कार्य LoRAs के रैखिक विलय से शुरू करके, कुछ अतिरिक्त पैरामीटर के माध्यम से कैलिब्रेशन करना।

प्रारंभिक विलय: B=1Ni=1NBi,A=1Ni=1NAiB' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i

वेरिएंट 1 - Learnable Calibration: स्तंभ पूर्वाग्रह वेक्टर pRdp \in \mathbb{R}^d का उपयोग करके कैलिब्रेशन: ΔWc=pBA=i=1dpiΔWi\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i

वेरिएंट 2 - Learnable Calibration++: कैलिब्रेशन LoRA मैट्रिक्स P2P1P_2P_1 का परिचय: ΔWc=P2P1+ΔW\Delta W^c = P_2P_1 + \Delta W'

तकनीकी नवाचार बिंदु

  1. हल्का कैलिब्रेशन: केवल 0.08-0.56% अतिरिक्त पैरामीटर, भंडारण ओवरहेड 0.5MB से कम
  2. कार्य विशिष्टता: विभिन्न संरचनात्मक कार्यों के लिए विशेष कैलिब्रेशन पैरामीटर सीखना
  3. मजबूत संगतता: मौजूदा ढांचे (Android AI Core, Apple Intelligence) के साथ संगत
  4. पैरामीटर साझाकरण: भंडारण आवश्यकता को और कम करने के लिए कार्यों में पैरामीटर साझाकरण का समर्थन

प्रायोगिक सेटअप

डेटासेट

बेंचमार्क डेटासेट निर्माण:

  • सारांश कार्य: DialogSum डेटासेट (12,460/500/1,500 प्रशिक्षण/सत्यापन/परीक्षण)
  • प्रतिक्रिया कार्य: Synthetic Persona Chat डेटासेट (225,061/1,000/1,000)
  • अनुवाद कार्य: TED Talks डेटासेट, अंग्रेजी से स्पेनिश/फ्रेंच/जर्मन
  • टोन समायोजन: Sound Natural डेटासेट, चार टोन (पेशेवर/अनौपचारिक/हास्य/पुनर्वर्णन)

संरचनात्मक कार्य निर्माण:

  • अनुवाद के लिए OpusMT मॉडल का उपयोग
  • टोन समायोजन के लिए RedPajama-INCITE-Base 3B मॉडल का उपयोग

मूल्यांकन मेट्रिक्स

  • सारांश-प्रकार कार्य: ROUGE-L (R-L)
  • प्रतिक्रिया-प्रकार कार्य: भारित ROUGE (W-R) = ROUGE-16+ROUGE-23+ROUGE-32\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}
  • LLM Judge: Llama 3.1 70B का उपयोग करके द्विआधारी मूल्यांकन

तुलनात्मक विधियां

आधार विधियां:

  • Zero-shot, प्राथमिक कार्य LoRA, सहायक कार्य LoRA
  • संदर्भ सीखना, बहु-चरणीय LoRA उपयोग
  • विभिन्न विलय रणनीतियां: Linear, TIES, DARE, Slerp, LoraHub आदि

संदर्भ विधियां:

  • बहु-चरणीय LoRA उपयोग (दक्षता कम लेकिन प्रदर्शन अच्छा)
  • संयुक्त विशेषज्ञ LoRA (प्रत्येक संरचनात्मक कार्य के लिए विशेष रूप से प्रशिक्षित)

कार्यान्वयन विवरण

  • मॉडल: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
  • LoRA कॉन्फ़िगरेशन: rank=32, α=16, dropout=0.05
  • प्रशिक्षण: Adam अनुकूलक, सीखने की दर 5×10⁻⁵ (LoRA), 5×10⁻⁴ (कैलिब्रेशन पैरामीटर)
  • कैलिब्रेशन प्रशिक्षण: 10,000 संरचनात्मक कार्य नमूनों का यादृच्छिक चयन

प्रायोगिक परिणाम

मुख्य परिणाम

विधि श्रेणीSum.+अनु.Sum.+टोनप्रति.+अनु.प्रति.+टोनदक्षता
कुशल आधार
Zero-shot0.44%6.52%4.11%33.66%
प्राथमिक LoRA3.49%4.18%7.17%36.25%
Linear merge0.33%2.74%12.81%41.93%
TIES merge0.81%6.06%8.30%47.87%
अकुशल आधार
बहु-चरणीय LoRA72.92%34.32%69.83%45.78%
संयुक्त विशेषज्ञ LoRA49.85%16.14%65.73%47.06%
यह पेपर
Learnable Calibration59.23%28.89%57.46%44.99%
Learnable Calibration++65.15%34.34%63.81%45.40%

तालिका में मान LLM Judge स्कोर (%) हैं

मुख्य निष्कर्ष

  1. पारंपरिक विलय रणनीति विफल: मौजूदा विलय विधियां संरचनात्मक बहु-कार्य परिदृश्य में अत्यंत खराब प्रदर्शन करती हैं (LLM Judge स्कोर आमतौर पर <10%)
  2. दक्षता-प्रदर्शन व्यापार: यह विधि एकल अनुमान की बाधा के तहत, बहु-चरणीय आधार के समान या बेहतर प्रदर्शन करती है
  3. सुसंगत प्रदर्शन: Learnable Calibration++ सभी कार्यों पर सर्वोत्तम प्रदर्शन प्राप्त करता है

विलोपन प्रयोग

भंडारण दक्षता विश्लेषण:

  • बहु-चरणीय LoRA: 0 अतिरिक्त पैरामीटर, लेकिन 2 अनुमान की आवश्यकता
  • संयुक्त विशेषज्ञ LoRA: 30M पैरामीटर, 57.10MB भंडारण
  • Learnable Calibration: 23K पैरामीटर, 0.05MB भंडारण
  • Learnable Calibration++: 166K पैरामीटर, 0.32MB भंडारण

पूर्व-प्रशिक्षित अनुकूलक की भूमिका: पूर्व-प्रशिक्षित LoRAs को हटाने के बाद, प्रदर्शन में थोड़ी गिरावट आती है लेकिन अधिकांश आधार से बेहतर रहता है, जो मौजूदा अनुकूलक का उपयोग करने के मूल्य को साबित करता है।

विस्तार विश्लेषण

  1. मॉडल स्केल अनुकूलन: 0.5B-3B पैरामीटर वाले मॉडल पर अच्छा प्रदर्शन
  2. डोमेन-बाहर सामान्यीकरण: विभिन्न संवाद डेटासेट पर स्थिर प्रदर्शन
  3. तीन-कार्य विस्तार: सारांश + टोन + अनुवाद के तीन-तरफा संरचनात्मक कार्य का समर्थन

संबंधित कार्य

पैरामीटर-कुशल सूक्ष्म-ट्यूनिंग (PEFT)

  • LoRA और इसके वेरिएंट: DoRA, AdaLoRA, Delta-LoRA आदि विस्तार विधियां
  • अन्य PEFT विधियां: BitFit आदि पूर्वाग्रह पैरामीटर प्रशिक्षण विधियां

मॉडल विलय

  • प्रारंभिक कार्य: Model Soup आदि रैखिक विलय विधियां
  • उन्नत तकनीकें: TIES, DARE, Slerp आदि संघर्ष समाधान रणनीतियां
  • अनुकूली विधियां: LoraHub, LM-Cocktail, DAM आदि सीखने-आधारित विलय

डिवाइस पर LLMs

  • संपीड़न तकनीकें: मॉडल परिमाणीकरण, ज्ञान आसवन आदि
  • प्रतिनिधि मॉडल: LLaMA 3.2, Qwen2.5, StableLM2 आदि 1-3B पैरामीटर मॉडल
  • तैनाती चुनौतियां: भंडारण सीमा, कम्प्यूटेशनल बाधा, गोपनीयता आवश्यकता

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. समस्या महत्व: संरचनात्मक बहु-कार्य डिवाइस पर LLMs की महत्वपूर्ण आवश्यकता है, पारंपरिक विधियां प्रभावी ढंग से समाधान नहीं कर सकती
  2. विधि प्रभावशीलता: Learnable Calibration दक्षता बनाए रखते हुए अकुशल आधार के समान प्रदर्शन प्राप्त करता है
  3. व्यावहारिक मूल्य: अत्यंत छोटा भंडारण ओवरहेड (<0.5MB) विधि को वास्तविक तैनाती के लिए उपयुक्त बनाता है

सीमाएं

  1. मूल्यांकन सीमा: मुख्य रूप से 1-3B पैरामीटर वाले डिवाइस पर मॉडल पर ध्यान केंद्रित, बड़े मॉडल पर सत्यापन नहीं किया गया
  2. कार्य संख्या: मुख्य रूप से 2-3 कार्यों के संयोजन का अध्ययन, अधिक कार्यों का विस्तारशीलता सत्यापन की प्रतीक्षा में है
  3. डेटा निर्भरता: कैलिब्रेशन पैरामीटर प्रशिक्षण के लिए संरचनात्मक कार्य डेटा की आवश्यकता है, पूरी तरह से डेटा-मुक्त विलय विधियों जितना प्रभावी नहीं

भविष्य की दिशाएं

  1. सुरक्षा अनुसंधान: संरचनात्मक बहु-कार्य के मॉडल सुरक्षा तंत्र पर प्रभाव की खोज
  2. विस्तारशीलता अनुकूलन: अधिक कार्य संयोजन को संभालने की विधियों का अनुसंधान
  3. शून्य-शॉट विलय: अतिरिक्त डेटा के बिना संरचनात्मक बहु-कार्य विधि विकसित करना

गहन मूल्यांकन

शक्तियां

  1. समस्या नवाचार: संरचनात्मक बहु-कार्य समस्या का प्रथम व्यवस्थित अध्ययन, महत्वपूर्ण अनुसंधान अंतराल को भरता है
  2. विधि व्यावहारिकता: अत्यंत छोटा भंडारण और कम्प्यूटेशनल ओवरहेड, वास्तविक तैनाती के लिए उपयुक्त
  3. प्रयोग पूर्णता: व्यापक आधार तुलना, विलोपन प्रयोग और विस्तार विश्लेषण
  4. बेंचमार्क योगदान: निर्मित 14-उप-कार्य बेंचमार्क बाद के अनुसंधान के लिए मानक मूल्यांकन प्लेटफॉर्म प्रदान करता है

कमियां

  1. सैद्धांतिक विश्लेषण की कमी: कैलिब्रेशन पैरामीटर प्रभावी क्यों हैं इसके गहन सैद्धांतिक व्याख्या की कमी
  2. कार्य चयन सीमा: मुख्य रूप से NLP कार्यों पर ध्यान केंद्रित, अन्य मोडल में प्रयोज्यता अज्ञात
  3. मूल्यांकन मेट्रिक्स एकल: मुख्य रूप से ROUGE और LLM Judge पर निर्भर, मानव मूल्यांकन की कमी

प्रभाव

  1. शैक्षणिक मूल्य: नई अनुसंधान दिशा खोलता है, बाद के कार्यों के अनुसरण की अपेक्षा है
  2. औद्योगिक अनुप्रयोग: मोबाइल डिवाइस AI अनुप्रयोग विकास में सीधे लागू
  3. पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और बेंचमार्क डेटा प्रदान करता है

लागू परिदृश्य

  1. मोबाइल अनुप्रयोग: स्मार्टफोन, टैबलेट आदि संसाधन-सीमित डिवाइस
  2. एज कंप्यूटिंग: IoT डिवाइस, एम्बेडेड सिस्टम
  3. गोपनीयता-संवेदनशील परिदृश्य: डेटा अपलोड से बचने के लिए स्थानीय प्रसंस्करण की आवश्यकता वाले अनुप्रयोग

संदर्भ

पेपर संबंधित कार्यों के बड़ी संख्या में उद्धृत करता है, मुख्य रूप से शामिल हैं:

  • Hu et al. (2022): LoRA मूल पेपर
  • Wortsman et al. (2022): Model Soup मॉडल विलय विधि
  • Yadav et al. (2024): TIES विलय रणनीति
  • Gunter et al. (2024): Apple Intelligence डिवाइस पर तैनाती अनुभव

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो वास्तविक महत्वपूर्ण समस्या को हल करता है, प्रभावी समाधान प्रस्तावित करता है, और व्यापक प्रायोगिक सत्यापन करता है। यह कार्य डिवाइस पर LLMs के बहु-कार्य प्रसंस्करण के लिए नई सोच प्रदान करता है, जिसका महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।