Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
- पेपर ID: 2507.16083
- शीर्षक: डिवाइस पर बड़े भाषा मॉडल के लिए कुशल संरचनात्मक बहु-कार्य प्रसंस्करण
- लेखक: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- संस्थान: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
- वर्गीकरण: cs.CL cs.AI cs.LG
- प्रकाशन तिथि: 25 अक्टूबर 2025 (arXiv v2)
- पेपर लिंक: https://arxiv.org/abs/2507.16083
अनुकूलक पैरामीटर मशीन लर्निंग मॉडल के व्यवहार को संशोधित करने के लिए एक तंत्र प्रदान करते हैं, जो बड़े भाषा मॉडल (LLMs) और जनरेटिव AI क्षेत्र में व्यापक ध्यान आकर्षित कर रहे हैं। ये पैरामीटर कार्य विलय प्रक्रिया के माध्यम से बहु-कार्य प्रसंस्करण का समर्थन कर सकते हैं। हालांकि, LLMs में पूर्व विलय कार्य, विशेषकर प्राकृतिक भाषा प्रसंस्करण क्षेत्र में, केवल उन परिदृश्यों तक सीमित हैं जहां प्रत्येक परीक्षण नमूना केवल एक एकल कार्य को संभालता है। यह पेपर डिवाइस पर सेटिंग पर ध्यान केंद्रित करता है और पाठ-आधारित संरचनात्मक बहु-कार्य समस्या का अध्ययन करता है, जहां प्रत्येक परीक्षण नमूने को एक साथ कई कार्यों को निष्पादित करने की आवश्यकता होती है। उदाहरण के लिए, लंबे पाठ के अनुवादित सारांश का निर्माण एक साथ अनुवाद और सारांश कार्यों को हल करने की आवश्यकता है। इस क्षेत्र में अनुसंधान को बढ़ावा देने के लिए, हम चार व्यावहारिक संरचनात्मक कार्यों वाला एक बेंचमार्क प्रस्तावित करते हैं। हम डिवाइस पर अनुप्रयोगों के लिए एक कुशल विधि (Learnable Calibration) भी प्रस्तावित करते हैं, जो संसाधन-सीमित वातावरण में संसाधन-कुशल और उच्च-प्रदर्शन दोनों समाधानों की आवश्यकता पर जोर देता है।
पारंपरिक LLM बहु-कार्य प्रसंस्करण मुख्य रूप से एकल-कार्य परिदृश्यों पर ध्यान केंद्रित करता है, अर्थात् प्रत्येक परीक्षण नमूना केवल एक कार्य से संबंधित होता है (जैसे केवल अनुवाद या केवल सारांश)। हालांकि, वास्तविक अनुप्रयोगों में अक्सर संरचनात्मक बहु-कार्य प्रसंस्करण की आवश्यकता होती है, अर्थात् एक एकल अनुमान में एक साथ कई कार्यों को निष्पादित करना, जैसे अनुवादित सारांश उत्पन्न करना, विशिष्ट टोन में प्रतिक्रिया उत्पन्न करना आदि।
- व्यावहारिक मूल्य: संरचनात्मक बहु-कार्य वास्तविक परिदृश्यों में व्यापक मांग रखते हैं, जैसे क्रॉस-भाषा परिदृश्यों में स्मार्ट प्रतिक्रिया, विशिष्ट टोन के साथ सारांश निर्माण आदि
- दक्षता आवश्यकता: डिवाइस पर LLMs संसाधन-सीमित हैं, एकल अनुमान में कई कार्यों को पूरा करने की आवश्यकता है, कई अनुमानों की दक्षता हानि से बचने के लिए
- भंडारण बाधा: मोबाइल डिवाइस में सीमित भंडारण है, प्रत्येक संरचनात्मक कार्य के लिए स्वतंत्र अनुकूलक प्रशिक्षित नहीं कर सकते
- पारंपरिक विलय रणनीति: TIES, DARE जैसी विधियां संरचनात्मक बहु-कार्य परिदृश्य में खराब प्रदर्शन करती हैं
- बहु-चरणीय समाधान: प्रभावी होने के बावजूद कई अनुमानों की आवश्यकता है, दक्षता कम है
- स्वतंत्र प्रशिक्षण: प्रत्येक संरचनात्मक कार्य के लिए विशेष अनुकूलक प्रशिक्षित करना, भंडारण ओवरहेड बड़ा है
- संरचनात्मक बहु-कार्य समस्या का प्रथम प्रस्ताव: डिवाइस पर LLMs के लिए संरचनात्मक बहु-कार्य प्रसंस्करण चुनौती को परिभाषित किया
- व्यावहारिक बेंचमार्क निर्माण: 14 उप-कार्यों वाला व्यापक बेंचमार्क विकसित किया, जो सारांश + अनुवाद, सारांश + टोन समायोजन, प्रतिक्रिया + अनुवाद, प्रतिक्रिया + टोन समायोजन चार श्रेणियों को कवर करता है
- Learnable Calibration विधि प्रस्तावित: दो वेरिएंट के साथ कुशल समाधान डिज़ाइन किया गया, जो उच्च प्रदर्शन बनाए रखते हुए भंडारण और कम्प्यूटेशनल ओवरहेड को कम करता है
- व्यापक प्रायोगिक सत्यापन: कई डिवाइस पर LLMs पर विधि की प्रभावशीलता और सामान्यता सत्यापित की
संरचनात्मक बहु-कार्य को निम्नानुसार परिभाषित किया गया है:
TC[N](x)=TN(…T2(T1(x)))
जहां इनपुट x क्रमिक रूप से N कार्यों के माध्यम से संसाधित होता है, यह पेपर मुख्य रूप से N=2 के मामले का अध्ययन करता है, जिसमें शामिल हैं:
- प्राथमिक कार्य T1: सारांश या प्रतिक्रिया निर्माण
- सहायक कार्य T2: अनुवाद या टोन समायोजन
LoRA अनुकूलक तंत्र के आधार पर, समायोजित आगे प्रसार निम्नानुसार है:
h=W0x+ΔWx=W0x+BAx
जहां B∈Rd×r, A∈Rr×k, r≪min(d,k)।
मूल विचार: एकल-कार्य LoRAs के रैखिक विलय से शुरू करके, कुछ अतिरिक्त पैरामीटर के माध्यम से कैलिब्रेशन करना।
प्रारंभिक विलय:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
वेरिएंट 1 - Learnable Calibration:
स्तंभ पूर्वाग्रह वेक्टर p∈Rd का उपयोग करके कैलिब्रेशन:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
वेरिएंट 2 - Learnable Calibration++:
कैलिब्रेशन LoRA मैट्रिक्स P2P1 का परिचय:
ΔWc=P2P1+ΔW′
- हल्का कैलिब्रेशन: केवल 0.08-0.56% अतिरिक्त पैरामीटर, भंडारण ओवरहेड 0.5MB से कम
- कार्य विशिष्टता: विभिन्न संरचनात्मक कार्यों के लिए विशेष कैलिब्रेशन पैरामीटर सीखना
- मजबूत संगतता: मौजूदा ढांचे (Android AI Core, Apple Intelligence) के साथ संगत
- पैरामीटर साझाकरण: भंडारण आवश्यकता को और कम करने के लिए कार्यों में पैरामीटर साझाकरण का समर्थन
बेंचमार्क डेटासेट निर्माण:
- सारांश कार्य: DialogSum डेटासेट (12,460/500/1,500 प्रशिक्षण/सत्यापन/परीक्षण)
- प्रतिक्रिया कार्य: Synthetic Persona Chat डेटासेट (225,061/1,000/1,000)
- अनुवाद कार्य: TED Talks डेटासेट, अंग्रेजी से स्पेनिश/फ्रेंच/जर्मन
- टोन समायोजन: Sound Natural डेटासेट, चार टोन (पेशेवर/अनौपचारिक/हास्य/पुनर्वर्णन)
संरचनात्मक कार्य निर्माण:
- अनुवाद के लिए OpusMT मॉडल का उपयोग
- टोन समायोजन के लिए RedPajama-INCITE-Base 3B मॉडल का उपयोग
- सारांश-प्रकार कार्य: ROUGE-L (R-L)
- प्रतिक्रिया-प्रकार कार्य: भारित ROUGE (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- LLM Judge: Llama 3.1 70B का उपयोग करके द्विआधारी मूल्यांकन
आधार विधियां:
- Zero-shot, प्राथमिक कार्य LoRA, सहायक कार्य LoRA
- संदर्भ सीखना, बहु-चरणीय LoRA उपयोग
- विभिन्न विलय रणनीतियां: Linear, TIES, DARE, Slerp, LoraHub आदि
संदर्भ विधियां:
- बहु-चरणीय LoRA उपयोग (दक्षता कम लेकिन प्रदर्शन अच्छा)
- संयुक्त विशेषज्ञ LoRA (प्रत्येक संरचनात्मक कार्य के लिए विशेष रूप से प्रशिक्षित)
- मॉडल: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
- LoRA कॉन्फ़िगरेशन: rank=32, α=16, dropout=0.05
- प्रशिक्षण: Adam अनुकूलक, सीखने की दर 5×10⁻⁵ (LoRA), 5×10⁻⁴ (कैलिब्रेशन पैरामीटर)
- कैलिब्रेशन प्रशिक्षण: 10,000 संरचनात्मक कार्य नमूनों का यादृच्छिक चयन
| विधि श्रेणी | Sum.+अनु. | Sum.+टोन | प्रति.+अनु. | प्रति.+टोन | दक्षता |
|---|
| कुशल आधार | | | | | |
| Zero-shot | 0.44% | 6.52% | 4.11% | 33.66% | ✓ |
| प्राथमिक LoRA | 3.49% | 4.18% | 7.17% | 36.25% | ✓ |
| Linear merge | 0.33% | 2.74% | 12.81% | 41.93% | ✓ |
| TIES merge | 0.81% | 6.06% | 8.30% | 47.87% | ✓ |
| अकुशल आधार | | | | | |
| बहु-चरणीय LoRA | 72.92% | 34.32% | 69.83% | 45.78% | ✗ |
| संयुक्त विशेषज्ञ LoRA | 49.85% | 16.14% | 65.73% | 47.06% | ✗ |
| यह पेपर | | | | | |
| Learnable Calibration | 59.23% | 28.89% | 57.46% | 44.99% | ✓ |
| Learnable Calibration++ | 65.15% | 34.34% | 63.81% | 45.40% | ✓ |
तालिका में मान LLM Judge स्कोर (%) हैं
- पारंपरिक विलय रणनीति विफल: मौजूदा विलय विधियां संरचनात्मक बहु-कार्य परिदृश्य में अत्यंत खराब प्रदर्शन करती हैं (LLM Judge स्कोर आमतौर पर <10%)
- दक्षता-प्रदर्शन व्यापार: यह विधि एकल अनुमान की बाधा के तहत, बहु-चरणीय आधार के समान या बेहतर प्रदर्शन करती है
- सुसंगत प्रदर्शन: Learnable Calibration++ सभी कार्यों पर सर्वोत्तम प्रदर्शन प्राप्त करता है
भंडारण दक्षता विश्लेषण:
- बहु-चरणीय LoRA: 0 अतिरिक्त पैरामीटर, लेकिन 2 अनुमान की आवश्यकता
- संयुक्त विशेषज्ञ LoRA: 30M पैरामीटर, 57.10MB भंडारण
- Learnable Calibration: 23K पैरामीटर, 0.05MB भंडारण
- Learnable Calibration++: 166K पैरामीटर, 0.32MB भंडारण
पूर्व-प्रशिक्षित अनुकूलक की भूमिका:
पूर्व-प्रशिक्षित LoRAs को हटाने के बाद, प्रदर्शन में थोड़ी गिरावट आती है लेकिन अधिकांश आधार से बेहतर रहता है, जो मौजूदा अनुकूलक का उपयोग करने के मूल्य को साबित करता है।
- मॉडल स्केल अनुकूलन: 0.5B-3B पैरामीटर वाले मॉडल पर अच्छा प्रदर्शन
- डोमेन-बाहर सामान्यीकरण: विभिन्न संवाद डेटासेट पर स्थिर प्रदर्शन
- तीन-कार्य विस्तार: सारांश + टोन + अनुवाद के तीन-तरफा संरचनात्मक कार्य का समर्थन
- LoRA और इसके वेरिएंट: DoRA, AdaLoRA, Delta-LoRA आदि विस्तार विधियां
- अन्य PEFT विधियां: BitFit आदि पूर्वाग्रह पैरामीटर प्रशिक्षण विधियां
- प्रारंभिक कार्य: Model Soup आदि रैखिक विलय विधियां
- उन्नत तकनीकें: TIES, DARE, Slerp आदि संघर्ष समाधान रणनीतियां
- अनुकूली विधियां: LoraHub, LM-Cocktail, DAM आदि सीखने-आधारित विलय
- संपीड़न तकनीकें: मॉडल परिमाणीकरण, ज्ञान आसवन आदि
- प्रतिनिधि मॉडल: LLaMA 3.2, Qwen2.5, StableLM2 आदि 1-3B पैरामीटर मॉडल
- तैनाती चुनौतियां: भंडारण सीमा, कम्प्यूटेशनल बाधा, गोपनीयता आवश्यकता
- समस्या महत्व: संरचनात्मक बहु-कार्य डिवाइस पर LLMs की महत्वपूर्ण आवश्यकता है, पारंपरिक विधियां प्रभावी ढंग से समाधान नहीं कर सकती
- विधि प्रभावशीलता: Learnable Calibration दक्षता बनाए रखते हुए अकुशल आधार के समान प्रदर्शन प्राप्त करता है
- व्यावहारिक मूल्य: अत्यंत छोटा भंडारण ओवरहेड (<0.5MB) विधि को वास्तविक तैनाती के लिए उपयुक्त बनाता है
- मूल्यांकन सीमा: मुख्य रूप से 1-3B पैरामीटर वाले डिवाइस पर मॉडल पर ध्यान केंद्रित, बड़े मॉडल पर सत्यापन नहीं किया गया
- कार्य संख्या: मुख्य रूप से 2-3 कार्यों के संयोजन का अध्ययन, अधिक कार्यों का विस्तारशीलता सत्यापन की प्रतीक्षा में है
- डेटा निर्भरता: कैलिब्रेशन पैरामीटर प्रशिक्षण के लिए संरचनात्मक कार्य डेटा की आवश्यकता है, पूरी तरह से डेटा-मुक्त विलय विधियों जितना प्रभावी नहीं
- सुरक्षा अनुसंधान: संरचनात्मक बहु-कार्य के मॉडल सुरक्षा तंत्र पर प्रभाव की खोज
- विस्तारशीलता अनुकूलन: अधिक कार्य संयोजन को संभालने की विधियों का अनुसंधान
- शून्य-शॉट विलय: अतिरिक्त डेटा के बिना संरचनात्मक बहु-कार्य विधि विकसित करना
- समस्या नवाचार: संरचनात्मक बहु-कार्य समस्या का प्रथम व्यवस्थित अध्ययन, महत्वपूर्ण अनुसंधान अंतराल को भरता है
- विधि व्यावहारिकता: अत्यंत छोटा भंडारण और कम्प्यूटेशनल ओवरहेड, वास्तविक तैनाती के लिए उपयुक्त
- प्रयोग पूर्णता: व्यापक आधार तुलना, विलोपन प्रयोग और विस्तार विश्लेषण
- बेंचमार्क योगदान: निर्मित 14-उप-कार्य बेंचमार्क बाद के अनुसंधान के लिए मानक मूल्यांकन प्लेटफॉर्म प्रदान करता है
- सैद्धांतिक विश्लेषण की कमी: कैलिब्रेशन पैरामीटर प्रभावी क्यों हैं इसके गहन सैद्धांतिक व्याख्या की कमी
- कार्य चयन सीमा: मुख्य रूप से NLP कार्यों पर ध्यान केंद्रित, अन्य मोडल में प्रयोज्यता अज्ञात
- मूल्यांकन मेट्रिक्स एकल: मुख्य रूप से ROUGE और LLM Judge पर निर्भर, मानव मूल्यांकन की कमी
- शैक्षणिक मूल्य: नई अनुसंधान दिशा खोलता है, बाद के कार्यों के अनुसरण की अपेक्षा है
- औद्योगिक अनुप्रयोग: मोबाइल डिवाइस AI अनुप्रयोग विकास में सीधे लागू
- पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और बेंचमार्क डेटा प्रदान करता है
- मोबाइल अनुप्रयोग: स्मार्टफोन, टैबलेट आदि संसाधन-सीमित डिवाइस
- एज कंप्यूटिंग: IoT डिवाइस, एम्बेडेड सिस्टम
- गोपनीयता-संवेदनशील परिदृश्य: डेटा अपलोड से बचने के लिए स्थानीय प्रसंस्करण की आवश्यकता वाले अनुप्रयोग
पेपर संबंधित कार्यों के बड़ी संख्या में उद्धृत करता है, मुख्य रूप से शामिल हैं:
- Hu et al. (2022): LoRA मूल पेपर
- Wortsman et al. (2022): Model Soup मॉडल विलय विधि
- Yadav et al. (2024): TIES विलय रणनीति
- Gunter et al. (2024): Apple Intelligence डिवाइस पर तैनाती अनुभव
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो वास्तविक महत्वपूर्ण समस्या को हल करता है, प्रभावी समाधान प्रस्तावित करता है, और व्यापक प्रायोगिक सत्यापन करता है। यह कार्य डिवाइस पर LLMs के बहु-कार्य प्रसंस्करण के लिए नई सोच प्रदान करता है, जिसका महत्वपूर्ण शैक्षणिक और व्यावहारिक मूल्य है।