Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
- পেপার আইডি: 2507.16083
- শিরোনাম: ডিভাইস-এ বড় ভাষা মডেলগুলির জন্য দক্ষ সংমিশ্রণমূলক মাল্টি-টাস্কিং
- লেখক: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- প্রতিষ্ঠান: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
- শ্রেণীবিভাগ: cs.CL cs.AI cs.LG
- প্রকাশের সময়: ২০২৫ সালের অক্টোবর ১১ (arXiv v2)
- পেপার লিঙ্ক: https://arxiv.org/abs/2507.16083
অ্যাডাপ্টার পরামিতিগুলি মেশিন লার্নিং মডেলের আচরণ পরিবর্তনের জন্য একটি প্রক্রিয়া প্রদান করে এবং বড় ভাষা মডেল (LLMs) এবং জেনারেটিভ AI ক্ষেত্রে ব্যাপক মনোযোগ পেয়েছে। এই পরামিতিগুলি টাস্ক মার্জিং প্রক্রিয়ার মাধ্যমে মাল্টি-টাস্ক প্রসেসিং সমর্থন করতে পারে। তবে, LLMs-এ পূর্ববর্তী মার্জিং কাজ, বিশেষত প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ক্ষেত্রে, প্রতিটি পরীক্ষা নমুনা শুধুমাত্র একটি একক টাস্ক প্রক্রিয়া করার পরিস্থিতিতে সীমাবদ্ধ। এই পেপারটি ডিভাইস-এ সেটিংসে ফোকাস করে, টেক্সট-ভিত্তিক সংমিশ্রণমূলক মাল্টি-টাস্ক সমস্যা অধ্যয়ন করে, যেখানে প্রতিটি পরীক্ষা নমুনা একযোগে একাধিক টাস্ক সম্পাদন করতে হয়। উদাহরণস্বরূপ, দীর্ঘ পাঠ্যের অনুবাদ সারসংক্ষেপ তৈরি করতে অনুবাদ এবং সারসংক্ষেপ টাস্ক উভয়ই সমাধান করতে হয়। এই ক্ষেত্রে গবেষণা প্রচার করতে, আমরা চারটি ব্যবহারিক সংমিশ্রণ টাস্ক সহ একটি বেঞ্চমার্ক প্রস্তাব করি। আমরা ডিভাইস-এ অ্যাপ্লিকেশনের জন্য একটি দক্ষ পদ্ধতি (শিখনযোগ্য ক্যালিব্রেশন) প্রস্তাব করি, যা সম্পদ-সীমিত পরিবেশে সম্পদ-দক্ষ এবং উচ্চ-কর্মক্ষমতা উভয় সমাধানের প্রয়োজনীয়তা জোর দেয়।
ঐতিহ্যবাহী LLM মাল্টি-টাস্ক প্রসেসিং প্রধানত একক-টাস্ক পরিস্থিতিতে ফোকাস করে, অর্থাৎ প্রতিটি পরীক্ষা নমুনা শুধুমাত্র একটি টাস্ক জড়িত (যেমন শুধুমাত্র অনুবাদ বা শুধুমাত্র সারসংক্ষেপ)। তবে, বাস্তব অ্যাপ্লিকেশনগুলি প্রায়শই সংমিশ্রণমূলক মাল্টি-টাস্ক প্রসেসিং প্রয়োজন, অর্থাৎ একটি একক অনুমানে একযোগে একাধিক টাস্ক সম্পাদন করা, যেমন অনুবাদ করা সারসংক্ষেপ তৈরি করা, নির্দিষ্ট টোনের প্রতিক্রিয়া তৈরি করা ইত্যাদি।
- ব্যবহারিক মূল্য: সংমিশ্রণমূলক মাল্টি-টাস্ক বাস্তব পরিস্থিতিতে ব্যাপক চাহিদা রয়েছে, যেমন ক্রস-ভাষা পরিস্থিতিতে স্মার্ট প্রতিক্রিয়া, নির্দিষ্ট টোনের সারসংক্ষেপ তৈরি ইত্যাদি
- দক্ষতার প্রয়োজনীয়তা: ডিভাইস-এ LLMs সম্পদ-সীমিত, একটি একক অনুমানে মাল্টি-টাস্ক সম্পূর্ণ করতে হয়, একাধিক অনুমানের দক্ষতা ক্ষতি এড়াতে
- স্টোরেজ সীমাবদ্ধতা: মোবাইল ডিভাইসের স্টোরেজ সীমিত, প্রতিটি সংমিশ্রণ টাস্কের জন্য স্বাধীন অ্যাডাপ্টার প্রশিক্ষণ করা যায় না
- ঐতিহ্যবাহী মার্জিং কৌশল: TIES, DARE ইত্যাদি পদ্ধতি সংমিশ্রণ মাল্টি-টাস্ক পরিস্থিতিতে দুর্বল কর্মক্ষমতা প্রদর্শন করে
- মাল্টি-স্টেপ সমাধান: কার্যকর হলেও একাধিক অনুমান প্রয়োজন, দক্ষতা কম
- স্বাধীন প্রশিক্ষণ: প্রতিটি সংমিশ্রণ টাস্কের জন্য বিশেষায়িত অ্যাডাপ্টার প্রশিক্ষণ, বড় স্টোরেজ ওভারহেড
- সংমিশ্রণমূলক মাল্টি-টাস্ক সমস্যা প্রথম প্রস্তাব: ডিভাইস-এ LLMs-এর সংমিশ্রণমূলক মাল্টি-টাস্ক প্রসেসিং চ্যালেঞ্জ সংজ্ঞায়িত করা
- ব্যবহারিক বেঞ্চমার্ক নির্মাণ: ১৪টি সাব-টাস্ক সহ একটি ব্যাপক বেঞ্চমার্ক বিকাশ, সারসংক্ষেপ+অনুবাদ, সারসংক্ষেপ+টোন সমন্বয়, প্রতিক্রিয়া+অনুবাদ, প্রতিক্রিয়া+টোন সমন্বয় চারটি বিভাগ অন্তর্ভুক্ত
- শিখনযোগ্য ক্যালিব্রেশন পদ্ধতি প্রস্তাব: দুটি ভেরিয়েন্টের দক্ষ সমাধান ডিজাইন করা, উচ্চ কর্মক্ষমতা বজায় রেখে স্টোরেজ এবং গণনা ওভারহেড কমানো
- ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক ডিভাইস-এ LLM-এ পদ্ধতির কার্যকারিতা এবং সর্বজনীনতা যাচাই করা
সংমিশ্রণমূলক মাল্টি-টাস্ক সংজ্ঞায়িত করা হয় যেমন:
TC[N](x)=TN(…T2(T1(x)))
যেখানে ইনপুট x ক্রমাগত N টি টাস্ক প্রক্রিয়াকরণের মধ্য দিয়ে যায়, এই পেপারটি প্রধানত N=2 ক্ষেত্র অধ্যয়ন করে, যার মধ্যে রয়েছে:
- প্রধান টাস্ক T1: সারসংক্ষেপ বা প্রতিক্রিয়া তৈরি
- সহায়ক টাস্ক T2: অনুবাদ বা টোন সমন্বয়
LoRA অ্যাডাপ্টার মেকানিজমের উপর ভিত্তি করে, সামঞ্জস্যকৃত ফরওয়ার্ড প্রপাগেশন:
h=W0x+ΔWx=W0x+BAx
যেখানে B∈Rd×r, A∈Rr×k, r≪min(d,k)।
মূল ধারণা: রৈখিক মার্জিত একক-টাস্ক LoRAs থেকে শুরু করে, অল্প সংখ্যক অতিরিক্ত পরামিতি দিয়ে ক্যালিব্রেশন করা।
প্রাথমিক মার্জিং:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
ভেরিয়েন্ট 1 - শিখনযোগ্য ক্যালিব্রেশন:
কলাম-ওয়াইজ বায়াস ভেক্টর p∈Rd ব্যবহার করে ক্যালিব্রেশন:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
ভেরিয়েন্ট 2 - শিখনযোগ্য ক্যালিব্রেশন++:
ক্যালিব্রেশন LoRA ম্যাট্রিক্স P2P1 প্রবর্তন:
ΔWc=P2P1+ΔW′
- হালকা-ওজনের ক্যালিব্রেশন: শুধুমাত্র ০.০৮-০.৫৬% অতিরিক্ত পরামিতি প্রয়োজন, স্টোরেজ ওভারহেড ০.৫ MB এর চেয়ে কম
- টাস্ক-নির্দিষ্টতা: বিভিন্ন সংমিশ্রণ টাস্কের জন্য বিশেষায়িত ক্যালিব্রেশন পরামিতি শিখা
- শক্তিশালী সামঞ্জস্যতা: বিদ্যমান ফ্রেমওয়ার্ক (Android AI Core, Apple Intelligence) এর সাথে সামঞ্জস্যপূর্ণ
- পরামিতি ভাগাভাগি: টাস্ক জুড়ে পরামিতি ভাগাভাগি সমর্থন করে স্টোরেজ চাহিদা আরও কমাতে
বেঞ্চমার্ক ডেটাসেট নির্মাণ:
- সারসংক্ষেপ টাস্ক: DialogSum ডেটাসেট (১২,৪৬০/৫০০/১,৫০০ প্রশিক্ষণ/যাচাইকরণ/পরীক্ষা)
- প্রতিক্রিয়া টাস্ক: সিন্থেটিক Persona Chat ডেটাসেট (২২৫,০৬১/১,০০০/১,০০০)
- অনুবাদ টাস্ক: TED Talks ডেটাসেট, ইংরেজি থেকে স্প্যানিশ/ফ্রেঞ্চ/জার্মান
- টোন সমন্বয়: Sound Natural ডেটাসেট, চারটি টোন (পেশাদার/নৈমিত্তিক/হাস্যরস/বর্ণনা)
সংমিশ্রণ টাস্ক তৈরি:
- অনুবাদের জন্য OpusMT মডেল ব্যবহার
- টোন সমন্বয়ের জন্য RedPajama-INCITE-Base 3B মডেল ব্যবহার
- সারসংক্ষেপ-শ্রেণীর টাস্ক: ROUGE-L (R-L)
- প্রতিক্রিয়া-শ্রেণীর টাস্ক: ওজনযুক্ত ROUGE (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- LLM বিচারক: Llama 3.1 70B ব্যবহার করে বাইনারি মূল্যায়ন
বেসলাইন পদ্ধতি:
- Zero-shot, প্রধান-টাস্ক LoRA, সহায়ক-টাস্ক LoRA
- প্রসঙ্গ শিক্ষা, মাল্টি-স্টেপ LoRA ব্যবহার
- বিভিন্ন মার্জিং কৌশল: Linear, TIES, DARE, Slerp, LoraHub ইত্যাদি
রেফারেন্স পদ্ধতি:
- মাল্টি-স্টেপ LoRA ব্যবহার (দক্ষতা কম কিন্তু কর্মক্ষমতা ভাল)
- যৌথ বিশেষজ্ঞ LoRA (প্রতিটি সংমিশ্রণ টাস্কের জন্য বিশেষভাবে প্রশিক্ষিত)
- মডেল: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
- LoRA কনফিগারেশন: rank=32, α=16, dropout=0.05
- প্রশিক্ষণ: Adam অপ্টিমাইজার, শিক্ষার হার ৫×১০⁻⁵ (LoRA), ৫×१०⁻⁴ (ক্যালিব্রেশন পরামিতি)
- ক্যালিব্রেশন প্রশিক্ষণ: ১০,০০০ সংমিশ্রণ টাস্ক নমুনা র্যান্ডমলি নির্বাচন
| পদ্ধতি শ্রেণী | সার.+অনু. | সার.+টোন | প্রতি.+অনু. | প্রতি.+টোন | দক্ষতা |
|---|
| দক্ষ বেসলাইন | | | | | |
| Zero-shot | 0.44% | 6.52% | 4.11% | 33.66% | ✓ |
| প্রধান-টাস্ক LoRA | 3.49% | 4.18% | 7.17% | 36.25% | ✓ |
| রৈখিক মার্জ | 0.33% | 2.74% | 12.81% | 41.93% | ✓ |
| TIES মার্জ | 0.81% | 6.06% | 8.30% | 47.87% | ✓ |
| অদক্ষ বেসলাইন | | | | | |
| মাল্টি-স্টেপ LoRA | 72.92% | 34.32% | 69.83% | 45.78% | ✗ |
| যৌথ বিশেষজ্ঞ LoRA | 49.85% | 16.14% | 65.73% | 47.06% | ✗ |
| এই পেপার পদ্ধতি | | | | | |
| শিখনযোগ্য ক্যালিব্রেশন | 59.23% | 28.89% | 57.46% | 44.99% | ✓ |
| শিখনযোগ্য ক্যালিব্রেশন++ | 65.15% | 34.34% | 63.81% | 45.40% | ✓ |
টেবিলের মান LLM বিচারক স্কোর (%)
- ঐতিহ্যবাহী মার্জিং কৌশল ব্যর্থ: বিদ্যমান মার্জিং পদ্ধতি সংমিশ্রণ মাল্টি-টাস্ক পরিস্থিতিতে অত্যন্ত দুর্বল কর্মক্ষমতা প্রদর্শন করে (LLM বিচারক স্কোর সাধারণত <10%)
- দক্ষতা-কর্মক্ষমতা ট্রেড-অফ: এই পেপারের পদ্ধতি একক অনুমানের সীমাবদ্ধতার অধীনে, মাল্টি-স্টেপ বেসলাইনের কাছাকাছি বা এমনকি অতিক্রম করে কর্মক্ষমতা অর্জন করে
- সামঞ্জস্যপূর্ণ কর্মক্ষমতা: শিখনযোগ্য ক্যালিব্রেশন++ সমস্ত টাস্কে সর্বোত্তম কর্মক্ষমতা অর্জন করে
স্টোরেজ দক্ষতা বিশ্লেষণ:
- মাল্টি-স্টেপ LoRA: ০ অতিরিক্ত পরামিতি, কিন্তু ২ অনুমান প্রয়োজন
- যৌথ বিশেষজ্ঞ LoRA: ৩০M পরামিতি, ৫৭.১০ MB স্টোরেজ
- শিখনযোগ্য ক্যালিব্রেশন: ২৩K পরামিতি, ০.০৫ MB স্টোরেজ
- শিখনযোগ্য ক্যালিব্রেশন++: ১৬৬K পরামিতি, ০.৩२ MB স্টোরেজ
প্রি-ট্রেনড অ্যাডাপ্টারের ভূমিকা:
প্রি-ট্রেনড LoRAs সরানোর পরে, কর্মক্ষমতা সামান্য হ্রাস পায় কিন্তু বেশিরভাগ বেসলাইনের চেয়ে ভাল থাকে, বিদ্যমান অ্যাডাপ্টার ব্যবহারের মূল্য প্রমাণ করে।
- মডেল স্কেল অভিযোজনযোগ্যতা: ০.৫B-३B পরামিতির মডেলে ভাল কর্মক্ষমতা প্রদর্শন করে
- ডোমেইন-বাইরে সাধারণীকরণ: বিভিন্ন কথোপকথন ডেটাসেটে স্থিতিশীল কর্মক্ষমতা বজায় রাখে
- তিন-টাস্ক সম্প্রসারণ: সারসংক্ষেপ+টোন+অনুবাদের তিন-পথ সংমিশ্রণ টাস্ক সমর্থন করে
- LoRA এবং এর ভেরিয়েন্ট: DoRA, AdaLoRA, Delta-LoRA ইত্যাদি সম্প্রসারণ পদ্ধতি
- অন্যান্য PEFT পদ্ধতি: BitFit ইত্যাদি বায়াস পরামিতি প্রশিক্ষণ পদ্ধতি
- প্রাথমিক কাজ: Model Soup ইত্যাদি রৈখিক মার্জিং পদ্ধতি
- উন্নত প্রযুক্তি: TIES, DARE, Slerp ইত্যাদি দ্বন্দ্ব সমাধান কৌশল
- অভিযোজনযোগ্য পদ্ধতি: LoraHub, LM-Cocktail, DAM ইত্যাদি শিক্ষণ-ভিত্তিক মার্জিং
- সংকোচন প্রযুক্তি: মডেল কোয়ান্টাইজেশন, জ্ঞান পাতন ইত্যাদি
- প্রতিনিধি মডেল: LLaMA 3.2, Qwen2.5, StableLM2 ইত্যাদি १-३B পরামিতি মডেল
- স্থাপনা চ্যালেঞ্জ: স্টোরেজ সীমাবদ্ধতা, গণনা সীমাবদ্ধতা, গোপনীয়তা প্রয়োজনীয়তা
- সমস্যার গুরুত্ব: সংমিশ্রণমূলক মাল্টি-টাস্ক ডিভাইস-এ LLMs-এর একটি গুরুত্বপূর্ণ প্রয়োজন, ঐতিহ্যবাহী পদ্ধতি কার্যকরভাবে সমাধান করতে পারে না
- পদ্ধতির কার্যকারিতা: শিখনযোগ্য ক্যালিব্রেশন দক্ষতা বজায় রেখে অদক্ষ বেসলাইনের সমতুল্য কর্মক্ষমতা অর্জন করে
- ব্যবহারিক মূল্য: অত্যন্ত ছোট স্টোরেজ ওভারহেড (<০.৫ MB) পদ্ধতিকে বাস্তব স্থাপনার জন্য উপযুক্ত করে তোলে
- মূল্যায়ন পরিসীমা: প্রধানত १-३B পরামিতির ডিভাইস-এ মডেলে ফোকাস করে, বড় মডেলে যাচাই করা হয়নি
- টাস্ক সংখ্যা: প্রধানত २-३ টাস্কের সংমিশ্রণ অধ্যয়ন করে, আরও টাস্কের সম্প্রসারণযোগ্যতা যাচাই করা প্রয়োজন
- ডেটা নির্ভরতা: ক্যালিব্রেশন পরামিতি প্রশিক্ষণের জন্য সংমিশ্রণ টাস্ক ডেটা প্রয়োজন, সম্পূর্ণ ডেটা-মুক্ত মার্জিং পদ্ধতির মতো নয়
- নিরাপত্তা গবেষণা: সংমিশ্রণ মাল্টি-টাস্ক মডেল নিরাপত্তা প্রক্রিয়ার উপর প্রভাব অন্বেষণ করা
- সম্প্রসারণযোগ্যতা অপ্টিমাইজেশন: আরও টাস্ক সংমিশ্রণ পরিচালনার পদ্ধতি গবেষণা করা
- শূন্য-শট মার্জিং: অতিরিক্ত ডেটা ছাড়াই সংমিশ্রণ মাল্টি-টাস্ক পদ্ধতি বিকাশ করা
- সমস্যা উদ্ভাবনী: সংমিশ্রণমূলক মাল্টি-টাস্ক সমস্যা প্রথম সিস্টেমেটিকভাবে অধ্যয়ন করা, গুরুত্বপূর্ণ গবেষণা ফাঁক পূরণ করা
- পদ্ধতি ব্যবহারিকতা: অত্যন্ত ছোট স্টোরেজ এবং গণনা ওভারহেড, বাস্তব স্থাপনার জন্য উপযুক্ত
- পরীক্ষামূলক সম্পূর্ণতা: ব্যাপক বেসলাইন তুলনা, অ্যাবলেশন পরীক্ষা এবং সম্প্রসারণ বিশ্লেষণ
- বেঞ্চমার্ক অবদান: নির্মিত १४-সাব-টাস্ক বেঞ্চমার্ক পরবর্তী গবেষণার জন্য মান মূল্যায়ন প্ল্যাটফর্ম প্রদান করে
- তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: ক্যালিব্রেশন পরামিতি কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যা অভাব
- টাস্ক নির্বাচন সীমাবদ্ধতা: প্রধানত NLP টাস্কে ফোকাস করে, অন্যান্য মোডালিটিতে প্রযোজ্যতা অজানা
- মূল্যায়ন মেট্রিক্স একক: প্রধানত ROUGE এবং LLM বিচারকের উপর নির্ভর করে, মানব মূল্যায়ন অভাব
- একাডেমিক মূল্য: নতুন গবেষণা দিকনির্দেশনা খোলে, পরবর্তী কাজ অনুসরণ করার প্রত্যাশা করা হয়
- শিল্প প্রয়োগ: মোবাইল ডিভাইসের AI অ্যাপ্লিকেশন উন্নয়নে সরাসরি প্রযোজ্য
- পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং বেঞ্চমার্ক ডেটা প্রদান করা
- মোবাইল অ্যাপ্লিকেশন: স্মার্টফোন, ট্যাবলেট ইত্যাদি সম্পদ-সীমিত ডিভাইস
- এজ কম্পিউটিং: IoT ডিভাইস, এমবেডেড সিস্টেম
- গোপনীয়তা-সংবেদনশীল পরিস্থিতি: ডেটা আপলোড এড়াতে স্থানীয় প্রক্রিয়াকরণ প্রয়োজনীয় অ্যাপ্লিকেশন
পেপারটি সম্পর্কিত কাজের বিস্তৃত উদ্ধৃতি অন্তর্ভুক্ত করে, প্রধানত:
- Hu et al. (2022): LoRA মূল পেপার
- Wortsman et al. (2022): Model Soup মডেল মার্জিং পদ্ধতি
- Yadav et al. (2024): TIES মার্জিং কৌশল
- Gunter et al. (2024): Apple Intelligence ডিভাইস-এ স্থাপনা অভিজ্ঞতা
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের গবেষণা পেপার যা ব্যবহারিক গুরুত্বপূর্ণ সমস্যা সমাধান করে, কার্যকর সমাধান প্রস্তাব করে এবং ব্যাপক পরীক্ষামূলক যাচাইকরণ পরিচালনা করে। এই কাজ ডিভাইস-এ LLMs-এর মাল্টি-টাস্ক প্রসেসিংয়ের জন্য নতুন চিন্তাভাবনা প্রদান করে এবং গুরুত্বপূর্ণ একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।