বৃহৎ ভাষা মডেল (LLMs) এর আকার ক্রমাগত বৃদ্ধির সাথে সাথে, গণনামূলক খরচ কাজ-নির্দিষ্ট সূক্ষ্ম-সুরক্ষার প্রধান বাধা হয়ে উঠেছে। যদিও নিম্ন-র্যাঙ্ক অভিযোজন (LoRA) ওজন আপডেটগুলিকে নিম্ন-মাত্রিক সাবস্পেসে সীমাবদ্ধ করে খরচ কার্যকরভাবে হ্রাস করে, এই সীমাবদ্ধতা কর্মক্ষমতা বাধাগ্রস্ত করে এবং সংমিশ্রণ গতি হ্রাস করে। এই গবেষণা ক্রমাগত নিম্ন-র্যাঙ্ক বৃদ্ধি ক্রমান্বয়ে জমা করে উচ্চ-র্যাঙ্ক ওজন আপডেট গঠন করে এই সীমাবদ্ধতাগুলি সমাধান করে। নির্দিষ্টভাবে, প্রতিটি আপডেটের সর্বোত্তম নিম্ন-র্যাঙ্ক ম্যাট্রিক্স চিহ্নিত করে ক্ষতি ফাংশন ন্যূনতম করে এবং সম্পূর্ণ সূক্ষ্ম-সুরক্ষা ঘনিষ্ঠভাবে অনুমান করে। দক্ষ এবং নির্বিঘ্ন অপ্টিমাইজেশন অর্জনের জন্য পুনরায় শুরু না করে, এই সর্বোত্তম নির্বাচন মূল নিম্ন-র্যাঙ্ক ম্যাট্রিক্সের কলামগুলিকে যথাযথভাবে স্কেল করে গঠিত হয়। কঠোর কর্মক্ষমতা গ্যারান্টি নির্দেশ করে যে সর্বোত্তম স্কেলিং বিশ্লেষণাত্মক পদ্ধতির মাধ্যমে পাওয়া যায়। ১২০ বিলিয়ন পর্যন্ত পরামিতি সহ জনপ্রিয় LLMs এ পরিচালিত ব্যাপক সংখ্যাগত পরীক্ষা নির্দেশ করে যে পদ্ধতিটি অত্যাধুনিক LoRA বৈকল্পিকগুলির তুলনায় প্রাকৃতিক ভাষা বোঝা, সাধারণ জ্ঞান যুক্তি এবং গাণিতিক সমস্যা সমাধান সহ বৈচিত্র্যময় কাজগুলিতে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি এবং দ্রুত সংমিশ্রণ অর্জন করে।
বৃহৎ ভাষা মডেলের আকার দ্রুত বৃদ্ধির সাথে সাথে, ঐতিহ্যবাহী সম্পূর্ণ সূক্ষ্ম-সুরক্ষা পদ্ধতি এর বিশাল গণনামূলক বোঝার কারণে ক্রমবর্ধমান অসম্ভব হয়ে উঠছে। উদাহরণস্বরূপ, এমনকি Llama 4 Scout এর ক্ষুদ্রতম বৈকল্পিকও ১০৯০ বিলিয়ন পরামিতি অন্তর্ভুক্ত করে, এবং অর্ধ-নির্ভুলতা ব্যবহার করলেও সম্পূর্ণ সূক্ষ্ম-সুরক্ষা ১TB এর বেশি GPU মেমরি এবং উল্লেখযোগ্য সময় প্রয়োজন।
এই পত্রটি LoRA এর সীমাবদ্ধতা অতিক্রম করার লক্ষ্য রাখে গতিশীলভাবে সর্বোত্তম নিম্ন-র্যাঙ্ক অভিযোজক চিহ্নিত করে, ক্রমাগত নিম্ন-র্যাঙ্ক বৃদ্ধি স্ট্যাক করে উচ্চ-র্যাঙ্ক ওজন আপডেট গঠন করে, গণনামূলক দক্ষতা বজায় রেখে।
একটি সাধারণ মডেল ওজন ম্যাট্রিক্স বিবেচনা করুন, LoRA এটিকে এ বিয়োজিত করে, যেখানে হল হিমায়িত প্রশিক্ষণ-পূর্ব ওজন, হল শেখার যোগ্য সূক্ষ্ম-সুরক্ষা আপডেট, , , এবং ।
LoRA এর এ স্থির থাকার বিপরীতে, ScaLoRA এর মূল ধারণা হল প্রতিটি পুনরাবৃত্তিতে "সর্বোত্তম" নিম্ন-র্যাঙ্ক অভিযোজক গতিশীলভাবে চিহ্নিত করা, ক্ষতি হ্রাস সর্বাধিক করে:
উপপাদ্য ১ (সর্বোত্তম শর্ত): SVD বিবেচনা করুন, যদি এবং Lipschitz মসৃণতা অনুমান সন্তুষ্ট করে, তাহলে ক্ষতি উপরের সীমা ন্যূনতম করে যখন এবং শুধুমাত্র যখন:
যেখানে , , ।
SVD এর গণনামূলক খরচ এড়াতে, ScaLoRA , এ সীমাবদ্ধ।
উপপাদ্য ৩ (স্কেলার স্কেলিং সর্বোত্তম সমাধান): অনুমান ১-২ এর অধীনে, উদ্দেশ্য ফাংশনের বৈশ্বিক ন্যূনতম দ্বারা দেওয়া হয়:
\left(\pm\frac{\|A_t^T\nabla\ell(W_t)\|_F}{\sqrt{L\eta\|A_tA_t^T\nabla\ell(W_t)\|_F}}, 0\right) & \text{যদি } C_t^A > 0, C_t^B \leq 0 \\ \left(0, \pm\frac{\|\nabla\ell(W_t)B_t\|_F}{\sqrt{L\eta\|\nabla\ell(W_t)B_tB_t^T\|_F}}\right) & \text{যদি } C_t^A \leq 0, C_t^B > 0 \\ \left(\pm\sqrt{\frac{C_t^A}{L\eta C_t}}, \pm\sqrt{\frac{C_t^B}{L\eta C_t}}\right) & \text{যদি } C_t^A \geq 0, C_t^B \geq 0, C_t > 0 \end{cases}$$ ### কলাম স্কেলিং এর সর্বোত্তম সমাধান ফিটিং ক্ষমতা উন্নত করতে, ScaLoRA আরও কলাম স্কেলিং বিবেচনা করে $\tilde{A}_t = A_t\text{diag}(\alpha_t)$, $\tilde{B}_t = B_t\text{diag}(\beta_t)$। **উপপাদ্য ৫ (কলাম স্কেলিং সর্বোত্তম সমাধান)**: যদি রৈখিক সমীকরণ $[(S_t^{A\top}S_t^A) \odot (S_t^{B\top}S_t^B)]v_t = \lambda_t$ একটি অ-নেতিবাচক সমাধান $v_t \in \mathbb{R}_+^{2r}$ থাকে, তাহলে বৈশ্বিক ন্যূনতম হল: $$\begin{bmatrix} \alpha_t^* \\ \beta_t^* \end{bmatrix} = \pm\frac{1}{\sqrt{L\eta}}v_t^{\circ\frac{1}{2}}$$ ### ScaLoRA অ্যালগরিদম প্রবাহ ScaLoRA একটি মিশ্র স্কেলিং কৌশল গ্রহণ করে: 1. যখন রৈখিক সিস্টেমের ইতিবাচক সমাধান থাকে, কলাম স্কেলিং ব্যবহার করুন 2. অন্যথায়, স্কেলার স্কেলিং ব্যবহার করুন 3. সংশ্লিষ্ট লেম্মা অনুযায়ী ম্যাট্রিক্স অনুমানকারী আপডেট করুন ### জটিলতা বিশ্লেষণ - **সময় জটিলতা**: $O(mnr + (m+n+r)r^2)$ - **স্থান জটিলতা**: $O((m+n+r)r)$ - **ScaLoRA-I বৈকল্পিক**: প্রতি I পুনরাবৃত্তিতে একবার সম্পাদিত, সময় জটিলতা পরিশোধিত $O((mnr+(m+n+r)r^2)/I)$ ## পরীক্ষামূলক সেটআপ ### ডেটাসেট 1. **GLUE বেঞ্চমার্ক**: ৮টি প্রাকৃতিক ভাষা বোঝার কাজ 2. **সাধারণ জ্ঞান যুক্তি**: BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-easy, ARC-challenge, OpenBookQA 3. **গাণিতিক সমস্যা সমাধান**: MetaMathQA (প্রশিক্ষণ), GSM8K এবং MATH (পরীক্ষা) ### মডেল - **DeBERTaV3-base** (১৮৪M পরামিতি): GLUE কাজের জন্য - **LLaMA-2-7B** এবং **LLaMA-3-8B**: সাধারণ জ্ঞান যুক্তির জন্য - **Gemma-3-12B-pt**: গাণিতিক সমস্যা সমাধানের জন্য ### তুলনামূলক পদ্ধতি - LoRA (ভিত্তিরেখা) - MoRA: উচ্চ-র্যাঙ্ক আপডেট বৈকল্পিক - HiRA: Hadamard উচ্চ-র্যাঙ্ক অভিযোজন - LoRA (r=32): উচ্চ-র্যাঙ্ক LoRA উপরের সীমা হিসাবে ### পরীক্ষামূলক কনফিগারেশন - LoRA র্যাঙ্ক: r=4 (GLUE), r=8 (সাধারণ জ্ঞান যুক্তি এবং গণিত) - অপ্টিমাইজার: AdamW - শেখার হার: গ্রিড অনুসন্ধানের মাধ্যমে নির্বাচিত - মূল্যায়ন মেট্রিক্স: নির্ভুলতা, F1 স্কোর, Matthews সম্পর্ক সহগ ইত্যাদি ## পরীক্ষামূলক ফলাফল ### GLUE বেঞ্চমার্ক পরীক্ষার ফলাফল DeBERTaV3-base এ ফলাফল দেখায়: - ScaLoRA ৮টি কাজের মধ্যে ৭টিতে সর্বোত্তম কর্মক্ষমতা অর্জন করে - গড় কর্মক্ষমতা উন্নতি ০.৫%+ - RTE কাজে ৮৭.৬১±০.৩৪ নির্ভুলতা অর্জন করে, অন্যান্য পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল ### সাধারণ জ্ঞান যুক্তির ফলাফল **LLaMA-2-7B**: - ScaLoRA: ৭৪.৫১% (গড়) - ScaLoRA-I: ৭৪.৭৫% (গড়) - LoRA: ৭৩.৬৩% (গড়) - কর্মক্ষমতা উন্নতি প্রায় ১% **LLaMA-3-8B**: - ScaLoRA: ৭৭.৮৫% (গড়) - ScaLoRA-I: ৭৭.৫৭% (গড়) - LoRA: ৭৬.৮৩% (গড়) - এমনকি LoRA (r=32) এর ৭৭.৫৪% অতিক্রম করে ### গাণিতিক সমস্যা সমাধানের ফলাফল Gemma-3-12B এ: - **GSM8K**: ScaLoRA-I (৮২.১১%) বনাম LoRA (৮১.২০%) - **MATH**: ScaLoRA-I (৩৭.৯৬%) বনাম LoRA (৩৭.২০%) ### গণনামূলক খরচ বিশ্লেষণ LLaMA-3-8B ব্যবহার করে খরচ তুলনা: - **সময় খরচ**: ScaLoRA LoRA এর তুলনায় প্রায় ৫০% বৃদ্ধি করে, কিন্তু ScaLoRA-I খরচ উপেক্ষণীয় - **মেমরি খরচ**: ScaLoRA শুধুমাত্র ০.০১GB বৃদ্ধি করে, HiRA এর ৭.৮৩GB এর চেয়ে অনেক কম ### মূল অনুসন্ধান 1. **র্যাঙ্ক বৃদ্ধি**: ScaLoRA ক্রমান্বয়ে ওজন আপডেটের র্যাঙ্ক প্রাথমিক ৪ থেকে গড় ৫৪ এ বৃদ্ধি করে 2. **সংমিশ্রণ গতি**: ScaLoRA vanilla LoRA এর চেয়ে উল্লেখযোগ্যভাবে দ্রুত সংমিশ্রিত হয় 3. **শর্ত সন্তুষ্টির হার**: প্রায় ৮০% LoRA স্তর কলাম স্কেলিং এর অ-নেতিবাচক শর্ত সন্তুষ্ট করে ## সম্পর্কিত কাজ ### LoRA বৈকল্পিক - **DoRA**: ওজন বিয়োজন প্রশস্ততা এবং দিক উপাদানে - **QLoRA**: প্রশিক্ষণ-পূর্ব ওজন পরিমাণ করা আরও গণনামূলক খরচ হ্রাস করতে - **FourierFT**: নিম্ন-র্যাঙ্ক ম্যাট্রিক্স প্রতিস্থাপন করে বর্ণালী সহগ দিয়ে - **Flora**: ওজন গ্রেডিয়েন্ট এনকোড এবং ডিকোড করতে র্যান্ডম প্রজেকশন ব্যবহার করে ### উচ্চ-র্যাঙ্ক আপডেট পদ্ধতি - **ReLoRA**: ক্যাসকেড নিম্ন-র্যাঙ্ক অভিযোজক কিন্তু অপ্টিমাইজেশন পুনরায় শুরু প্রয়োজন - **MoRA**: রৈখিক ম্যাট্রিক্স গুণন প্রতিস্থাপন করে অ-রৈখিক ম্যাপিং দিয়ে - **HiRA**: ওজন আপডেট প্যারামিটারাইজ করে নিম্ন-র্যাঙ্ক ম্যাট্রিক্স এবং প্রশিক্ষণ-পূর্ব ওজনের Hadamard পণ্য হিসাবে ## উপসংহার এবং আলোচনা ### প্রধান উপসংহার 1. ScaLoRA গতিশীল সর্বোত্তম স্কেলিং এর মাধ্যমে সফলভাবে উচ্চ-র্যাঙ্ক ওজন আপডেট বাস্তবায়ন করে 2. তাত্ত্বিক বিশ্লেষণ বিশ্লেষণাত্মক রূপে সর্বোত্তম সমাধান প্রদান করে 3. পরীক্ষা বিভিন্ন কাজে সামঞ্জস্যপূর্ণ কর্মক্ষমতা উন্নতি এবং দ্রুত সংমিশ্রণ প্রমাণ করে ### সীমাবদ্ধতা 1. **গণনামূলক খরচ**: LoRA এর তুলনায় প্রায় ৫০% গণনামূলক সময় বৃদ্ধি 2. **সংরক্ষণ প্রয়োজন**: সম্পূর্ণ ওজন ম্যাট্রিক্স সংরক্ষণ করতে হবে শুধুমাত্র নিম্ন-মাত্রিক অভিযোজক নয় 3. **স্কেলেবিলিটি**: মডেল আকার বৃদ্ধির সাথে সাথে, গণনামূলক খরচ স্কেলেবিলিটি সীমাবদ্ধ করে ### ভবিষ্যত দিকনির্দেশনা 1. গণনামূলক দক্ষতা আরও অপ্টিমাইজ করা 2. আরও দক্ষ উচ্চ-র্যাঙ্ক আপডেট কৌশল অন্বেষণ করা 3. বৃহত্তর স্কেলের মডেলে সম্প্রসারণ করা ## গভীর মূল্যায়ন ### সুবিধা 1. **তাত্ত্বিক কঠোরতা**: সম্পূর্ণ গাণিতিক বিশ্লেষণ এবং প্রমাণ প্রদান করে 2. **পদ্ধতি উদ্ভাবন**: SVD এর গণনামূলক খরচ এড়াতে স্কেলিং এর মাধ্যমে চতুরভাবে 3. **পরীক্ষা ব্যাপক**: বিভিন্ন কাজ এবং মডেল স্কেল জুড়ে বিস্তৃত 4. **ব্যবহারিক শক্তি**: ScaLoRA-I বৈকল্পিক কর্মক্ষমতা এবং দক্ষতা ভারসাম্য করে ### অপূর্ণতা 1. **গণনামূলক খরচ**: এখনও মূল LoRA এর তুলনায় উল্লেখযোগ্য গণনা বৃদ্ধি 2. **সংরক্ষণ সীমাবদ্ধতা**: সম্পূর্ণ ওজন ম্যাট্রিক্সের সংরক্ষণ বাধা হতে পারে 3. **তাত্ত্বিক অনুমান**: কিছু অনুমান বাস্তব প্রয়োগে সম্পূর্ণভাবে সন্তুষ্ট নাও হতে পারে ### প্রভাব 1. **একাডেমিক অবদান**: পরামিতি-দক্ষ সূক্ষ্ম-সুরক্ষার জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করে 2. **ব্যবহারিক মূল্য**: দক্ষতা বজায় রেখে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে 3. **পুনরুৎপাদনযোগ্যতা**: সম্পূর্ণ অ্যালগরিদম এবং বাস্তবায়ন বিবরণ প্রদান করে ### প্রযোজ্য পরিস্থিতি 1. উচ্চ-মানের সূক্ষ্ম-সুরক্ষা প্রয়োজন কিন্তু গণনামূলক সম্পদ সীমিত পরিস্থিতি 2. সংমিশ্রণ গতির প্রতি উচ্চ প্রয়োজনীয়তা সহ অ্যাপ্লিকেশন 3. মাঝারি-স্কেল মডেলের দক্ষ সূক্ষ্ম-সুরক্ষা ## সংদর্ভ পত্রটি LoRA এবং এর বৈকল্পিক, পরামিতি-দক্ষ সূক্ষ্ম-সুরক্ষা, বৃহৎ ভাষা মডেল ইত্যাদি সম্পর্কিত ক্ষেত্রের গুরুত্বপূর্ণ কাজ জুড়ে ৬২টি সম্পর্কিত সংদর্ভ উদ্ধৃত করে, গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে। --- **সারসংক্ষেপ**: ScaLoRA একটি তাত্ত্বিক এবং ব্যবহারিক উভয় ক্ষেত্রেই গুরুত্বপূর্ণ অবদান সহ একটি কাজ, চতুর গাণিতিক বিশ্লেষণের মাধ্যমে LoRA এর মূল সীমাবদ্ধতা সমাধান করে, গণনামূলক দক্ষতা বজায় রেখে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে। পদ্ধতিটি বৃহৎ ভাষা মডেলের পরামিতি-দক্ষ সূক্ষ্ম-সুরক্ষার জন্য নতুন চিন্তাভাবনা এবং সরঞ্জাম প্রদান করে।