2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin

Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.

academic

MiSS: LoRA-তে ট্রেড-অফ পুনর্বিবেচনা একটি দক্ষ শার্ড-শেয়ারিং কাঠামোর সাথে

মৌলিক তথ্য

পেপার আইডি: 2409.15371
শিরোনাম: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
লেখক: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
শ্রেণীবিভাগ: cs.CL cs.AI
প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv প্রিপ্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2409.15371v11

সারসংক্ষেপ

লো-র্যাঙ্ক অ্যাডাপ্টেশন (LoRA) একটি ব্যাপকভাবে গৃহীত প্যারামিটার-দক্ষ ফাইন-টিউনিং কৌশল, কিন্তু এর ধীর সংযোজনের সমস্যা অসংখ্য ভেরিয়েন্টের উন্নয়নকে অনুপ্রাণিত করেছে। তবে, বিদ্যমান পদ্ধতিগুলি প্রায়শই কর্মক্ষমতা, মেমরি ব্যবহার এবং গণনামূলক দক্ষতা একসাথে উন্নত করতে পারে না। এই চ্যালেঞ্জ মোকাবেলা করার জন্য, এই পেপারটি LoRA-র ধীর সংযোজনের মূল কারণ পুনর্বিবেচনা করে। এই অন্তর্দৃষ্টির উপর ভিত্তি করে, লেখকরা ম্যাট্রিক্স শার্ড শেয়ারিং (MiSS) পদ্ধতি প্রস্তাব করেন, যা একটি একক ভাগ করা প্রশিক্ষণযোগ্য ম্যাট্রিক্স $\boldsymbol{D}$ (শূন্যে আরম্ভ করা) ব্যবহার করে মূল ওজন ম্যাট্রিক্সের শার্ডগুলি আপডেট করে। গণনামূলক দক্ষতা, কম মেমরি ব্যবহার এবং স্কেলেবল সেবা নিশ্চিত করার জন্য, লেখকরা MiSS $^e$ চালু করেন। তাত্ত্বিক বিশ্লেষণ এবং পরীক্ষামূলক ফলাফল উভয়ই দেখায় যে এই পদ্ধতিটি কর্মক্ষমতা ক্ষতি ছাড়াই অপ্টিমাইজেশন জটিলতা হ্রাস করে, যার ফলে কর্মক্ষমতা, মেমরি এবং দক্ষতার মধ্যে আরও অনুকূল ট্রেড-অফ অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বৃহৎ ভাষা মডেল (LLMs)-এর সম্পূর্ণ-প্যারামিটার ফাইন-টিউনিং গণনামূলকভাবে নিষিদ্ধ, তাই প্যারামিটার-দক্ষ ফাইন-টিউনিং (PEFT) কৌশল উদ্ভূত হয়েছে। LoRA সবচেয়ে বিশিষ্ট PEFT পদ্ধতিগুলির মধ্যে একটি হিসাবে, নিম্ন-র্যাঙ্ক বিয়োজনের মাধ্যমে ওজন আপডেট অনুমান করে: $\Delta W \approx BA$ , যেখানে $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , এবং $r \ll \min(d,k)$ ।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

ধীর সংযোজন: LoRA সম্পূর্ণ-প্যারামিটার ফাইন-টিউনিংয়ের তুলনায় উল্লেখযোগ্যভাবে ধীর সংযোজন প্রদর্শন করে
অপ্টিমাইজেশন জটিলতা: ম্যাট্রিক্স A এবং B উভয়ই একসাথে আপডেট করার প্রয়োজন, যা অপ্টিমাইজেশন জটিলতা বৃদ্ধি করে
ট্রেড-অফ কঠিনতা: বিদ্যমান LoRA ভেরিয়েন্টগুলি কর্মক্ষমতা, মেমরি এবং দক্ষতার তিনটি মাত্রায় ভারসাম্য অর্জন করা কঠিন

গবেষণা প্রেরণা

S2FT এবং LoRA+ এর মতো পদ্ধতিগুলি বিশ্লেষণ করে, লেখকরা আবিষ্কার করেন যে LoRA-র ধীর সংযোজনের মূল কারণ হল দুটি ম্যাট্রিক্স একসাথে অপ্টিমাইজ করার প্রয়োজন। "একক ম্যাট্রিক্স প্রশিক্ষণ অপ্টিমাইজেশন সরল করতে পারে অভিব্যক্তি ক্ষমতা ত্যাগ ছাড়াই" এই অনুমানের উপর ভিত্তি করে, লেখকরা MiSS পদ্ধতি প্রস্তাব করেন।

মূল অবদান

MiSS পদ্ধতি প্রস্তাব: শার্ড-শেয়ারিং মেকানিজম সহ একটি দক্ষ এবং অভিযোজনযোগ্য কাঠামো, যা কর্মক্ষমতা, মেমরি দক্ষতা এবং গণনামূলক দক্ষতার তিনটি মূল বৈশিষ্ট্যের মধ্যে কার্যকর ভারসাম্য অর্জন করে
তাত্ত্বিক এবং পরীক্ষামূলক যাচাইকরণ: বিস্তৃত পরীক্ষার মাধ্যমে বৈচিত্র্যময় ডেটাসেট এবং মডেল আর্কিটেকচারে MiSS-এর উচ্চতর প্রমাণিত করে
ব্যাপক PEFT পদ্ধতি তুলনা: মেমরি ব্যবহার, আরম্ভ ওভারহেড এবং গণনামূলক দক্ষতার ক্ষেত্রে একাধিক PEFT পদ্ধতির সমন্বিত মূল্যায়ন প্রদান করে
Pareto সীমান্ত বিশ্লেষণ: এই মাত্রাগুলির Pareto সীমান্ত ম্যাপিং করে, MiSS একটি অনুকূল অবস্থান দখল করে প্রমাণ করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্রাক-প্রশিক্ষিত ওজন ম্যাট্রিক্স $W_0 \in \mathbb{R}^{d \times k}$ দেওয়া, লক্ষ্য হল একটি প্যারামিটার-দক্ষ আপডেট $\Delta W$ শিখা, যাতে ফাইন-টিউন করা মডেল ডাউনস্ট্রিম কাজে ভালো পারফর্ম করে, একই সাথে প্রশিক্ষণযোগ্য প্যারামিটার সংখ্যা এবং গণনামূলক ওভারহেড কমিয়ে আনে।

মডেল আর্কিটেকচার

MiSS মৌলিক ফর্ম

MiSS ওজন আপডেটকে ছোট প্রশিক্ষণযোগ্য ম্যাট্রিক্স $D$ থেকে সম্প্রসারণ অপারেশনের মাধ্যমে উৎপাদিত বৃহৎ ম্যাট্রিক্স হিসাবে সংজ্ঞায়িত করে:

$W = W_0 + \Delta W = W_0 + \text{expand}(D)$ $y = W_0x + \text{expand}(D)x$

যেখানে $D \in \mathbb{R}^{r_1 \times r_2}$ , $(r_1, r_2) \ll \min(d,k)$ ।

সম্প্রসারণ মেকানিজম

আউটপুট মাত্রা $d$ কে $N$ টি শার্ডে বিভক্ত করুন, আকার $\{s_1, s_2, \ldots, s_N\}$ , যেখানে $\sum_{i=1}^N s_i = d$ । প্রতিটি শার্ড $i$ -এর জন্য, এর আপডেট $D$ -এর $i$ -তম সারি $D_i$ দ্বারা $s_i$ বার পুনরাবৃত্তি দ্বারা নির্ধারিত হয়:

$(\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]$

MiSS $^e$ দক্ষ বাস্তবায়ন

বৃহৎ ম্যাট্রিক্স স্পষ্টভাবে গঠন এড়াতে, MiSS $^e$ $D \in \mathbb{R}^{r \times d}$ পুনর্সংজ্ঞায়িত করে, ইনপুট মাত্রা $k$ কে $r$ টি ব্লকে বিভক্ত করে:

$x = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}$

$S = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}$

$\Delta Wx = D^T S, \quad y = W_0x + D^T S$

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

একক-ম্যাট্রিক্স অপ্টিমাইজেশন: LoRA-র তুলনায় যা A এবং B দুটি ম্যাট্রিক্স একসাথে অপ্টিমাইজ করতে হয়, MiSS শুধুমাত্র একক ম্যাট্রিক্স D অপ্টিমাইজ করতে হয়, অপ্টিমাইজেশন জটিলতা হ্রাস করে
শার্ড-শেয়ারিং মেকানিজম: পুনরাবৃত্ত ম্যাট্রিক্স কাঠামোর মাধ্যমে নিম্ন-র্যাঙ্ক বৈশিষ্ট্য অর্জন করে, একই সাথে অভিব্যক্তি ক্ষমতা বজায় রাখে
দক্ষ বাস্তবায়ন: MiSS $^e$ ব্লক-স্তরের ইনপুট সমন্বয়ের মাধ্যমে বৃহৎ ম্যাট্রিক্স স্পষ্ট সংরক্ষণ এড়ায়, মেমরি ব্যবহার উল্লেখযোগ্যভাবে হ্রাস করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রাকৃতিক ভাষা বোঝা (NLU): GLUE বেঞ্চমার্ক ডেটাসেট সাবসেট, MNLI, SST-2, CoLA, QNLI, MRPC অন্তর্ভুক্ত
প্রাকৃতিক ভাষা প্রজন্ম (NLG):
- গণিত কাজ: MetaMathQA ডেটাসেট (395k সাবসেট), GSM8K এবং MATH মূল্যায়ন
- কোড কাজ: CodeFeedback ডেটাসেট (100k সাবসেট), HumanEval এবং Mbpp মূল্যায়ন

মূল্যায়ন মেট্রিক্স

NLU কাজ: নির্ভুলতা
গণিত কাজ: GSM8K এবং MATH বেঞ্চমার্কে নির্ভুলতা
কোড কাজ: HumanEval এবং Mbpp-এ পাস রেট
দক্ষতা সূচক: প্রশিক্ষণ সময়, মেমরি ব্যবহার, আরম্ভ সময়

তুলনা পদ্ধতি

LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS এবং অন্যান্য একাধিক PEFT পদ্ধতি

বাস্তবায়ন বিবরণ

অপ্টিমাইজার: AdamW
শেখার হার: 2e-5
ব্যাচ আকার: 64-128
শেখার হার সময়সূচী: কোসাইন ক্ষয়
MiSS র্যাঙ্ক সেটিং: 16-128 (কাজ অনুযায়ী সামঞ্জস্য)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

NLU কাজের কর্মক্ষমতা

RoBERTa-base-এ GLUE বেঞ্চমার্ক পরীক্ষায়, MiSS CoLA ডেটাসেটে বিশেষভাবে দাঁড়িয়ে আছে, 72.86 স্কোর অর্জন করে, LoRA(62.40) এবং PiSSA(67.28) উল্লেখযোগ্যভাবে অতিক্রম করে।

NLG কাজের কর্মক্ষমতা

একাধিক বৃহৎ ভাষা মডেলে পরীক্ষামূলক ফলাফল প্রদর্শন করে:

LLaMA2-7B:

GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)

Qwen3-4B:

Math: MiSS(34.82) অন্যান্য পদ্ধতি অনেক দূর অতিক্রম করে, PiSSA(26.00), DoRA(21.73), LoRA(15.20)

গ্রেডিয়েন্ট নর্ম বিশ্লেষণ

প্রাথমিক গ্রেডিয়েন্ট নর্ম বিশ্লেষণ MiSS-এর ডিজাইন দর্শন যাচাই করে। পরীক্ষা দেখায় যে MiSS অন্যান্য উন্নত LoRA ভেরিয়েন্টের মতো, মান LoRA-র চেয়ে বৃহত্তর প্রাথমিক গ্রেডিয়েন্ট নর্ম রয়েছে, যা দ্রুত প্রাথমিক সংযোজনের সাথে সম্পর্কিত।

দক্ষতা বিশ্লেষণ

জটিলতা তুলনা

পদ্ধতি	স্থান জটিলতা	সময় জটিলতা
Full	O(dk)	O(bld(d+k))
LoRA	O(dr+rk)	O(blr(d+k))
MiSS	O(dr)	O(bldk)
MiSS $^e$	O(dr)	O(blr(d+k/r))

Pareto সীমান্ত বিশ্লেষণ

LLaMA-3.2-3B-এ সমন্বিত মূল্যায়ন দেখায় যে MiSS কর্মক্ষমতা-দক্ষতা ট্রেড-অফে সর্বোত্তম অবস্থান দখল করে, সর্বোত্তম পরীক্ষা নির্ভুলতা (0.5080) অর্জন করে একই সাথে কম মেমরি ব্যবহার এবং প্রশিক্ষণ সময় বজায় রাখে।

অপসারণ পরীক্ষা

র্যাঙ্ক প্যারামিটার প্রভাব

LLaMA2-7B-এ বিভিন্ন র্যাঙ্ক মান পরীক্ষা করুন:

rank=16: GSM8K(45.90), Math(3.77), প্যারামিটার 21.7M
rank=32: GSM8K(46.18), Math(7.43), প্যারামিটার 43.5M
rank=64: GSM8K(48.16), Math(8.58), প্যারামিটার 87.0M
rank=128: GSM8K(53.49), Math(10.08), প্যারামিটার 174.0M

ফলাফল দেখায় যে কর্মক্ষমতা র্যাঙ্কের সাথে একঘেয়েভাবে বৃদ্ধি পায়, rank=64 কর্মক্ষমতা-প্যারামিটার ট্রেড-অফের জন্য ভালো প্রদান করে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

একক-ম্যাট্রিক্স অপ্টিমাইজেশন: প্রমাণ করে যে একক-ম্যাট্রিক্স অপ্টিমাইজেশন দ্বি-ম্যাট্রিক্স অপ্টিমাইজেশনের তুলনায় অপ্টিমাইজেশন জটিলতা হ্রাস করতে এবং সংযোজন ত্বরান্বিত করতে পারে
কার্যকর ট্রেড-অফ: MiSS কর্মক্ষমতা, মেমরি এবং গণনামূলক দক্ষতার তিনটি মাত্রায় ভালো ভারসাম্য অর্জন করে
ব্যাপক প্রযোজ্যতা: একাধিক মডেল আর্কিটেকচার এবং কাজের ধরনে সামঞ্জস্যপূর্ণ উচ্চতর প্রদর্শন করে

সীমাবদ্ধতা

তাত্ত্বিক বিশ্লেষণের গভীরতা: যদিও জটিলতা বিশ্লেষণ প্রদান করা হয়েছে, কেন একক-ম্যাট্রিক্স অপ্টিমাইজেশন আরও কার্যকর তার তাত্ত্বিক ব্যাখ্যা যথেষ্ট গভীর নয়
হাইপারপ্যারামিটার সংবেদনশীলতা: বিভিন্ন কাজ এবং মডেলের জন্য, র্যাঙ্ক প্যারামিটারের সর্বোত্তম পছন্দ অতিরিক্ত সমন্বয়ের প্রয়োজন হতে পারে
সম্প্রসারণ মেকানিজমের সর্বজনীনতা: বর্তমান শার্ড সম্প্রসারণ কৌশল সর্বোত্তম নাও হতে পারে, উন্নতির জায়গা রয়েছে

ভবিষ্যত দিকনির্দেশনা

তাত্ত্বিক ভিত্তি: একক-ম্যাট্রিক্স অপ্টিমাইজেশনের তাত্ত্বিক ভিত্তি গভীরভাবে গবেষণা করুন
স্বয়ংক্রিয় র্যাঙ্ক নির্বাচন: সর্বোত্তম র্যাঙ্ক স্বয়ংক্রিয়ভাবে নির্বাচন করার পদ্ধতি বিকাশ করুন
মাল্টিমোডাল সম্প্রসারণ: MiSS কে মাল্টিমোডাল কাজে সম্প্রসারিত করুন

গভীর মূল্যায়ন

শক্তি

শক্তিশালী উদ্ভাবনী: প্রস্তাবিত শার্ড-শেয়ারিং মেকানিজম একটি নতুন এবং কার্যকর চিন্তাভাবনা
পর্যাপ্ত পরীক্ষা: একাধিক মডেল, ডেটাসেট এবং মূল্যায়ন মাত্রা কভার করে, পরীক্ষা ডিজাইন যুক্তিসঙ্গত
উচ্চ ব্যবহারিক মূল্য: কর্মক্ষমতা বজায় রেখে দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে, শক্তিশালী ব্যবহারিকতা রয়েছে
ব্যাপক বিশ্লেষণ: গ্রেডিয়েন্ট নর্ম, জটিলতা, Pareto সীমান্ত ইত্যাদি একাধিক কোণ থেকে গভীর বিশ্লেষণ করেছে

অপূর্ণতা

তাত্ত্বিক ব্যাখ্যা: MiSS কেন একক-ম্যাট্রিক্স অপ্টিমাইজেশনের অধীনে অভিব্যক্তি ক্ষমতা বজায় রাখতে পারে তার তাত্ত্বিক ব্যাখ্যা যথেষ্ট গভীর নয়
বেঞ্চমার্ক তুলনা: কিছু সর্বশেষ PEFT পদ্ধতির সাথে তুলনা অনুপস্থিত
দীর্ঘ ক্রম কর্মক্ষমতা: দীর্ঘ ক্রম কাজে পারফরম্যান্স পর্যাপ্তভাবে পরীক্ষা করা হয়নি

প্রভাব

একাডেমিক অবদান: PEFT ক্ষেত্রে নতুন ডিজাইন চিন্তাভাবনা প্রদান করে, আরও সম্পর্কিত গবেষণা অনুপ্রাণিত করতে পারে
ব্যবহারিক মূল্য: পদ্ধতি সহজ এবং কার্যকর, বাস্তবায়ন এবং স্থাপনা সহজ
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং ওপেন-সোর্স কোড প্রদান করেছে

প্রযোজ্য পরিস্থিতি

সম্পদ-সীমিত পরিবেশ: বিশেষত GPU মেমরি সীমিত পরিস্থিতিতে উপযুক্ত
বৃহৎ-স্কেল স্থাপনা: এর দক্ষতার কারণে, বৃহৎ-স্কেল স্থাপনা প্রয়োজন এমন অ্যাপ্লিকেশনের জন্য উপযুক্ত
মাল্টি-টাস্ক লার্নিং: মাল্টি-টাস্ক লার্নিংয়ে একটি দক্ষ অ্যাডাপ্টার হিসাবে ব্যবহার করা যেতে পারে

সংদর্ভ

পেপারটি LoRA, PiSSA, DoRA এবং অন্যান্য গুরুত্বপূর্ণ PEFT পদ্ধতি, এবং GSM8K, MATH এবং অন্যান্য মান মূল্যায়ন বেঞ্চমার্ক উদ্ধৃত করেছে, সম্পর্কিত গবেষণার জন্য ব্যাপক পটভূমি এবং তুলনা ভিত্তি প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের PEFT পদ্ধতি পেপার, প্রস্তাবিত MiSS পদ্ধতি তাত্ত্বিকভাবে নির্দিষ্ট উদ্ভাবনী, পরীক্ষা যাচাইকরণ পর্যাপ্ত, ব্যবহারিক মূল্য উচ্চতর। পেপারের প্রধান অবদান একক-ম্যাট্রিক্স অপ্টিমাইজেশনের মাধ্যমে কর্মক্ষমতা-দক্ষতার আরও ভালো ট্রেড-অফ অর্জন করা, PEFT ক্ষেত্রে নতুন গবেষণা দিকনির্দেশনা প্রদান করা।