2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin
Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
academic

MiSS: إعادة النظر في المقايضة في LoRA مع بنية مشاركة الأجزاء الفعالة

المعلومات الأساسية

  • معرّف الورقة: 2409.15371
  • العنوان: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
  • المؤلفون: Jiale Kang (Yuanshi Inc)، Qingyu Yin (Zhejiang University)
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 14 أكتوبر 2025 (نسخة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2409.15371v11

الملخص

التكيف منخفض الرتبة (LoRA) هو تقنية ضبط دقيق فعالة من حيث المعاملات تُستخدم على نطاق واسع، لكن مشكلة تقاربها البطيء أدت إلى تطوير العديد من المتغيرات. ومع ذلك، غالباً ما تفشل الطرق الموجودة في تحسين الأداء واستهلاك الذاكرة والكفاءة الحسابية في نفس الوقت. لمعالجة هذا التحدي، تعيد هذه الورقة النظر في الأسباب الجذرية للتقارب البطيء في LoRA. بناءً على هذه الرؤى، يقترح المؤلفون طريقة Matrix Shard Sharing (MiSS)، التي تستخدم مصفوفة قابلة للتدريب مشتركة واحدة D\boldsymbol{D} (مهيأة بالأصفار) لتحديث أجزاء مصفوفة الأوزان الأصلية. لضمان الكفاءة الحسابية واستهلاك الذاكرة المنخفض والخدمة القابلة للتوسع في نفس الوقت، يقدم المؤلفون MiSSe^e. يُظهر التحليل النظري والنتائج التجريبية أن الطريقة تقلل التعقيد الأمثل دون الإضرار بالأداء، مما يحقق مقايضة أكثر ملاءمة بين الأداء والذاكرة والكفاءة.

الخلفية البحثية والدافع

تعريف المشكلة

الضبط الدقيق الكامل للمعاملات لنماذج اللغة الكبيرة (LLMs) محظور حسابياً، لذلك ظهرت تقنيات الضبط الدقيق الفعال من حيث المعاملات (PEFT). يُعتبر LoRA أحد أبرز طرق PEFT، حيث يقرب تحديثات الأوزان من خلال التحليل منخفض الرتبة: ΔWBA\Delta W \approx BA، حيث BRd×rB \in \mathbb{R}^{d \times r}، ARr×kA \in \mathbb{R}^{r \times k}، و rmin(d,k)r \ll \min(d,k).

قيود الطرق الموجودة

  1. التقارب البطيء: يتقارب LoRA بشكل أبطأ بكثير من الضبط الدقيق الكامل للمعاملات
  2. التعقيد الأمثل: يتطلب تحديث المصفوفتين A و B في نفس الوقت، مما يزيد من التعقيد الأمثل
  3. صعوبة المقايضة: يصعب على متغيرات LoRA الموجودة تحقيق التوازن بين الأداء والذاكرة والكفاءة

دافع البحث

من خلال تحليل طرق S2FT و LoRA+، يكتشف المؤلفون أن السبب الرئيسي للتقارب البطيء في LoRA هو الحاجة إلى تحسين مصفوفتين في نفس الوقت. بناءً على الافتراض القائل بأن "تدريب مصفوفة واحدة يمكن أن يبسط الأمثل دون التضحية بقدرة التعبير"، يقترح المؤلفون طريقة MiSS.

المساهمات الأساسية

  1. اقتراح طريقة MiSS: بنية فعالة وقابلة للتكيف مع آلية مشاركة الأجزاء، تحقق توازناً فعالاً بين ثلاث خصائص رئيسية: الأداء وكفاءة الذاكرة والكفاءة الحسابية
  2. التحقق النظري والتجريبي: التحقق من تفوق MiSS على مجموعات بيانات ومعماريات نماذج متنوعة من خلال تجارب واسعة النطاق
  3. مقارنة شاملة لطرق PEFT: توفير تقييم شامل لطرق PEFT المختلفة من حيث استخدام الذاكرة والتكاليف الأولية والكفاءة الحسابية
  4. تحليل الحدود الفعالة: من خلال رسم حدود Pareto لهذه الأبعاد، يثبت أن MiSS تحتل موضعاً مفيداً

شرح الطريقة

تعريف المهمة

بالنظر إلى مصفوفة الأوزان المدربة مسبقاً W0Rd×kW_0 \in \mathbb{R}^{d \times k}، الهدف هو تعلم تحديث فعال من حيث المعاملات ΔW\Delta W بحيث يعمل النموذج المضبوط بشكل جيد على المهام النهائية، مع تقليل عدد المعاملات القابلة للتدريب والتكاليف الحسابية.

معمارية النموذج

شكل MiSS الأساسي

يعرّف MiSS تحديث الأوزان كمصفوفة كبيرة يتم إنشاؤها من مصفوفة قابلة للتدريب صغيرة DD من خلال عملية التوسيع:

W=W0+ΔW=W0+expand(D)W = W_0 + \Delta W = W_0 + \text{expand}(D)y=W0x+expand(D)xy = W_0x + \text{expand}(D)x

حيث DRr1×r2D \in \mathbb{R}^{r_1 \times r_2}، (r1,r2)min(d,k)(r_1, r_2) \ll \min(d,k).

آلية التوسيع

يتم تقسيم بُعد الإخراج dd إلى NN أجزاء بأحجام {s1,s2,,sN}\{s_1, s_2, \ldots, s_N\}، حيث i=1Nsi=d\sum_{i=1}^N s_i = d. لكل جزء ii، يتم تحديد تحديثه بواسطة الصف ii من DD وهو DiD_i مكرر sis_i مرات:

(expand(D))T=[(1s1D1)T(1s2D2)T(1sNDN)T](\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]

تطبيق MiSSe^e الفعال

لتجنب تشكيل مصفوفة كبيرة بشكل صريح، يعيد MiSSe^e تعريف DRr×dD \in \mathbb{R}^{r \times d}، مع تقسيم بُعد الإدخال kk إلى rr كتل:

x=[x(1),x(2),,x(r)],x(i)Rb×l×gx = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}

S=[j=1gx[:,:,j](1),j=1gx[:,:,j](2),,j=1gx[:,:,j](r)]Rb×l×rS = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}

ΔWx=DTS,y=W0x+DTS\Delta Wx = D^T S, \quad y = W_0x + D^T S

نقاط الابتكار التقني

  1. تحسين مصفوفة واحدة: بخلاف LoRA الذي يتطلب تحسين مصفوفتين A و B في نفس الوقت، يحتاج MiSS فقط إلى تحسين مصفوفة واحدة D، مما يقلل التعقيد الأمثل
  2. آلية مشاركة الأجزاء: تحقيق الخاصية منخفضة الرتبة من خلال بنية مصفوفة مكررة، مع الحفاظ على قدرة التعبير
  3. التطبيق الفعال: يتجنب MiSSe^e التخزين الصريح للمصفوفات الكبيرة من خلال تجميع الإدخال على مستوى الكتل، مما يقلل استخدام الذاكرة بشكل كبير

إعداد التجارب

مجموعات البيانات

  1. فهم اللغة الطبيعية (NLU): مجموعة فرعية من معايير GLUE، تشمل MNLI و SST-2 و CoLA و QNLI و MRPC
  2. توليد اللغة الطبيعية (NLG):
    • المهام الرياضية: مجموعة بيانات MetaMathQA (مجموعة فرعية بـ 395k)، تقييم GSM8K و MATH
    • مهام الأكواد: مجموعة بيانات CodeFeedback (مجموعة فرعية بـ 100k)، تقييم HumanEval و Mbpp

مقاييس التقييم

  • مهام NLU: الدقة
  • المهام الرياضية: الدقة على معايير GSM8K و MATH
  • مهام الأكواد: معدل النجاح على HumanEval و Mbpp
  • مقاييس الكفاءة: وقت التدريب واستخدام الذاكرة ووقت التهيئة

طرق المقارنة

LoRA و PiSSA و DoRA و VeRA و AdaLoRA و ProLoRA و MoS وطرق PEFT أخرى متعددة

تفاصيل التطبيق

  • المُحسِّن: AdamW
  • معدل التعلم: 2e-5
  • حجم الدفعة: 64-128
  • جدول معدل التعلم: التحلل الجيبي
  • إعداد رتبة MiSS: 16-128 (يتم التعديل حسب المهمة)

نتائج التجارب

النتائج الرئيسية

أداء مهام NLU

في اختبار معايير GLUE على RoBERTa-base، يُظهر MiSS أداءً استثنائياً على مجموعة بيانات CoLA، حيث يحقق درجة 72.86، متفوقاً بشكل كبير على LoRA (62.40) و PiSSA (67.28).

أداء مهام NLG

تُظهر نتائج التجارب على نماذج لغة كبيرة متعددة:

LLaMA2-7B:

  • GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
  • Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
  • HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)

Qwen3-4B:

  • Math: MiSS(34.82) يتفوق بشكل كبير على الطرق الأخرى، PiSSA(26.00) و DoRA(21.73) و LoRA(15.20)

تحليل معايير التدرج

يتحقق تحليل معايير التدرج الأولية من فكرة تصميم MiSS. تُظهر التجارب أن MiSS، مثل متغيرات LoRA المحسّنة الأخرى، له معايير تدرج أولية أكبر من LoRA القياسي، وهذا مرتبط بتقارب أسرع في المراحل الأولى.

تحليل الكفاءة

مقارنة التعقيد

الطريقةالتعقيد المكانيالتعقيد الزمني
FullO(dk)O(bld(d+k))
LoRAO(dr+rk)O(blr(d+k))
MiSSO(dr)O(bldk)
MiSSe^eO(dr)O(blr(d+k/r))

تحليل الحدود الفعالة

يُظهر التقييم الشامل على LLaMA-3.2-3B أن MiSS تحتل الموضع الأمثل في المقايضة بين الأداء والكفاءة، محققة أفضل دقة اختبار (0.5080) مع الحفاظ على استخدام ذاكرة منخفض ووقت تدريب قصير.

التجارب الاستئصالية

تأثير معامل الرتبة

اختبار تأثير قيم رتبة مختلفة على LLaMA2-7B:

  • rank=16: GSM8K(45.90)، Math(3.77)، المعاملات 21.7M
  • rank=32: GSM8K(46.18)، Math(7.43)، المعاملات 43.5M
  • rank=64: GSM8K(48.16)، Math(8.58)، المعاملات 87.0M
  • rank=128: GSM8K(53.49)، Math(10.08)، المعاملات 174.0M

تُظهر النتائج أن الأداء يزداد بشكل رتيب مع الرتبة، حيث توفر rank=64 توازناً جيداً بين الأداء والمعاملات.

الأعمال ذات الصلة

تصنيف طرق تحسين LoRA

  1. التحسينات التكيفية: PiSSA و LoRA-GA و LoRA+ وغيرها، تركز بشكل أساسي على تغيير استراتيجيات التهيئة لتسريع التقارب
  2. تحسينات الكفاءة: VeRA و ProLoRA و MoS وغيرها، تركز على تقليل التكاليس الحسابية واستهلاك الذاكرة

المزايا النسبية للورقة

بالمقارنة مع الطرق الموجودة، يحقق MiSS من خلال استراتيجية تحسين مصفوفة واحدة تحسناً كبيراً في الكفاءة مع الحفاظ على الأداء، مما يتجنب عملية التهيئة المكلفة لطرق مثل PiSSA، وكذلك لا يتطلب متطلبات خاصة للمُحسِّن مثل طرق LoRA-GA.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. تحسين مصفوفة واحدة: يثبت أن تحسين مصفوفة واحدة مقابل تحسين مصفوفتين يمكن أن يقلل التعقيد الأمثل ويسرع التقارب
  2. مقايضة فعالة: يحقق MiSS توازناً أفضل بين الأداء والذاكرة والكفاءة الحسابية
  3. قابلية التطبيق الواسعة: يُظهر تفوقاً متسقاً عبر معماريات نماذج وأنواع مهام متعددة

القيود

  1. عمق التحليل النظري: بينما يوفر تحليل التعقيد، فإن التفسير النظري لسبب فعالية تحسين مصفوفة واحدة أكثر عمقاً
  2. حساسية المعاملات الفائقة: قد يتطلب اختيار قيمة الرتبة المثلى لمهام ونماذج مختلفة ضبطاً إضافياً
  3. عمومية آلية التوسيع: قد لا تكون استراتيجية توسيع الأجزاء الحالية مثالية، وهناك مجال للتحسين

الاتجاهات المستقبلية

  1. الأساس النظري: البحث العميق في الأساس النظري لتحسين مصفوفة واحدة
  2. اختيار الرتبة التكيفي: تطوير طرق لاختيار الرتبة المثلى تلقائياً
  3. التوسع متعدد الأنماط: توسيع MiSS إلى المهام متعددة الأنماط

التقييم المتعمق

المزايا

  1. ابتكار قوي: آلية مشاركة الأجزاء المقترحة هي فكرة جديدة وفعالة
  2. تجارب شاملة: تغطي نماذج وبيانات وأبعاد تقييم متعددة، مع تصميم تجريبي معقول
  3. قيمة عملية عالية: تحسين الكفاءة بشكل كبير مع الحفاظ على الأداء، مع قيمة عملية قوية جداً
  4. تحليل شامل: تحليل متعمق من وجهات نظر متعددة بما في ذلك معايير التدرج والتعقيد والحدود الفعالة

أوجه القصور

  1. التفسير النظري: التفسير النظري لسبب قدرة MiSS على الحفاظ على قدرة التعبير تحت تحسين مصفوفة واحدة غير كافٍ
  2. مقارنة المعايير: نقص المقارنة مع بعض طرق PEFT الحديثة
  3. أداء التسلسل الطويل: لم يتم اختبار الأداء بشكل كافٍ على مهام التسلسل الطويل

التأثير

  1. المساهمة الأكاديمية: توفير فكرة تصميم جديدة لمجال PEFT، قد تلهم المزيد من الأبحاث ذات الصلة
  2. القيمة العملية: الطريقة بسيطة وفعالة وسهلة التطبيق والنشر
  3. قابلية الاستنساخ: توفير تفاصيل تطبيق مفصلة وأكواد مفتوحة المصدر

السيناريوهات المناسبة

  1. البيئات محدودة الموارد: مناسبة بشكل خاص للسيناريوهات التي تكون فيها ذاكرة GPU محدودة
  2. النشر على نطاق واسع: بسبب كفاءتها، مناسبة للتطبيقات التي تتطلب نشراً على نطاق واسع
  3. التعلم متعدد المهام: يمكن أن تكون بمثابة محول فعال في التعلم متعدد المهام

المراجع

تستشهد الورقة بطرق PEFT المهمة مثل LoRA و PiSSA و DoRA، وكذلك معايير التقييم القياسية مثل GSM8K و MATH، مما يوفر خلفية شاملة وأساساً للمقارنة للأبحاث ذات الصلة.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال طرق PEFT، تقترح طريقة MiSS ذات ابتكار معين من الناحية النظرية، مع تحقق تجريبي شامل وقيمة عملية عالية. تكمن المساهمة الرئيسية للورقة في تحقيق توازن أفضل بين الأداء والكفاءة من خلال تحسين مصفوفة واحدة، مما يوفر اتجاهاً بحثياً جديداً لمجال PEFT.