2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

حول متجهات المهام والتدرجات

المعلومات الأساسية

  • معرّف الورقة: 2508.16082
  • العنوان: On Task Vectors and Gradients
  • المؤلفون: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • التصنيف: cs.LG, cs.AI
  • وقت النشر/المؤتمر: ورشة عمل NeurIPS 2025: UniReps
  • رابط الورقة: https://arxiv.org/abs/2508.16082

الملخص

تعتبر حسابات المهام (Task Arithmetic) تقنية دمج نماذج بسيطة وقوية، تمكّن من دمج عدة نماذج مضبوطة بدقة في نموذج موحد واحد. على الرغم من الأداء الممتازة في التجارب، إلا أنها تفتقر إلى شرح نظري واضح يوضح آلية عملها والشروط المطبقة عليها. تقدم هذه الورقة أساساً نظرياً صارماً لحسابات المهام من خلال إقامة صلة بين متجهات المهام وتدرجات خسارة المهام. تُظهر الدراسة أنه في ظل ظروف الانحدار التدريجي القياسي، فإن متجه المهام الناتج من ضبط دقيق لحقبة واحدة يكافئ تماماً التدرج السالب للخسارة مضروباً في معدل التعلم. بالنسبة لإعدادات متعددة الحقب العملية، يكون هذا التكافؤ تقريبياً مع وجود حد خطأ من الدرجة الثانية، يقدم المؤلفون حدوداً صريحة للشبكات الأمامية. تتحقق التجارب على سبعة معايير بصرية من النظرية، مما يثبت أن تدرج الحقبة الأولى يهيمن على مسار الضبط الدقيق من حيث القاعدة والاتجاه. الاكتشاف المهم هو أن دمج النماذج المضبوطة بدقة لحقبة واحدة فقط يحقق عادة أداءً مماثلة لدمج النماذج المتقاربة بالكامل.

خلفية البحث والدافع

خلفية المشكلة

أصبح نموذج التدريب المسبق والضبط الدقيق حجر الأساس في التعلم العميق، مما يمكّن النماذج العامة الكبيرة من التكيف مع عدد لا يحصى من المهام المحددة. ومع ذلك، يأتي هذا النجاح بتكلفة كبيرة: تخزين نموذج مضبوط بدقة منفصل لكل مهمة يؤدي إلى نفقات تخزين ضخمة، وتتفاقم هذه التحديات مع نمو عدد التطبيقات المتخصصة.

المشاكل الأساسية

  1. مشكلة كفاءة التخزين: تتطلب كل مهمة نموذجاً مضبوطاً بدقة مستقلاً، مما يؤدي إلى نمو خطي في تكاليف التخزين
  2. نقص الفهم النظري: على الرغم من أداء حسابات المهام الجيدة في التجارب، إلا أنها تفتقر إلى شرح نظري صارم
  3. عدم وضوح استراتيجية الضبط الدقيق الأمثل: من غير الواضح مدة الضبط الدقيق الأمثل لدمج النماذج

قيود الطرق الموجودة

  • تتمتع حسابات المهام بالبساطة والفعالية، لكنها تفتقر إلى أساس نظري
  • لاحظت الأعمال السابقة فقط من خلال الملاحظة التجريبية أن متجهات المهام من الضبط الدقيق قصير المدى أكثر ملاءمة للدمج، لكن بدون شرح صارم
  • يفتقد التحليل الرياضي لعلاقة متجهات المهام بالتدرجات

دافع البحث

تهدف هذه الورقة إلى سد الفجوة النظرية من خلال التحليل الرياضي لكشف آلية عمل حسابات المهام، خاصة إقامة صلة بين متجهات المهام وتدرجات التعلم متعدد المهام.

المساهمات الأساسية

  1. إقامة أساس نظري: إثبات صارم بأن متجه المهام من الانحدار التدريجي لحقبة واحدة هو التدرج السالب المقاس، والفرق بين تكرارات حسابات المهام والتدريب المشترك متعدد المهام هو فقط حد من الدرجة الثانية O(η²)
  2. اشتقاق حدود الخطأ: اشتقاق حدود 2-قاعدة موحدة صريحة لحد الخطأ من الدرجة الثانية للشبكات الأمامية، بافتراض أوزان محدودة ودوال تفعيل بمشتقات محدودة
  3. التحقق التجريبي: تؤكد التجارب على عدة مهام بصرية المساهمة السائدة لتدرج الحقبة الأولى في مسار الضبط الدقيق الكلي، سواء من حيث القاعدة أو الاتجاه
  4. التوجيه العملي: توفير أساس نظري للضبط الدقيق قصير المدى المفيد لدمج النماذج، وإعادة صياغة حسابات المهام كتقريب للتعلم متعدد المهام

شرح الطريقة

تعريف المهام

دع T تمثل مجموعة المهام، و|T| عدد المهام. وزن النموذج المدرب مسبقاً هو θ_base. بالنسبة للمهمة t∈T، يمثل θ_t^(k) المعاملات بعد ضبط دقيق لـ k حقبة على المهمة t. يُعرّف متجه المهام على النحو التالي:

τ_t^(k) := θ_t^(k) - θ_base

الخسارة التجريبية للمهمة t هي:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

النتائج النظرية الأساسية

النظرية 1: تكافؤ حسابات المهام والتعلم متعدد المهام

دع θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) يكون النموذج الذي تم الحصول عليه باستخدام حسابات المهام، حيث يتم إنتاج {θ_t^(k)}{t∈T} من خلال k حقبة من الانحدار التدريجي بالدفعة الكاملة بحجم خطوة η. دع θ_MT^(k) يكون نتيجة k حقبة من الانحدار التدريجي على الخسارة المجمعة Σ{t∈T} L_t بحجم خطوة αη. إذن:

  1. التكافؤ الكامل للحقبة الأولى:
    θ_TA^(1) = θ_MT^(1)
    
  2. التكافؤ التقريبي متعدد الحقب (k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

حيث حد C هو حد الخطأ من الدرجة الثانية:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

تحليل هيمنة الحقبة الأولى

تشير النظرية إلى أن معلومات تدرج الحقبة الأولى تهيمن على مسار الضبط الدقيق بالكامل:

  1. تحليل قاعدة التدرج: تساهم الحقبة الأولى بأكبر حصة من قاعدة التدرج الكلية
  2. اتساق الاتجاه: تحافظ تدرجات الحقب اللاحقة على تشابه جيب التمام العالي مع تدرج الحقبة الأولى (>0.8)
  3. تكافؤ الأداء: يحقق دمج النماذج المضبوطة بدقة لحقبة واحدة أداءً مماثلاً لدمج النماذج المتقاربة بالكامل

حدود الخطأ (النظرية 2)

بالنسبة لشبكة أمامية بعمق L، تحت افتراضات الأوزان المحدودة والمدخلات المحدودة ودوال التفعيل بمشتقات محدودة:

دوال التفعيل العامة:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

دوال التفعيل ReLU:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

حيث يمثل H_max و G_max على التوالي الحدود العليا لمصفوفة هسيان والتدرج.

إعداد التجارب

مجموعات البيانات

تستخدم التجارب سبع مجموعات بيانات معايير بصرية:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

تصميم التجارب

  1. مقارنة حقبة واحدة مقابل التقارب: مقارنة أداء دمج النماذج المضبوطة بدقة لحقبة واحدة مع النماذج المتقاربة بالكامل
  2. تحليل التدرج: تحليل المساهمة المعيارية لقاعدة التدرج لكل حقبة
  3. اتساق الاتجاه: حساب تشابه جيب التمام بين التدرجات في حقب مختلفة
  4. مسار الفضاء المعاملي: تصور مسارات الفضاء المعاملي لاستراتيجيات دمج مختلفة من خلال تحليل المكونات الرئيسية

طرق المقارنة

  • حسابات المهام القياسية (Task Arithmetic)
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • حسابات المهام التكرارية (Iterative TA)

نتائج التجارب

النتائج الرئيسية

  1. التحقق من تكافؤ الأداء: على جميع مجموعات البيانات المختبرة، تحقق أداء دمج النماذج المضبوطة بدقة لحقبة واحدة أداءً أساسياً مماثلاً للنماذج المتقاربة بالكامل، وفي بعض الحالات أفضل حتى
  2. هيمنة الحقبة الأولى:
    • تساهم الحقبة الأولى بـ 0.3-0.7 من قاعدة التدرج المعيارية
    • يحافظ تشابه جيب التمام بين تدرجات أول 5 حقب وتدرج الحقبة الأولى على أكثر من 0.8
  3. تحليل الفضاء المعاملي: تقود حسابات المهام التكرارية من خلال تحديثات الخطوات الصغيرة النموذج إلى مناطق مختلفة وذات خسارة أقل

التجارب الاستئصالية

تتحقق التجارب من جوانب مختلفة من التنبؤات النظرية:

  • تؤكد الموقع السائد لتدرج الحقبة الأولى
  • تتحقق من أن الحقب اللاحقة تقدم حد خطأ من الدرجة الثانية نسبياً صغير
  • تؤكد أن الضبط الدقيق قصير المدى أكثر فائدة لدمج النماذج

الاكتشافات الرئيسية

  1. الكفاءة في المهام ≠ قدرة الدمج: النماذج المتخصصة بدرجة عالية لا تنتج بالضرورة نتائج دمج أفضل
  2. أهمية الديناميكيات المبكرة: تعتبر ديناميكيات التدريب المبكرة حاسمة لدمج النماذج الناجح
  3. جودة التقريب التدريجي: تنخفض جودة تقريب متجهات المهام للتدرج الحقيقي متعدد المهام مع زيادة وقت الضبط الدقيق

الأعمال ذات الصلة

الاتصالية النمطية ودمج النماذج

  • تشير دراسات الاتصالية النمطية الخطية إلى وجود مسار خطي بين النماذج التي تشترك في التهيئة
  • تحل طرق الدمج القائمة على التبديل مشكلة التماثل من خلال مطابقة النقل الأمثل

طرق متجهات المهام

  • تمثل متجهات المهام التحديثات الخاصة بالمهام كزيادات على النموذج المشترك
  • تقلل الطرق الموسعة من التداخل من خلال الندرة والقطع والأقنعة وغيرها

التعلم متعدد المهام

  • يحسن التعلم متعدد المهام التقليدي الأداء من خلال التمثيلات المشتركة والانحيازات الاستقرائية
  • تحل طرق مثل جراحة التدرج مشاكل تضارب التدرج بين المهام

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. اختراق نظري: إقامة أول صلة رياضية صارمة بين متجهات المهام والتدرجات
  2. التوجيه العملي: إثبات فعالية الضبط الدقيق لحقبة واحدة، توفير توجيه للتطبيقات العملية
  3. منظور جديد: إعادة صياغة حسابات المهام كتقريب للتعلم متعدد المهام

القيود

  1. الافتراضات النظرية: يعتمد التحليل على الانحدار التدريجي بالدفعة الكاملة، بينما يستخدم الواقع العملي الانحدار التدريجي العشوائي
  2. معمارية الشبكة: تنطبق الحدود الصريحة فقط على الشبكات الأمامية، والمعماريات الحديثة (CNN، Transformer) أكثر تعقيداً
  3. نطاق التجارب: يركز بشكل أساسي على المهام البصرية، وتطبيقيتها في المجالات الأخرى تحتاج إلى مزيد من التحقق

الاتجاهات المستقبلية

  1. توسيع نظرية الانحدار التدريجي العشوائي: توسيع النظرية إلى إعدادات الانحدار التدريجي العشوائي
  2. المعماريات المعقدة: توفير حدود نظرية لـ CNN و Transformer وغيرها
  3. تحسين الحد من الدرجة الثانية: البحث عن متى يمكن تجاهل أو تقريب حد الخطأ من الدرجة الثانية
  4. الفهم الموحد: استكشاف الصلات مع مفاهيم مثل الإيقاف المبكر والحدود الدنيا المسطحة/الحادة

التقييم المتعمق

المزايا

  1. مساهمة نظرية كبيرة: سد فجوة مهمة في الفهم النظري لحسابات المهام
  2. تحليل رياضي صارم: توفير إثبات كامل وحدود خطأ صريحة
  3. التحقق التجريبي الكافي: دعم التنبؤات النظرية بالتجارب على عدة مجموعات بيانات
  4. القيمة العملية العالية: توفير توجيه نظري لاستراتيجيات دمج النماذج

أوجه القصور

  1. الافتراضات القوية: الافتراض بالانحدار التدريجي بالدفعة الكاملة يختلف عن التطبيقات العملية
  2. قيود المعمارية: تنطبق النتائج النظرية بشكل أساسي على الشبكات الأمامية البسيطة
  3. نطاق المهام الضيق: تركز التجارب بشكل أساسي على مهام التصنيف البصري

التأثير

  1. القيمة الأكاديمية: توفير أساس نظري مهم لمجال دمج النماذج
  2. الأهمية العملية: توجيه استراتيجيات دمج نماذج أكثر كفاءة
  3. القوة الإلهامية: توفير إطار نظري جديد للأبحاث اللاحقة

السيناريوهات المطبقة

  1. النشر متعدد المهام: سيناريوهات تتطلب دمج عدة نماذج متخصصة في نموذج موحد
  2. البيئات محدودة الموارد: التطبيقات حيث تكون موارد التخزين والحوسبة محدودة
  3. التكيف السريع: السيناريوهات التي تتطلب الحصول السريع على قدرات متعددة المهام

المراجع

تستشهد الورقة بأعمال مهمة في مجالات دمج النماذج وتعليم المتجهات والتعلم متعدد المهام، بما في ذلك:

  • Ilharco et al. (2022) - العمل الأصلي لحسابات المهام
  • Zhou et al. (2025) - حسابات المهام التكرارية
  • Ortiz-Jimenez et al. (2024) - حسابات المهام في الفضاء المماسي
  • Wortsman et al. (2022) - طريقة حساء النماذج

تقدم هذه الورقة أساساً نظرياً صارماً لحسابات المهام من خلال التحليل الرياضي، لا توضح فقط أسباب فعاليتها، بل توفر أيضاً توجيهاً قيماً للتطبيقات العملية. على الرغم من بعض قيود الافتراضات النظرية، فإن مساهماتها ذات أهمية كبيرة لفهم وتحسين تقنيات دمج النماذج.