Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
تعتبر حسابات المهام (Task Arithmetic) تقنية دمج نماذج بسيطة وقوية، تمكّن من دمج عدة نماذج مضبوطة بدقة في نموذج موحد واحد. على الرغم من الأداء الممتازة في التجارب، إلا أنها تفتقر إلى شرح نظري واضح يوضح آلية عملها والشروط المطبقة عليها. تقدم هذه الورقة أساساً نظرياً صارماً لحسابات المهام من خلال إقامة صلة بين متجهات المهام وتدرجات خسارة المهام. تُظهر الدراسة أنه في ظل ظروف الانحدار التدريجي القياسي، فإن متجه المهام الناتج من ضبط دقيق لحقبة واحدة يكافئ تماماً التدرج السالب للخسارة مضروباً في معدل التعلم. بالنسبة لإعدادات متعددة الحقب العملية، يكون هذا التكافؤ تقريبياً مع وجود حد خطأ من الدرجة الثانية، يقدم المؤلفون حدوداً صريحة للشبكات الأمامية. تتحقق التجارب على سبعة معايير بصرية من النظرية، مما يثبت أن تدرج الحقبة الأولى يهيمن على مسار الضبط الدقيق من حيث القاعدة والاتجاه. الاكتشاف المهم هو أن دمج النماذج المضبوطة بدقة لحقبة واحدة فقط يحقق عادة أداءً مماثلة لدمج النماذج المتقاربة بالكامل.
أصبح نموذج التدريب المسبق والضبط الدقيق حجر الأساس في التعلم العميق، مما يمكّن النماذج العامة الكبيرة من التكيف مع عدد لا يحصى من المهام المحددة. ومع ذلك، يأتي هذا النجاح بتكلفة كبيرة: تخزين نموذج مضبوط بدقة منفصل لكل مهمة يؤدي إلى نفقات تخزين ضخمة، وتتفاقم هذه التحديات مع نمو عدد التطبيقات المتخصصة.
تهدف هذه الورقة إلى سد الفجوة النظرية من خلال التحليل الرياضي لكشف آلية عمل حسابات المهام، خاصة إقامة صلة بين متجهات المهام وتدرجات التعلم متعدد المهام.
إقامة أساس نظري: إثبات صارم بأن متجه المهام من الانحدار التدريجي لحقبة واحدة هو التدرج السالب المقاس، والفرق بين تكرارات حسابات المهام والتدريب المشترك متعدد المهام هو فقط حد من الدرجة الثانية O(η²)
اشتقاق حدود الخطأ: اشتقاق حدود 2-قاعدة موحدة صريحة لحد الخطأ من الدرجة الثانية للشبكات الأمامية، بافتراض أوزان محدودة ودوال تفعيل بمشتقات محدودة
التحقق التجريبي: تؤكد التجارب على عدة مهام بصرية المساهمة السائدة لتدرج الحقبة الأولى في مسار الضبط الدقيق الكلي، سواء من حيث القاعدة أو الاتجاه
التوجيه العملي: توفير أساس نظري للضبط الدقيق قصير المدى المفيد لدمج النماذج، وإعادة صياغة حسابات المهام كتقريب للتعلم متعدد المهام
دع T تمثل مجموعة المهام، و|T| عدد المهام. وزن النموذج المدرب مسبقاً هو θ_base. بالنسبة للمهمة t∈T، يمثل θ_t^(k) المعاملات بعد ضبط دقيق لـ k حقبة على المهمة t. يُعرّف متجه المهام على النحو التالي:
دع θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) يكون النموذج الذي تم الحصول عليه باستخدام حسابات المهام، حيث يتم إنتاج {θ_t^(k)}{t∈T} من خلال k حقبة من الانحدار التدريجي بالدفعة الكاملة بحجم خطوة η. دع θ_MT^(k) يكون نتيجة k حقبة من الانحدار التدريجي على الخسارة المجمعة Σ{t∈T} L_t بحجم خطوة αη. إذن:
التحقق من تكافؤ الأداء: على جميع مجموعات البيانات المختبرة، تحقق أداء دمج النماذج المضبوطة بدقة لحقبة واحدة أداءً أساسياً مماثلاً للنماذج المتقاربة بالكامل، وفي بعض الحالات أفضل حتى
هيمنة الحقبة الأولى:
تساهم الحقبة الأولى بـ 0.3-0.7 من قاعدة التدرج المعيارية
يحافظ تشابه جيب التمام بين تدرجات أول 5 حقب وتدرج الحقبة الأولى على أكثر من 0.8
تحليل الفضاء المعاملي: تقود حسابات المهام التكرارية من خلال تحديثات الخطوات الصغيرة النموذج إلى مناطق مختلفة وذات خسارة أقل
تستشهد الورقة بأعمال مهمة في مجالات دمج النماذج وتعليم المتجهات والتعلم متعدد المهام، بما في ذلك:
Ilharco et al. (2022) - العمل الأصلي لحسابات المهام
Zhou et al. (2025) - حسابات المهام التكرارية
Ortiz-Jimenez et al. (2024) - حسابات المهام في الفضاء المماسي
Wortsman et al. (2022) - طريقة حساء النماذج
تقدم هذه الورقة أساساً نظرياً صارماً لحسابات المهام من خلال التحليل الرياضي، لا توضح فقط أسباب فعاليتها، بل توفر أيضاً توجيهاً قيماً للتطبيقات العملية. على الرغم من بعض قيود الافتراضات النظرية، فإن مساهماتها ذات أهمية كبيرة لفهم وتحسين تقنيات دمج النماذج.