Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
कार्य अंकगणित (Task Arithmetic) एक सरल किंतु शक्तिशाली मॉडल विलय तकनीक है जो कई सूक्ष्म-समायोजित मॉडलों को एक एकीकृत मॉडल में संयोजित करती है। यद्यपि प्रयोगों में उत्कृष्ट प्रदर्शन दिखाई देता है, किंतु इसके कार्य करने के तरीके और प्रयोज्यता की शर्तों को समझाने के लिए स्पष्ट सैद्धांतिक व्याख्या का अभाव है। यह पेपर कार्य सदिश और कार्य हानि प्रवणता के बीच संबंध स्थापित करके कार्य अंकगणित के लिए कठोर सैद्धांतिक आधार प्रदान करता है। अनुसंधान दर्शाता है कि मानक प्रवणता अवतरण के तहत, एक epoch सूक्ष्म-समायोजन द्वारा उत्पादित कार्य सदिश पूरी तरह से हानि की नकारात्मक प्रवणता के बराबर है जिसे सीखने की दर से गुणा किया जाता है। व्यावहारिक बहु-epoch सेटिंग्स के लिए, यह समानता लगभग मान्य है, एक द्वितीय-क्रम त्रुटि पद के साथ, जिसके लिए लेखकों ने फीडफॉरवर्ड नेटवर्क के लिए स्पष्ट सीमाएं दी हैं। सात दृश्य बेंचमार्क पर प्रयोगात्मक विश्लेषण सिद्धांत को सत्यापित करता है, जो प्रदर्शित करता है कि पहले epoch की प्रवणता मानदंड और दिशा दोनों में सूक्ष्म-समायोजन प्रक्षेपवक्र पर प्रभुत्व रखती है। एक महत्वपूर्ण खोज यह है कि केवल एक epoch सूक्ष्म-समायोजन के मॉडलों को विलय करना अक्सर पूरी तरह से अभिसारित मॉडलों को विलय करने के समान प्रदर्शन प्राप्त कर सकता है।
पूर्व-प्रशिक्षण-सूक्ष्म-समायोजन प्रतिमान गहन शिक्षा की नींव बन गया है, जो बड़े सामान्य-उद्देश्य मॉडलों को अनगिनत विशिष्ट कार्यों के अनुकूल बनाने में सक्षम बनाता है। हालांकि, यह सफलता महत्वपूर्ण लागत लाती है: प्रत्येक कार्य के लिए अलग-अलग सूक्ष्म-समायोजित मॉडलों को संग्रहीत करने से विशाल भंडारण ओवरहेड उत्पन्न होता है, जो विशेषज्ञ अनुप्रयोगों की संख्या बढ़ने के साथ तीव्र होता है।
कार्य अंकगणित सरल और प्रभावी है, किंतु सैद्धांतिक आधार की कमी है
पूर्ववर्ती कार्यों ने केवल अनुभवजन्य रूप से देखा है कि अल्पकालीन सूक्ष्म-समायोजन के कार्य सदिश विलय के लिए अधिक उपयुक्त हैं, किंतु कठोर व्याख्या नहीं दी है
कार्य सदिश और प्रवणता के संबंध का गणितीय विश्लेषण अनुपस्थित है
यह पेपर सैद्धांतिक अंतराल को भरने का लक्ष्य रखता है, गणितीय विश्लेषण के माध्यम से कार्य अंकगणित के कार्य करने के तरीके को प्रकट करता है, विशेष रूप से कार्य सदिश और बहु-कार्य शिक्षा प्रवणता के बीच संबंध स्थापित करता है।
सैद्धांतिक आधार स्थापना: कठोरता से सिद्ध किया कि एकल-epoch प्रवणता अवतरण का कार्य सदिश स्केल की गई नकारात्मक प्रवणता है, और बाद के कार्य अंकगणित पुनरावृत्तियों और संयुक्त बहु-कार्य प्रशिक्षण के बीच अंतर केवल द्वितीय-क्रम पद O(η²) है
त्रुटि सीमा व्युत्पत्ति: फीडफॉरवर्ड नेटवर्क के लिए द्वितीय-क्रम त्रुटि पद की स्पष्ट समान 2-मानदंड सीमा व्युत्पन्न की, परिबद्ध भार और परिबद्ध व्युत्पन्न सक्रियण कार्यों को मानते हुए
प्रयोगात्मक सत्यापन: कई दृश्य कार्यों पर प्रयोग पुष्टि करते हैं कि पहले epoch की प्रवणता समग्र सूक्ष्म-समायोजन प्रक्षेपवक्र पर प्रभुत्व रखती है, मानदंड और दिशा दोनों में
व्यावहारिक मार्गदर्शन: अल्पकालीन सूक्ष्म-समायोजन के मॉडल विलय के लिए लाभकारी होने के सैद्धांतिक आधार प्रदान करता है, कार्य अंकगणित को अनुमानित बहु-कार्य शिक्षा के रूप में पुनः परिभाषित करता है
T को कार्य समूह मानें, |T| कार्यों की संख्या है। पूर्व-प्रशिक्षित मॉडल भार θ_base है। कार्य t∈T के लिए, θ_t^(k) कार्य t पर k epochs सूक्ष्म-समायोजन के बाद के पैरामीटर को दर्शाता है। कार्य सदिश को इस प्रकार परिभाषित किया जाता है:
θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) को कार्य अंकगणित का उपयोग करके प्राप्त मॉडल मानें, जहां {θ_t^(k)}{t∈T} k epochs की पूर्ण-बैच प्रवणता अवतरण द्वारा उत्पादित होते हैं, चरण आकार η के साथ। θ_MT^(k) को समग्र हानि Σ{t∈T} L_t पर k epochs प्रवणता अवतरण का परिणाम मानें, चरण आकार αη के साथ। तब:
प्रदर्शन समानता सत्यापन: सभी परीक्षण डेटासेट पर, एक epoch सूक्ष्म-समायोजन के मॉडलों को विलय करने का प्रदर्शन पूरी तरह से अभिसारित मॉडलों को विलय करने के समान है, कुछ मामलों में बेहतर भी है
पहले epoch की प्रभुत्व:
पहला epoch 0.3-0.7 की सामान्यीकृत प्रवणता मानदंड में योगदान देता है
पहले 5 epochs की प्रवणता पहले epoch की प्रवणता के साथ 0.8 से ऊपर की कोसाइन समानता बनाए रखती है
पैरामीटर अंतरिक्ष विश्लेषण: पुनरावृत्तिमूलक कार्य अंकगणित छोटे चरण आकार के अपडेट के माध्यम से मॉडल को विभिन्न और कम हानि वाले क्षेत्रों तक पहुंचाने में सक्षम है
पेपर मॉडल विलय, कार्य सदिश, बहु-कार्य शिक्षा आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
Ilharco et al. (2022) - कार्य अंकगणित का मूल कार्य
Zhou et al. (2025) - पुनरावृत्तिमूलक कार्य अंकगणित
Ortiz-Jimenez et al. (2024) - स्पर्श अंतरिक्ष में कार्य अंकगणित
Wortsman et al. (2022) - मॉडल सूप विधि
यह पेपर कठोर गणितीय विश्लेषण के माध्यम से कार्य अंकगणित के लिए सैद्धांतिक आधार प्रदान करता है, न केवल इसकी प्रभावशीलता के कारणों की व्याख्या करता है, बल्कि व्यावहारिक अनुप्रयोगों के लिए मूल्यवान मार्गदर्शन भी प्रदान करता है। यद्यपि कुछ सैद्धांतिक धारणाओं की सीमाएं हैं, किंतु इसका योगदान मॉडल विलय तकनीकों को समझने और सुधारने के लिए महत्वपूर्ण है।