2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

कार्य सदिश और प्रवणता पर

मूल जानकारी

पेपर ID: 2508.16082
शीर्षक: कार्य सदिश और प्रवणता पर
लेखक: लुका झोउ, डेनिएले सोलोम्ब्रिनो, डोनाटो क्रिसोस्टोमी, मारिया सोफिया बुकारेली, ग्यूसेप्पे ए. डी'इनवर्नो, फैब्रिजियो सिल्वेस्त्री, इमानुएले रोडोला
वर्गीकरण: cs.LG, cs.AI
प्रकाशन समय/सम्मेलन: NeurIPS 2025 कार्यशाला: UniReps
पेपर लिंक: https://arxiv.org/abs/2508.16082

सारांश

कार्य अंकगणित (Task Arithmetic) एक सरल किंतु शक्तिशाली मॉडल विलय तकनीक है जो कई सूक्ष्म-समायोजित मॉडलों को एक एकीकृत मॉडल में संयोजित करती है। यद्यपि प्रयोगों में उत्कृष्ट प्रदर्शन दिखाई देता है, किंतु इसके कार्य करने के तरीके और प्रयोज्यता की शर्तों को समझाने के लिए स्पष्ट सैद्धांतिक व्याख्या का अभाव है। यह पेपर कार्य सदिश और कार्य हानि प्रवणता के बीच संबंध स्थापित करके कार्य अंकगणित के लिए कठोर सैद्धांतिक आधार प्रदान करता है। अनुसंधान दर्शाता है कि मानक प्रवणता अवतरण के तहत, एक epoch सूक्ष्म-समायोजन द्वारा उत्पादित कार्य सदिश पूरी तरह से हानि की नकारात्मक प्रवणता के बराबर है जिसे सीखने की दर से गुणा किया जाता है। व्यावहारिक बहु-epoch सेटिंग्स के लिए, यह समानता लगभग मान्य है, एक द्वितीय-क्रम त्रुटि पद के साथ, जिसके लिए लेखकों ने फीडफॉरवर्ड नेटवर्क के लिए स्पष्ट सीमाएं दी हैं। सात दृश्य बेंचमार्क पर प्रयोगात्मक विश्लेषण सिद्धांत को सत्यापित करता है, जो प्रदर्शित करता है कि पहले epoch की प्रवणता मानदंड और दिशा दोनों में सूक्ष्म-समायोजन प्रक्षेपवक्र पर प्रभुत्व रखती है। एक महत्वपूर्ण खोज यह है कि केवल एक epoch सूक्ष्म-समायोजन के मॉडलों को विलय करना अक्सर पूरी तरह से अभिसारित मॉडलों को विलय करने के समान प्रदर्शन प्राप्त कर सकता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

पूर्व-प्रशिक्षण-सूक्ष्म-समायोजन प्रतिमान गहन शिक्षा की नींव बन गया है, जो बड़े सामान्य-उद्देश्य मॉडलों को अनगिनत विशिष्ट कार्यों के अनुकूल बनाने में सक्षम बनाता है। हालांकि, यह सफलता महत्वपूर्ण लागत लाती है: प्रत्येक कार्य के लिए अलग-अलग सूक्ष्म-समायोजित मॉडलों को संग्रहीत करने से विशाल भंडारण ओवरहेड उत्पन्न होता है, जो विशेषज्ञ अनुप्रयोगों की संख्या बढ़ने के साथ तीव्र होता है।

मुख्य समस्याएं

भंडारण दक्षता समस्या: प्रत्येक कार्य के लिए स्वतंत्र सूक्ष्म-समायोजित मॉडल की आवश्यकता होती है, जिससे भंडारण लागत रैखिक रूप से बढ़ती है
सैद्धांतिक समझ की कमी: यद्यपि कार्य अंकगणित प्रयोगों में अच्छा प्रदर्शन करती है, किंतु कठोर सैद्धांतिक व्याख्या का अभाव है
इष्टतम सूक्ष्म-समायोजन रणनीति अस्पष्ट: यह स्पष्ट नहीं है कि मॉडल विलय के लिए कितने समय तक सूक्ष्म-समायोजन प्रभावी है

मौजूदा विधियों की सीमाएं

कार्य अंकगणित सरल और प्रभावी है, किंतु सैद्धांतिक आधार की कमी है
पूर्ववर्ती कार्यों ने केवल अनुभवजन्य रूप से देखा है कि अल्पकालीन सूक्ष्म-समायोजन के कार्य सदिश विलय के लिए अधिक उपयुक्त हैं, किंतु कठोर व्याख्या नहीं दी है
कार्य सदिश और प्रवणता के संबंध का गणितीय विश्लेषण अनुपस्थित है

अनुसंधान प्रेरणा

यह पेपर सैद्धांतिक अंतराल को भरने का लक्ष्य रखता है, गणितीय विश्लेषण के माध्यम से कार्य अंकगणित के कार्य करने के तरीके को प्रकट करता है, विशेष रूप से कार्य सदिश और बहु-कार्य शिक्षा प्रवणता के बीच संबंध स्थापित करता है।

मुख्य योगदान

सैद्धांतिक आधार स्थापना: कठोरता से सिद्ध किया कि एकल-epoch प्रवणता अवतरण का कार्य सदिश स्केल की गई नकारात्मक प्रवणता है, और बाद के कार्य अंकगणित पुनरावृत्तियों और संयुक्त बहु-कार्य प्रशिक्षण के बीच अंतर केवल द्वितीय-क्रम पद O(η²) है
त्रुटि सीमा व्युत्पत्ति: फीडफॉरवर्ड नेटवर्क के लिए द्वितीय-क्रम त्रुटि पद की स्पष्ट समान 2-मानदंड सीमा व्युत्पन्न की, परिबद्ध भार और परिबद्ध व्युत्पन्न सक्रियण कार्यों को मानते हुए
प्रयोगात्मक सत्यापन: कई दृश्य कार्यों पर प्रयोग पुष्टि करते हैं कि पहले epoch की प्रवणता समग्र सूक्ष्म-समायोजन प्रक्षेपवक्र पर प्रभुत्व रखती है, मानदंड और दिशा दोनों में
व्यावहारिक मार्गदर्शन: अल्पकालीन सूक्ष्म-समायोजन के मॉडल विलय के लिए लाभकारी होने के सैद्धांतिक आधार प्रदान करता है, कार्य अंकगणित को अनुमानित बहु-कार्य शिक्षा के रूप में पुनः परिभाषित करता है

विधि विवरण

कार्य परिभाषा

T को कार्य समूह मानें, |T| कार्यों की संख्या है। पूर्व-प्रशिक्षित मॉडल भार θ_base है। कार्य t∈T के लिए, θ_t^(k) कार्य t पर k epochs सूक्ष्म-समायोजन के बाद के पैरामीटर को दर्शाता है। कार्य सदिश को इस प्रकार परिभाषित किया जाता है:

τ_t^(k) := θ_t^(k) - θ_base

कार्य t की अनुभवजन्य हानि है:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

मुख्य सैद्धांतिक परिणाम

प्रमेय 1: कार्य अंकगणित और बहु-कार्य शिक्षा की समानता

θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) को कार्य अंकगणित का उपयोग करके प्राप्त मॉडल मानें, जहां {θ_t^(k)}{t∈T} k epochs की पूर्ण-बैच प्रवणता अवतरण द्वारा उत्पादित होते हैं, चरण आकार η के साथ। θ_MT^(k) को समग्र हानि Σ{t∈T} L_t पर k epochs प्रवणता अवतरण का परिणाम मानें, चरण आकार αη के साथ। तब:

पहले epoch की पूर्ण समानता:
```
θ_TA^(1) = θ_MT^(1)
```
बहु-epoch अनुमानित समानता (k > 1):
```
θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
```

जहां C पद द्वितीय-क्रम त्रुटि पद है:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

पहले Epoch की प्रभुत्व विश्लेषण

सिद्धांत दर्शाता है कि पहले epoch की प्रवणता जानकारी पूरे सूक्ष्म-समायोजन प्रक्षेपवक्र पर प्रभुत्व रखती है:

प्रवणता मानदंड विश्लेषण: पहला epoch कुल प्रवणता मानदंड का सबसे बड़ा हिस्सा योगदान देता है
दिशा संगति: बाद के epochs की प्रवणता पहले epoch की प्रवणता के साथ उच्च कोसाइन समानता बनाए रखती है (>0.8)
प्रदर्शन समानता: एक epoch सूक्ष्म-समायोजन के मॉडलों को विलय करने का प्रदर्शन पूरी तरह से अभिसारित मॉडलों को विलय करने के समान है

त्रुटि सीमा (प्रमेय 2)

गहराई L के फीडफॉरवर्ड नेटवर्क के लिए, परिबद्ध भार, परिबद्ध इनपुट और परिबद्ध व्युत्पन्न सक्रियण कार्यों की धारणा के तहत:

सामान्य सक्रियण कार्य:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU सक्रियण कार्य:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

जहां H_max और G_max क्रमशः Hessian और प्रवणता की ऊपरी सीमाएं हैं।

प्रयोगात्मक सेटअप

डेटासेट

प्रयोग सात दृश्य बेंचमार्क डेटासेट का उपयोग करते हैं:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

प्रयोगात्मक डिजाइन

एक epoch बनाम अभिसरण तुलना: एक epoch सूक्ष्म-समायोजन मॉडलों को विलय करने और पूरी तरह से अभिसारित मॉडलों को विलय करने के प्रदर्शन की तुलना करें
प्रवणता विश्लेषण: विभिन्न epochs की प्रवणता मानदंड के सामान्यीकृत योगदान का विश्लेषण करें
दिशा संगति: विभिन्न epochs प्रवणताओं के बीच कोसाइन समानता की गणना करें
पैरामीटर अंतरिक्ष प्रक्षेपवक्र: PCA के माध्यम से विभिन्न विलय रणनीतियों के पैरामीटर अंतरिक्ष प्रक्षेपवक्र को दृश्यमान करें

तुलनात्मक विधियां

मानक कार्य अंकगणित (Task Arithmetic)
TIES-merging
Model Breadcrumbs
DARE
पुनरावृत्तिमूलक कार्य अंकगणित (Iterative TA)

प्रयोगात्मक परिणाम

मुख्य परिणाम

प्रदर्शन समानता सत्यापन: सभी परीक्षण डेटासेट पर, एक epoch सूक्ष्म-समायोजन के मॉडलों को विलय करने का प्रदर्शन पूरी तरह से अभिसारित मॉडलों को विलय करने के समान है, कुछ मामलों में बेहतर भी है
पहले epoch की प्रभुत्व:
- पहला epoch 0.3-0.7 की सामान्यीकृत प्रवणता मानदंड में योगदान देता है
- पहले 5 epochs की प्रवणता पहले epoch की प्रवणता के साथ 0.8 से ऊपर की कोसाइन समानता बनाए रखती है
पैरामीटर अंतरिक्ष विश्लेषण: पुनरावृत्तिमूलक कार्य अंकगणित छोटे चरण आकार के अपडेट के माध्यम से मॉडल को विभिन्न और कम हानि वाले क्षेत्रों तक पहुंचाने में सक्षम है

विलोपन प्रयोग

प्रयोग सिद्धांत की भविष्यवाणी के विभिन्न पहलुओं को सत्यापित करते हैं:

पहले epoch प्रवणता की प्रभुत्व की पुष्टि की
बाद के epochs द्वारा पेश की गई द्वितीय-क्रम त्रुटि पद की सापेक्ष छोटापन को सत्यापित किया
अल्पकालीन सूक्ष्म-समायोजन के मॉडल विलय के लिए अधिक लाभकारी होने की पुष्टि की

मुख्य खोजें

कार्य दक्षता ≠ विलय क्षमता: अत्यधिक विशेषीकृत मॉडल आवश्यक रूप से बेहतर विलय परिणाम नहीं देते हैं
प्रारंभिक गतिविज्ञान का महत्व: प्रारंभिक प्रशिक्षण गतिविज्ञान सफल मॉडल विलय के लिए महत्वपूर्ण है
प्रवणता अनुमान गुणवत्ता: कार्य सदिश के रूप में वास्तविक बहु-कार्य प्रवणता का अनुमान गुणवत्ता सूक्ष्म-समायोजन समय के साथ घटता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक सफलता: पहली बार कार्य सदिश और प्रवणता के बीच कठोर गणितीय संबंध स्थापित किया
व्यावहारिक मार्गदर्शन: एक epoch सूक्ष्म-समायोजन की प्रभावशीलता सिद्ध की, व्यावहारिक अनुप्रयोगों के लिए मार्गदर्शन प्रदान करती है
नया दृष्टिकोण: कार्य अंकगणित को अनुमानित बहु-कार्य शिक्षा के रूप में पुनः परिभाषित करता है

सीमाएं

सैद्धांतिक धारणाएं: विश्लेषण पूर्ण-बैच प्रवणता अवतरण पर आधारित है, व्यावहारिक अनुप्रयोग में अधिकतर SGD का उपयोग होता है
नेटवर्क आर्किटेक्चर: स्पष्ट सीमाएं केवल फीडफॉरवर्ड नेटवर्क के लिए हैं, आधुनिक आर्किटेक्चर (CNN, Transformer) अधिक जटिल हैं
प्रयोगात्मक सीमा: मुख्य रूप से दृश्य कार्यों पर सत्यापित, अन्य क्षेत्रों में प्रयोज्यता को आगे सत्यापन की आवश्यकता है

भविष्य की दिशाएं

SGD सिद्धांत विस्तार: सिद्धांत को स्टोकेस्टिक प्रवणता अवतरण सेटिंग्स तक विस्तारित करें
जटिल आर्किटेक्चर: CNN, Transformer आदि के लिए सैद्धांतिक सीमाएं प्रदान करें
द्वितीय-क्रम पद अनुकूलन: अन्वेषण करें कि द्वितीय-क्रम त्रुटि पद कब नगण्य या अनुमानित हो सकता है
एकीकृत समझ: प्रारंभिक रोकथाम, समतल/तीव्र न्यूनतम आदि अवधारणाओं के साथ संबंध का अन्वेषण करें

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सैद्धांतिक योगदान: कार्य अंकगणित की सैद्धांतिक समझ में महत्वपूर्ण अंतराल को भरता है
कठोर गणितीय विश्लेषण: पूर्ण प्रमाण और स्पष्ट त्रुटि सीमाएं प्रदान करता है
पर्याप्त प्रयोगात्मक सत्यापन: सैद्धांतिक भविष्यवाणियां कई डेटासेट पर प्रयोगात्मक समर्थन प्राप्त करती हैं
उच्च व्यावहारिक मूल्य: मॉडल विलय रणनीतियों के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है

कमियां

मजबूत धारणा शर्तें: पूर्ण-बैच GD धारणा व्यावहारिक अनुप्रयोग से अलग है
आर्किटेक्चर प्रतिबंध: सैद्धांतिक परिणाम मुख्य रूप से सरल फीडफॉरवर्ड नेटवर्क पर लागू होते हैं
कार्य सीमा: प्रयोग मुख्य रूप से दृश्य वर्गीकरण कार्यों पर केंद्रित हैं

प्रभाव

शैक्षणिक मूल्य: मॉडल विलय क्षेत्र के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है
व्यावहारिक महत्व: अधिक कुशल मॉडल विलय रणनीतियों को निर्देशित करता है
प्रेरणादायक: बाद के अनुसंधान के लिए नई सैद्धांतिक रूपरेखा प्रदान करता है

प्रयोज्य परिदृश्य

बहु-कार्य तैनाती: कई विशेषज्ञ मॉडलों को एकीकृत मॉडल में विलय करने की आवश्यकता वाले परिदृश्य
संसाधन-सीमित वातावरण: भंडारण और कम्प्यूटिंग संसाधनों में सीमित अनुप्रयोग
तीव्र अनुकूलन: बहु-कार्य क्षमता तेजी से प्राप्त करने की आवश्यकता वाले परिदृश्य

संदर्भ

पेपर मॉडल विलय, कार्य सदिश, बहु-कार्य शिक्षा आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Ilharco et al. (2022) - कार्य अंकगणित का मूल कार्य
Zhou et al. (2025) - पुनरावृत्तिमूलक कार्य अंकगणित
Ortiz-Jimenez et al. (2024) - स्पर्श अंतरिक्ष में कार्य अंकगणित
Wortsman et al. (2022) - मॉडल सूप विधि

यह पेपर कठोर गणितीय विश्लेषण के माध्यम से कार्य अंकगणित के लिए सैद्धांतिक आधार प्रदान करता है, न केवल इसकी प्रभावशीलता के कारणों की व्याख्या करता है, बल्कि व्यावहारिक अनुप्रयोगों के लिए मूल्यवान मार्गदर्शन भी प्रदान करता है। यद्यपि कुछ सैद्धांतिक धारणाओं की सीमाएं हैं, किंतु इसका योगदान मॉडल विलय तकनीकों को समझने और सुधारने के लिए महत्वपूर्ण है।