Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
Task Arithmetic ist eine einfache und leistungsstarke Modellverschmelzungstechnik, die mehrere feinabgestimmte Modelle in ein einheitliches Modell kombiniert. Trotz ausgezeichneter experimenteller Ergebnisse fehlt eine klare theoretische Erklärung für ihre Funktionsweise und Anwendungsbedingungen. Dieses Papier bietet eine rigorose theoretische Grundlage für Task Arithmetic durch die Etablierung einer Verbindung zwischen Task Vectors und Task-Loss-Gradienten. Die Forschung zeigt, dass unter standardmäßigen Gradientenabstiegsbedingungen der Task Vector aus einer Epoch-Feinabstimmung vollständig äquivalent zum negativen Gradienten des Verlusts multipliziert mit der Lernrate ist. Für praktische Multi-Epoch-Einstellungen gilt diese Äquivalenz näherungsweise mit einem Fehlerterm zweiter Ordnung, für den die Autoren explizite Grenzen für Feedforward-Netzwerke angeben. Die Theorie wird durch experimentelle Analysen an sieben visuellen Benchmarks validiert, die zeigen, dass der Gradient der ersten Epoch die Feinabstimmungstrajektorie sowohl in Norm als auch in Richtung dominiert. Eine wichtige Erkenntnis ist, dass die Verschmelzung von Modellen, die nur eine Epoch feinabgestimmt wurden, häufig eine Leistung erreicht, die der Verschmelzung vollständig konvergierter Modelle entspricht.
Das Pretrain-Finetune-Paradigma ist zum Eckpfeiler des Deep Learning geworden und ermöglicht es großen universellen Modellen, sich an unzählige spezifische Aufgaben anzupassen. Dieser Erfolg bringt jedoch erhebliche Kosten mit sich: Das Speichern separater feinabgestimmter Modelle für jede Aufgabe führt zu enormen Speicherkosten, eine Herausforderung, die mit der Zunahme spezialisierter Anwendungen wächst.
Task Arithmetic ist zwar einfach und effektiv, aber theoretisch unbegründet
Frühere Arbeiten beobachteten empirisch, dass Task Vectors aus kurzer Feinabstimmung besser für die Verschmelzung geeignet sind, ohne rigorose Erklärung
Mathematische Analyse der Beziehung zwischen Task Vectors und Gradienten fehlt
Dieses Papier zielt darauf ab, diese theoretische Lücke zu schließen, indem es durch mathematische Analyse die Funktionsweise von Task Arithmetic offenlegt, insbesondere die Verbindung zwischen Task Vectors und Multi-Task-Learning-Gradienten.
Theoretische Grundlegung: Rigoroser Beweis, dass der Task Vector aus Gradientenabstieg einer Epoch der skalierte negative Gradient ist, wobei die Differenz zwischen nachfolgenden Task-Arithmetic-Iterationen und gemeinsamen Multi-Task-Trainings nur ein Term zweiter Ordnung O(η²) ist
Herleitung von Fehlergrenzen: Explizite einheitliche 2-Norm-Grenzen für den Fehlerterm zweiter Ordnung für Feedforward-Netzwerke unter der Annahme beschränkter Gewichte und beschränkter Ableitungen von Aktivierungsfunktionen
Experimentelle Validierung: Experimente auf mehreren visuellen Aufgaben bestätigen den dominierenden Beitrag des Gradienten der ersten Epoch zur gesamten Feinabstimmungstrajektorie, sowohl in Norm als auch in Richtung
Praktische Orientierung: Bietet theoretische Grundlage für die Vorteile kurzer Feinabstimmung bei der Modellverschmelzung und rahmt Task Arithmetic als Approximation des Multi-Task-Learning neu
Sei T die Menge der Aufgaben, |T| die Anzahl der Aufgaben. Das vortrainierte Modellgewicht sei θ_base. Für Aufgabe t∈T bezeichne θ_t^(k) die Parameter nach k Epochen Feinabstimmung auf Aufgabe t. Der Task Vector ist definiert als:
Sei θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) das durch Task Arithmetic erhaltene Modell, wobei {θ_t^(k)}{t∈T} durch k Epochen vollständigen Batch-Gradientenabstieg mit Schrittweite η erzeugt wird. Sei θ_MT^(k) das Ergebnis von k Epochen Gradientenabstieg auf dem aggregierten Verlust Σ{t∈T} L_t mit Schrittweite αη. Dann gilt:
Die Theorie zeigt, dass der Gradient der ersten Epoch die gesamte Feinabstimmungstrajektorie dominiert:
Gradienten-Norm-Analyse: Die erste Epoch trägt den größten Anteil zur Gesamtgradienten-Norm bei
Richtungskonsistenz: Gradienten nachfolgender Epochen behalten hohe Kosinus-Ähnlichkeit mit dem Gradienten der ersten Epoch (>0,8)
Leistungsäquivalenz: Verschmelzung von Modellen mit einer Epoch Feinabstimmung erreicht vergleichbare Leistung wie Verschmelzung vollständig konvergierter Modelle
Für ein Feedforward-Netzwerk der Tiefe L unter der Annahme beschränkter Gewichte, beschränkter Eingaben und beschränkter Ableitungen von Aktivierungsfunktionen:
Validierung der Leistungsäquivalenz: Auf allen getesteten Datensätzen erreicht die Verschmelzung von Modellen mit einer Epoch Feinabstimmung vergleichbare Leistung wie die Verschmelzung vollständig konvergierter Modelle, in einigen Fällen sogar bessere
Dominanz der ersten Epoch:
Die erste Epoch trägt 0,3-0,7 zur normalisierten Gradienten-Norm bei
Die Kosinus-Ähnlichkeit zwischen den Gradienten der ersten fünf Epochen und dem Gradienten der ersten Epoch bleibt über 0,8
Parameterraum-Analyse: Iterative Task Arithmetic kann durch kleine Schrittweite-Updates das Modell zu verschiedenen und niedrigeren Verlustregionen führen
Aufgabenbeherrschung ≠ Verschmelzungsfähigkeit: Hochspezialisierte Modelle führen nicht notwendigerweise zu besseren Verschmelzungsergebnissen
Bedeutung früher Dynamik: Frühe Trainingsdynamik ist entscheidend für erfolgreiche Modellverschmelzung
Qualität der Gradienten-Approximation: Die Qualität der Task Vectors als Approximation echter Multi-Task-Gradienten nimmt mit zunehmender Feinabstimmungszeit ab
Das Papier zitiert wichtige Arbeiten in den Bereichen Modellverschmelzung, Task Vectors und Multi-Task-Learning, einschließlich:
Ilharco et al. (2022) - Originalarbeit zu Task Arithmetic
Zhou et al. (2025) - Iterative Task Arithmetic
Ortiz-Jimenez et al. (2024) - Task Arithmetic im Tangentialraum
Wortsman et al. (2022) - Model Soups-Methode
Dieses Papier bietet durch rigorose mathematische Analyse eine theoretische Grundlage für Task Arithmetic, erklärt nicht nur die Gründe für ihre Effektivität, sondern bietet auch wertvolle Orientierung für praktische Anwendungen. Trotz einiger Einschränkungen der theoretischen Annahmen sind seine Beiträge für das Verständnis und die Verbesserung von Modellverschmelzungstechniken von großer Bedeutung.