2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

Über Task Vectors und Gradienten

Grundinformationen

Paper-ID: 2508.16082
Titel: On Task Vectors and Gradients
Autoren: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
Klassifizierung: cs.LG, cs.AI
Veröffentlichungszeitpunkt/Konferenz: NeurIPS 2025 Workshop: UniReps
Paper-Link: https://arxiv.org/abs/2508.16082

Zusammenfassung

Task Arithmetic ist eine einfache und leistungsstarke Modellverschmelzungstechnik, die mehrere feinabgestimmte Modelle in ein einheitliches Modell kombiniert. Trotz ausgezeichneter experimenteller Ergebnisse fehlt eine klare theoretische Erklärung für ihre Funktionsweise und Anwendungsbedingungen. Dieses Papier bietet eine rigorose theoretische Grundlage für Task Arithmetic durch die Etablierung einer Verbindung zwischen Task Vectors und Task-Loss-Gradienten. Die Forschung zeigt, dass unter standardmäßigen Gradientenabstiegsbedingungen der Task Vector aus einer Epoch-Feinabstimmung vollständig äquivalent zum negativen Gradienten des Verlusts multipliziert mit der Lernrate ist. Für praktische Multi-Epoch-Einstellungen gilt diese Äquivalenz näherungsweise mit einem Fehlerterm zweiter Ordnung, für den die Autoren explizite Grenzen für Feedforward-Netzwerke angeben. Die Theorie wird durch experimentelle Analysen an sieben visuellen Benchmarks validiert, die zeigen, dass der Gradient der ersten Epoch die Feinabstimmungstrajektorie sowohl in Norm als auch in Richtung dominiert. Eine wichtige Erkenntnis ist, dass die Verschmelzung von Modellen, die nur eine Epoch feinabgestimmt wurden, häufig eine Leistung erreicht, die der Verschmelzung vollständig konvergierter Modelle entspricht.

Forschungshintergrund und Motivation

Problemhintergrund

Das Pretrain-Finetune-Paradigma ist zum Eckpfeiler des Deep Learning geworden und ermöglicht es großen universellen Modellen, sich an unzählige spezifische Aufgaben anzupassen. Dieser Erfolg bringt jedoch erhebliche Kosten mit sich: Das Speichern separater feinabgestimmter Modelle für jede Aufgabe führt zu enormen Speicherkosten, eine Herausforderung, die mit der Zunahme spezialisierter Anwendungen wächst.

Kernprobleme

Speichereffizienzproblem: Jede Aufgabe erfordert ein unabhängiges feinabgestimmtes Modell, was zu linear wachsenden Speicherkosten führt
Fehlende theoretische Grundlage: Obwohl Task Arithmetic experimentell gut funktioniert, fehlt eine rigorose theoretische Erklärung
Unklare optimale Feinabstimmungsstrategie: Unklar ist, wie lange Feinabstimmung für die Modellverschmelzung am effektivsten ist

Einschränkungen bestehender Methoden

Task Arithmetic ist zwar einfach und effektiv, aber theoretisch unbegründet
Frühere Arbeiten beobachteten empirisch, dass Task Vectors aus kurzer Feinabstimmung besser für die Verschmelzung geeignet sind, ohne rigorose Erklärung
Mathematische Analyse der Beziehung zwischen Task Vectors und Gradienten fehlt

Forschungsmotivation

Dieses Papier zielt darauf ab, diese theoretische Lücke zu schließen, indem es durch mathematische Analyse die Funktionsweise von Task Arithmetic offenlegt, insbesondere die Verbindung zwischen Task Vectors und Multi-Task-Learning-Gradienten.

Kernbeiträge

Theoretische Grundlegung: Rigoroser Beweis, dass der Task Vector aus Gradientenabstieg einer Epoch der skalierte negative Gradient ist, wobei die Differenz zwischen nachfolgenden Task-Arithmetic-Iterationen und gemeinsamen Multi-Task-Trainings nur ein Term zweiter Ordnung O(η²) ist
Herleitung von Fehlergrenzen: Explizite einheitliche 2-Norm-Grenzen für den Fehlerterm zweiter Ordnung für Feedforward-Netzwerke unter der Annahme beschränkter Gewichte und beschränkter Ableitungen von Aktivierungsfunktionen
Experimentelle Validierung: Experimente auf mehreren visuellen Aufgaben bestätigen den dominierenden Beitrag des Gradienten der ersten Epoch zur gesamten Feinabstimmungstrajektorie, sowohl in Norm als auch in Richtung
Praktische Orientierung: Bietet theoretische Grundlage für die Vorteile kurzer Feinabstimmung bei der Modellverschmelzung und rahmt Task Arithmetic als Approximation des Multi-Task-Learning neu

Methodische Details

Aufgabendefinition

Sei T die Menge der Aufgaben, |T| die Anzahl der Aufgaben. Das vortrainierte Modellgewicht sei θ_base. Für Aufgabe t∈T bezeichne θ_t^(k) die Parameter nach k Epochen Feinabstimmung auf Aufgabe t. Der Task Vector ist definiert als:

τ_t^(k) := θ_t^(k) - θ_base

Der empirische Verlust für Aufgabe t ist:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Zentrale theoretische Ergebnisse

Theorem 1: Äquivalenz zwischen Task Arithmetic und Multi-Task-Learning

Sei θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) das durch Task Arithmetic erhaltene Modell, wobei {θ_t^(k)}{t∈T} durch k Epochen vollständigen Batch-Gradientenabstieg mit Schrittweite η erzeugt wird. Sei θ_MT^(k) das Ergebnis von k Epochen Gradientenabstieg auf dem aggregierten Verlust Σ{t∈T} L_t mit Schrittweite αη. Dann gilt:

Vollständige Äquivalenz in der ersten Epoch:
```
θ_TA^(1) = θ_MT^(1)
```

Näherungsäquivalenz für mehrere Epochen (k > 1):

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

wobei C der Fehlerterm zweiter Ordnung ist:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Dominanzanalyse der ersten Epoch

Die Theorie zeigt, dass der Gradient der ersten Epoch die gesamte Feinabstimmungstrajektorie dominiert:

Gradienten-Norm-Analyse: Die erste Epoch trägt den größten Anteil zur Gesamtgradienten-Norm bei
Richtungskonsistenz: Gradienten nachfolgender Epochen behalten hohe Kosinus-Ähnlichkeit mit dem Gradienten der ersten Epoch (>0,8)
Leistungsäquivalenz: Verschmelzung von Modellen mit einer Epoch Feinabstimmung erreicht vergleichbare Leistung wie Verschmelzung vollständig konvergierter Modelle

Fehlergrenzen (Theorem 2)

Für ein Feedforward-Netzwerk der Tiefe L unter der Annahme beschränkter Gewichte, beschränkter Eingaben und beschränkter Ableitungen von Aktivierungsfunktionen:

Allgemeine Aktivierungsfunktionen:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU-Aktivierungsfunktionen:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

wobei H_max und G_max jeweils obere Grenzen der Hessian und des Gradienten sind.

Experimentelle Einrichtung

Datensätze

Experimente verwenden sieben visuelle Benchmark-Datensätze:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

Experimentelles Design

Eine Epoch vs. Konvergenz-Vergleich: Vergleich der Leistung von Modellen mit einer Epoch Feinabstimmung mit vollständig konvergierten Modellen
Gradienten-Analyse: Analyse des normalisierten Beitrags der Gradienten-Norm jeder Epoch
Richtungskonsistenz: Berechnung der Kosinus-Ähnlichkeit zwischen Gradienten verschiedener Epochen
Parameterraum-Trajektorie: Visualisierung der Parameterraum-Trajektorien verschiedener Verschmelzungsstrategien durch PCA

Vergleichsmethoden

Standard Task Arithmetic
TIES-merging
Model Breadcrumbs
DARE
Iterative Task Arithmetic

Experimentelle Ergebnisse

Hauptergebnisse

Validierung der Leistungsäquivalenz: Auf allen getesteten Datensätzen erreicht die Verschmelzung von Modellen mit einer Epoch Feinabstimmung vergleichbare Leistung wie die Verschmelzung vollständig konvergierter Modelle, in einigen Fällen sogar bessere
Dominanz der ersten Epoch:
- Die erste Epoch trägt 0,3-0,7 zur normalisierten Gradienten-Norm bei
- Die Kosinus-Ähnlichkeit zwischen den Gradienten der ersten fünf Epochen und dem Gradienten der ersten Epoch bleibt über 0,8
Parameterraum-Analyse: Iterative Task Arithmetic kann durch kleine Schrittweite-Updates das Modell zu verschiedenen und niedrigeren Verlustregionen führen

Ablationsstudien

Experimente validieren verschiedene Aspekte der theoretischen Vorhersagen:

Bestätigung der Dominanz des Gradienten der ersten Epoch
Validierung, dass nachfolgende Epochen relativ kleine Fehlerterme zweiter Ordnung einführen
Bestätigung, dass kurze Feinabstimmung für die Modellverschmelzung vorteilhafter ist

Wichtige Erkenntnisse

Aufgabenbeherrschung ≠ Verschmelzungsfähigkeit: Hochspezialisierte Modelle führen nicht notwendigerweise zu besseren Verschmelzungsergebnissen
Bedeutung früher Dynamik: Frühe Trainingsdynamik ist entscheidend für erfolgreiche Modellverschmelzung
Qualität der Gradienten-Approximation: Die Qualität der Task Vectors als Approximation echter Multi-Task-Gradienten nimmt mit zunehmender Feinabstimmungszeit ab

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Durchbruch: Erste rigorose mathematische Verbindung zwischen Task Vectors und Gradienten
Praktische Orientierung: Beweis der Effektivität von einer Epoch Feinabstimmung mit praktischer Anleitung
Neue Perspektive: Neurahmen von Task Arithmetic als Approximation des Multi-Task-Learning

Einschränkungen

Theoretische Annahmen: Analyse basiert auf vollständigem Batch-Gradientenabstieg, praktisch wird häufig SGD verwendet
Netzwerk-Architektur: Explizite Grenzen nur für Feedforward-Netzwerke, moderne Architekturen (CNN, Transformer) sind komplexer
Experimenteller Umfang: Hauptsächlich auf visuellen Aufgaben validiert, Anwendbarkeit in anderen Bereichen erfordert weitere Verifikation

Zukünftige Richtungen

SGD-Theorie-Erweiterung: Erweiterung der Theorie auf stochastische Gradientenabstiegs-Einstellungen
Komplexe Architekturen: Bereitstellung theoretischer Grenzen für CNN, Transformer usw.
Optimierung des Fehlerterms zweiter Ordnung: Untersuchung, wann Fehlerterme zweiter Ordnung vernachlässigbar oder approximierbar sind
Einheitliches Verständnis: Erforschung von Verbindungen mit Early Stopping, flachen/scharfen Minima und anderen Konzepten

Tiefgreifende Bewertung

Stärken

Signifikanter theoretischer Beitrag: Schließt wichtige Lücke im theoretischen Verständnis von Task Arithmetic
Rigorose mathematische Analyse: Bietet vollständige Beweise und explizite Fehlergrenzen
Umfassende experimentelle Validierung: Theoretische Vorhersagen werden durch Experimente auf mehreren Datensätzen unterstützt
Hoher praktischer Wert: Bietet theoretische Orientierung für Modellverschmelzungsstrategien

Mängel

Starke Annahmebedingungen: Vollständige Batch-GD-Annahme weicht von praktischen Anwendungen ab
Architektur-Einschränkungen: Theoretische Ergebnisse gelten hauptsächlich für einfache Feedforward-Netzwerke
Enge Aufgabenbereiche: Experimente konzentrieren sich hauptsächlich auf visuelle Klassifizierungsaufgaben

Auswirkungen

Akademischer Wert: Bietet wichtige theoretische Grundlage für das Modellverschmelzungsfeld
Praktische Bedeutung: Leitet effizientere Modellverschmelzungsstrategien an
Hohe Inspirationskraft: Bietet neuen theoretischen Rahmen für nachfolgende Forschung

Anwendungsszenarien

Multi-Task-Bereitstellung: Szenarien, in denen mehrere spezialisierte Modelle in ein einheitliches Modell verschmolzen werden müssen
Ressourcenbegrenzte Umgebungen: Anwendungen mit begrenzten Speicher- und Rechenressourcen
Schnelle Anpassung: Szenarien, in denen schnell Multi-Task-Fähigkeiten erworben werden müssen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in den Bereichen Modellverschmelzung, Task Vectors und Multi-Task-Learning, einschließlich:

Ilharco et al. (2022) - Originalarbeit zu Task Arithmetic
Zhou et al. (2025) - Iterative Task Arithmetic
Ortiz-Jimenez et al. (2024) - Task Arithmetic im Tangentialraum
Wortsman et al. (2022) - Model Soups-Methode

Dieses Papier bietet durch rigorose mathematische Analyse eine theoretische Grundlage für Task Arithmetic, erklärt nicht nur die Gründe für ihre Effektivität, sondern bietet auch wertvolle Orientierung für praktische Anwendungen. Trotz einiger Einschränkungen der theoretischen Annahmen sind seine Beiträge für das Verständnis und die Verbesserung von Modellverschmelzungstechniken von großer Bedeutung.