2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

Über Task Vectors und Gradienten

Grundinformationen

  • Paper-ID: 2508.16082
  • Titel: On Task Vectors and Gradients
  • Autoren: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • Klassifizierung: cs.LG, cs.AI
  • Veröffentlichungszeitpunkt/Konferenz: NeurIPS 2025 Workshop: UniReps
  • Paper-Link: https://arxiv.org/abs/2508.16082

Zusammenfassung

Task Arithmetic ist eine einfache und leistungsstarke Modellverschmelzungstechnik, die mehrere feinabgestimmte Modelle in ein einheitliches Modell kombiniert. Trotz ausgezeichneter experimenteller Ergebnisse fehlt eine klare theoretische Erklärung für ihre Funktionsweise und Anwendungsbedingungen. Dieses Papier bietet eine rigorose theoretische Grundlage für Task Arithmetic durch die Etablierung einer Verbindung zwischen Task Vectors und Task-Loss-Gradienten. Die Forschung zeigt, dass unter standardmäßigen Gradientenabstiegsbedingungen der Task Vector aus einer Epoch-Feinabstimmung vollständig äquivalent zum negativen Gradienten des Verlusts multipliziert mit der Lernrate ist. Für praktische Multi-Epoch-Einstellungen gilt diese Äquivalenz näherungsweise mit einem Fehlerterm zweiter Ordnung, für den die Autoren explizite Grenzen für Feedforward-Netzwerke angeben. Die Theorie wird durch experimentelle Analysen an sieben visuellen Benchmarks validiert, die zeigen, dass der Gradient der ersten Epoch die Feinabstimmungstrajektorie sowohl in Norm als auch in Richtung dominiert. Eine wichtige Erkenntnis ist, dass die Verschmelzung von Modellen, die nur eine Epoch feinabgestimmt wurden, häufig eine Leistung erreicht, die der Verschmelzung vollständig konvergierter Modelle entspricht.

Forschungshintergrund und Motivation

Problemhintergrund

Das Pretrain-Finetune-Paradigma ist zum Eckpfeiler des Deep Learning geworden und ermöglicht es großen universellen Modellen, sich an unzählige spezifische Aufgaben anzupassen. Dieser Erfolg bringt jedoch erhebliche Kosten mit sich: Das Speichern separater feinabgestimmter Modelle für jede Aufgabe führt zu enormen Speicherkosten, eine Herausforderung, die mit der Zunahme spezialisierter Anwendungen wächst.

Kernprobleme

  1. Speichereffizienzproblem: Jede Aufgabe erfordert ein unabhängiges feinabgestimmtes Modell, was zu linear wachsenden Speicherkosten führt
  2. Fehlende theoretische Grundlage: Obwohl Task Arithmetic experimentell gut funktioniert, fehlt eine rigorose theoretische Erklärung
  3. Unklare optimale Feinabstimmungsstrategie: Unklar ist, wie lange Feinabstimmung für die Modellverschmelzung am effektivsten ist

Einschränkungen bestehender Methoden

  • Task Arithmetic ist zwar einfach und effektiv, aber theoretisch unbegründet
  • Frühere Arbeiten beobachteten empirisch, dass Task Vectors aus kurzer Feinabstimmung besser für die Verschmelzung geeignet sind, ohne rigorose Erklärung
  • Mathematische Analyse der Beziehung zwischen Task Vectors und Gradienten fehlt

Forschungsmotivation

Dieses Papier zielt darauf ab, diese theoretische Lücke zu schließen, indem es durch mathematische Analyse die Funktionsweise von Task Arithmetic offenlegt, insbesondere die Verbindung zwischen Task Vectors und Multi-Task-Learning-Gradienten.

Kernbeiträge

  1. Theoretische Grundlegung: Rigoroser Beweis, dass der Task Vector aus Gradientenabstieg einer Epoch der skalierte negative Gradient ist, wobei die Differenz zwischen nachfolgenden Task-Arithmetic-Iterationen und gemeinsamen Multi-Task-Trainings nur ein Term zweiter Ordnung O(η²) ist
  2. Herleitung von Fehlergrenzen: Explizite einheitliche 2-Norm-Grenzen für den Fehlerterm zweiter Ordnung für Feedforward-Netzwerke unter der Annahme beschränkter Gewichte und beschränkter Ableitungen von Aktivierungsfunktionen
  3. Experimentelle Validierung: Experimente auf mehreren visuellen Aufgaben bestätigen den dominierenden Beitrag des Gradienten der ersten Epoch zur gesamten Feinabstimmungstrajektorie, sowohl in Norm als auch in Richtung
  4. Praktische Orientierung: Bietet theoretische Grundlage für die Vorteile kurzer Feinabstimmung bei der Modellverschmelzung und rahmt Task Arithmetic als Approximation des Multi-Task-Learning neu

Methodische Details

Aufgabendefinition

Sei T die Menge der Aufgaben, |T| die Anzahl der Aufgaben. Das vortrainierte Modellgewicht sei θ_base. Für Aufgabe t∈T bezeichne θ_t^(k) die Parameter nach k Epochen Feinabstimmung auf Aufgabe t. Der Task Vector ist definiert als:

τ_t^(k) := θ_t^(k) - θ_base

Der empirische Verlust für Aufgabe t ist:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Zentrale theoretische Ergebnisse

Theorem 1: Äquivalenz zwischen Task Arithmetic und Multi-Task-Learning

Sei θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) das durch Task Arithmetic erhaltene Modell, wobei {θ_t^(k)}{t∈T} durch k Epochen vollständigen Batch-Gradientenabstieg mit Schrittweite η erzeugt wird. Sei θ_MT^(k) das Ergebnis von k Epochen Gradientenabstieg auf dem aggregierten Verlust Σ{t∈T} L_t mit Schrittweite αη. Dann gilt:

  1. Vollständige Äquivalenz in der ersten Epoch:
    θ_TA^(1) = θ_MT^(1)
    
  2. Näherungsäquivalenz für mehrere Epochen (k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

wobei C der Fehlerterm zweiter Ordnung ist:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Dominanzanalyse der ersten Epoch

Die Theorie zeigt, dass der Gradient der ersten Epoch die gesamte Feinabstimmungstrajektorie dominiert:

  1. Gradienten-Norm-Analyse: Die erste Epoch trägt den größten Anteil zur Gesamtgradienten-Norm bei
  2. Richtungskonsistenz: Gradienten nachfolgender Epochen behalten hohe Kosinus-Ähnlichkeit mit dem Gradienten der ersten Epoch (>0,8)
  3. Leistungsäquivalenz: Verschmelzung von Modellen mit einer Epoch Feinabstimmung erreicht vergleichbare Leistung wie Verschmelzung vollständig konvergierter Modelle

Fehlergrenzen (Theorem 2)

Für ein Feedforward-Netzwerk der Tiefe L unter der Annahme beschränkter Gewichte, beschränkter Eingaben und beschränkter Ableitungen von Aktivierungsfunktionen:

Allgemeine Aktivierungsfunktionen:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU-Aktivierungsfunktionen:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

wobei H_max und G_max jeweils obere Grenzen der Hessian und des Gradienten sind.

Experimentelle Einrichtung

Datensätze

Experimente verwenden sieben visuelle Benchmark-Datensätze:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

Experimentelles Design

  1. Eine Epoch vs. Konvergenz-Vergleich: Vergleich der Leistung von Modellen mit einer Epoch Feinabstimmung mit vollständig konvergierten Modellen
  2. Gradienten-Analyse: Analyse des normalisierten Beitrags der Gradienten-Norm jeder Epoch
  3. Richtungskonsistenz: Berechnung der Kosinus-Ähnlichkeit zwischen Gradienten verschiedener Epochen
  4. Parameterraum-Trajektorie: Visualisierung der Parameterraum-Trajektorien verschiedener Verschmelzungsstrategien durch PCA

Vergleichsmethoden

  • Standard Task Arithmetic
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • Iterative Task Arithmetic

Experimentelle Ergebnisse

Hauptergebnisse

  1. Validierung der Leistungsäquivalenz: Auf allen getesteten Datensätzen erreicht die Verschmelzung von Modellen mit einer Epoch Feinabstimmung vergleichbare Leistung wie die Verschmelzung vollständig konvergierter Modelle, in einigen Fällen sogar bessere
  2. Dominanz der ersten Epoch:
    • Die erste Epoch trägt 0,3-0,7 zur normalisierten Gradienten-Norm bei
    • Die Kosinus-Ähnlichkeit zwischen den Gradienten der ersten fünf Epochen und dem Gradienten der ersten Epoch bleibt über 0,8
  3. Parameterraum-Analyse: Iterative Task Arithmetic kann durch kleine Schrittweite-Updates das Modell zu verschiedenen und niedrigeren Verlustregionen führen

Ablationsstudien

Experimente validieren verschiedene Aspekte der theoretischen Vorhersagen:

  • Bestätigung der Dominanz des Gradienten der ersten Epoch
  • Validierung, dass nachfolgende Epochen relativ kleine Fehlerterme zweiter Ordnung einführen
  • Bestätigung, dass kurze Feinabstimmung für die Modellverschmelzung vorteilhafter ist

Wichtige Erkenntnisse

  1. Aufgabenbeherrschung ≠ Verschmelzungsfähigkeit: Hochspezialisierte Modelle führen nicht notwendigerweise zu besseren Verschmelzungsergebnissen
  2. Bedeutung früher Dynamik: Frühe Trainingsdynamik ist entscheidend für erfolgreiche Modellverschmelzung
  3. Qualität der Gradienten-Approximation: Die Qualität der Task Vectors als Approximation echter Multi-Task-Gradienten nimmt mit zunehmender Feinabstimmungszeit ab

Verwandte Arbeiten

Muster-Konnektivität und Modellverschmelzung

  • Forschung zur linearen Muster-Konnektivität zeigt, dass lineare Pfade zwischen Modellen mit gemeinsamer Initialisierung existieren
  • Permutationsbasierte Verschmelzungsmethoden lösen Symmetrieprobleme durch optimalen Transport

Task-Vector-Methoden

  • Task Vectors stellen aufgabenspezifische Aktualisierungen als Inkremente des gemeinsamen Modells dar
  • Erweiterte Methoden reduzieren Interferenz durch Sparsität, Pruning und Masking

Multi-Task-Learning

  • Traditionelles Multi-Task-Learning verbessert die Leistung durch gemeinsame Repräsentationen und induktive Verzerrungen
  • Methoden wie Gradient Surgery lösen Gradienten-Konflikte zwischen Aufgaben

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Durchbruch: Erste rigorose mathematische Verbindung zwischen Task Vectors und Gradienten
  2. Praktische Orientierung: Beweis der Effektivität von einer Epoch Feinabstimmung mit praktischer Anleitung
  3. Neue Perspektive: Neurahmen von Task Arithmetic als Approximation des Multi-Task-Learning

Einschränkungen

  1. Theoretische Annahmen: Analyse basiert auf vollständigem Batch-Gradientenabstieg, praktisch wird häufig SGD verwendet
  2. Netzwerk-Architektur: Explizite Grenzen nur für Feedforward-Netzwerke, moderne Architekturen (CNN, Transformer) sind komplexer
  3. Experimenteller Umfang: Hauptsächlich auf visuellen Aufgaben validiert, Anwendbarkeit in anderen Bereichen erfordert weitere Verifikation

Zukünftige Richtungen

  1. SGD-Theorie-Erweiterung: Erweiterung der Theorie auf stochastische Gradientenabstiegs-Einstellungen
  2. Komplexe Architekturen: Bereitstellung theoretischer Grenzen für CNN, Transformer usw.
  3. Optimierung des Fehlerterms zweiter Ordnung: Untersuchung, wann Fehlerterme zweiter Ordnung vernachlässigbar oder approximierbar sind
  4. Einheitliches Verständnis: Erforschung von Verbindungen mit Early Stopping, flachen/scharfen Minima und anderen Konzepten

Tiefgreifende Bewertung

Stärken

  1. Signifikanter theoretischer Beitrag: Schließt wichtige Lücke im theoretischen Verständnis von Task Arithmetic
  2. Rigorose mathematische Analyse: Bietet vollständige Beweise und explizite Fehlergrenzen
  3. Umfassende experimentelle Validierung: Theoretische Vorhersagen werden durch Experimente auf mehreren Datensätzen unterstützt
  4. Hoher praktischer Wert: Bietet theoretische Orientierung für Modellverschmelzungsstrategien

Mängel

  1. Starke Annahmebedingungen: Vollständige Batch-GD-Annahme weicht von praktischen Anwendungen ab
  2. Architektur-Einschränkungen: Theoretische Ergebnisse gelten hauptsächlich für einfache Feedforward-Netzwerke
  3. Enge Aufgabenbereiche: Experimente konzentrieren sich hauptsächlich auf visuelle Klassifizierungsaufgaben

Auswirkungen

  1. Akademischer Wert: Bietet wichtige theoretische Grundlage für das Modellverschmelzungsfeld
  2. Praktische Bedeutung: Leitet effizientere Modellverschmelzungsstrategien an
  3. Hohe Inspirationskraft: Bietet neuen theoretischen Rahmen für nachfolgende Forschung

Anwendungsszenarien

  1. Multi-Task-Bereitstellung: Szenarien, in denen mehrere spezialisierte Modelle in ein einheitliches Modell verschmolzen werden müssen
  2. Ressourcenbegrenzte Umgebungen: Anwendungen mit begrenzten Speicher- und Rechenressourcen
  3. Schnelle Anpassung: Szenarien, in denen schnell Multi-Task-Fähigkeiten erworben werden müssen

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten in den Bereichen Modellverschmelzung, Task Vectors und Multi-Task-Learning, einschließlich:

  • Ilharco et al. (2022) - Originalarbeit zu Task Arithmetic
  • Zhou et al. (2025) - Iterative Task Arithmetic
  • Ortiz-Jimenez et al. (2024) - Task Arithmetic im Tangentialraum
  • Wortsman et al. (2022) - Model Soups-Methode

Dieses Papier bietet durch rigorose mathematische Analyse eine theoretische Grundlage für Task Arithmetic, erklärt nicht nur die Gründe für ihre Effektivität, sondern bietet auch wertvolle Orientierung für praktische Anwendungen. Trotz einiger Einschränkungen der theoretischen Annahmen sind seine Beiträge für das Verständnis und die Verbesserung von Modellverschmelzungstechniken von großer Bedeutung.