2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

Sur les Vecteurs de Tâches et les Gradients

Informations Fondamentales

ID de l'article: 2508.16082
Titre: On Task Vectors and Gradients
Auteurs: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
Classification: cs.LG, cs.AI
Date de publication/Conférence: NeurIPS 2025 Workshop: UniReps
Lien de l'article: https://arxiv.org/abs/2508.16082

Résumé

L'arithmétique des tâches (Task Arithmetic) constitue une technique simple mais puissante de fusion de modèles, permettant de combiner plusieurs modèles affinés en un modèle unifié. Bien que démontrant une excellente performance expérimentale, elle manque d'explication théorique claire quant à son fonctionnement et ses conditions d'applicabilité. Cet article établit une base théorique rigoureuse pour l'arithmétique des tâches en établissant un lien entre les vecteurs de tâches et les gradients de perte des tâches. L'étude révèle que, dans les conditions de descente de gradient standard, un vecteur de tâche produit par un affinage d'une époque est exactement équivalent au gradient négatif de la perte multiplié par le taux d'apprentissage. Pour les configurations pratiques multi-époque, cette équivalence s'applique approximativement, avec un terme d'erreur du second ordre que les auteurs délimitent explicitement pour les réseaux de neurones feedforward. L'analyse expérimentale sur sept repères visuels valide la théorie, démontrant que le gradient de la première époque domine la trajectoire d'affinage tant en norme qu'en direction. Une découverte importante est que la fusion de modèles affinés sur une seule époque atteint souvent une performance comparable à celle de la fusion de modèles complètement convergés.

Contexte et Motivation de la Recherche

Contexte du Problème

Le paradigme pré-entraînement-affinage est devenu la pierre angulaire de l'apprentissage profond, permettant aux grands modèles universels de s'adapter à d'innombrables tâches spécifiques. Cependant, ce succès s'accompagne de coûts significatifs : le stockage de modèles affinés distincts pour chaque tâche génère une surcharge de stockage considérable, défi qui s'aggrave avec la croissance du nombre d'applications spécialisées.

Problèmes Fondamentaux

Problème d'efficacité de stockage: Chaque tâche nécessite un modèle affiné indépendant, entraînant une croissance linéaire des coûts de stockage
Absence de compréhension théorique: Bien que l'arithmétique des tâches fonctionne bien expérimentalement, elle manque d'explication théorique rigoureuse
Stratégie d'affinage optimale non clarifiée: Il n'est pas clair combien de temps l'affinage est optimal pour la fusion de modèles

Limitations des Approches Existantes

L'arithmétique des tâches, bien que simple et efficace, manque de fondements théoriques
Les travaux antérieurs ont observé empiriquement que les vecteurs de tâches issus d'affinage court sont plus appropriés pour la fusion, sans explication rigoureuse
Absence d'analyse mathématique de la relation entre vecteurs de tâches et gradients

Motivation de la Recherche

Cet article vise à combler le vide théorique en révélant par analyse mathématique le fonctionnement de l'arithmétique des tâches, en particulier en établissant le lien entre les vecteurs de tâches et les gradients d'apprentissage multi-tâches.

Contributions Principales

Établissement des Fondements Théoriques: Preuve rigoureuse que le vecteur de tâche de la descente de gradient d'une époque est le gradient négatif mis à l'échelle, et que la différence entre les itérations d'arithmétique des tâches et l'entraînement multi-tâches conjoint est uniquement un terme du second ordre O(η²)
Dérivation de Bornes d'Erreur: Dérivation de bornes explicites de norme 2 uniforme pour le terme d'erreur du second ordre pour les réseaux feedforward, en supposant des poids bornés et des fonctions d'activation avec dérivées bornées
Validation Expérimentale: Confirmation expérimentale sur plusieurs tâches visuelles de la contribution dominante du gradient de la première époque à la trajectoire d'affinage globale, tant en norme qu'en direction
Orientation Pratique: Fourniture d'une justification théorique pour l'avantage de l'affinage court pour la fusion de modèles, redéfinissant l'arithmétique des tâches comme une approximation de l'apprentissage multi-tâches

Détails de la Méthode

Définition des Tâches

Soit T l'ensemble des tâches, |T| le nombre de tâches. Les poids du modèle pré-entraîné sont θ_base. Pour une tâche t∈T, θ_t^(k) représente les paramètres après affinage de k époques sur la tâche t. Le vecteur de tâche est défini comme:

τ_t^(k) := θ_t^(k) - θ_base

La perte empirique de la tâche t est:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Résultats Théoriques Fondamentaux

Théorème 1: Équivalence entre Arithmétique des Tâches et Apprentissage Multi-Tâches

Soit θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) le modèle obtenu par arithmétique des tâches, où {θ_t^(k)}{t∈T} est produit par k époques de descente de gradient en lot complet avec taux d'apprentissage η. Soit θ_MT^(k) le résultat de k époques de descente de gradient sur la perte agrégée Σ{t∈T} L_t avec taux d'apprentissage αη. Alors:

Équivalence Complète à la Première Époque:
```
θ_TA^(1) = θ_MT^(1)
```

Équivalence Approximative Multi-Époque (k > 1):

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

Où le terme C est le terme d'erreur du second ordre:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Analyse de la Dominance de la Première Époque

La théorie démontre que les informations de gradient de la première époque dominent la trajectoire d'affinage entière:

Analyse de la Norme du Gradient: La première époque contribue à la plus grande part de la norme de gradient totale
Cohérence Directionnelle: Les gradients des époques suivantes maintiennent une similarité cosinus élevée (>0,8) avec le gradient de la première époque
Équivalence de Performance: La performance de fusion de modèles affinés sur une époque est comparable à celle de modèles complètement convergés

Bornes d'Erreur (Théorème 2)

Pour un réseau feedforward de profondeur L, sous les hypothèses de poids bornés, d'entrées bornées et de fonctions d'activation avec dérivées bornées:

Fonctions d'Activation Générales:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

Fonction d'Activation ReLU:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

Où H_max et G_max sont respectivement les bornes supérieures de la Hessienne et du gradient.

Configuration Expérimentale

Ensembles de Données

Les expériences utilisent sept ensembles de données de repères visuels:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

Conception Expérimentale

Comparaison Une Époque vs Convergence: Comparaison de la performance de fusion de modèles affinés sur une époque avec celle de modèles complètement convergés
Analyse des Gradients: Analyse de la contribution normalisée de la norme de gradient à chaque époque
Cohérence Directionnelle: Calcul de la similarité cosinus entre gradients de différentes époques
Trajectoire dans l'Espace des Paramètres: Visualisation par PCA des trajectoires dans l'espace des paramètres pour différentes stratégies de fusion

Méthodes de Comparaison

Arithmétique des Tâches Standard (Task Arithmetic)
TIES-merging
Model Breadcrumbs
DARE
Arithmétique des Tâches Itérative (Iterative TA)

Résultats Expérimentaux

Résultats Principaux

Validation de l'Équivalence de Performance: Sur tous les ensembles de données testés, la performance de fusion de modèles affinés sur une époque est essentiellement comparable à celle de modèles complètement convergés, et dans certains cas même supérieure
Dominance de la Première Époque:
- La première époque contribue à 0,3-0,7 de la norme de gradient normalisée
- La similarité cosinus entre les gradients des cinq premières époques et le gradient de la première époque reste supérieure à 0,8
Analyse de l'Espace des Paramètres: L'arithmétique des tâches itérative, par des mises à jour à petit pas, guide le modèle vers des régions différentes et à perte plus faible

Expériences d'Ablation

Les expériences valident différents aspects des prédictions théoriques:

Confirmation de la position dominante du gradient de la première époque
Vérification que le terme d'erreur du second ordre introduit par les époques suivantes est relativement petit
Confirmation que l'affinage court est plus favorable à la fusion de modèles

Découvertes Clés

Maîtrise des Tâches ≠ Capacité de Fusion: Les modèles hautement spécialisés ne produisent pas nécessairement de meilleurs résultats de fusion
Importance de la Dynamique Précoce: La dynamique d'entraînement précoce est cruciale pour une fusion de modèles réussie
Qualité de l'Approximation du Gradient: La qualité de l'approximation du vecteur de tâche par rapport au vrai gradient multi-tâches diminue avec l'augmentation du temps d'affinage

Travaux Connexes

Connectivité des Modes et Fusion de Modèles

Les études sur la connectivité des modes linéaires révèlent l'existence de chemins linéaires entre modèles partageant l'initialisation
Les méthodes de fusion basées sur la permutation résolvent les problèmes de symétrie par transport optimal

Méthodes des Vecteurs de Tâches

Les vecteurs de tâches représentent les mises à jour spécifiques aux tâches comme des incréments du modèle partagé
Les méthodes étendues réduisent les interférences par la parcimonie, l'élagage et les masques

Apprentissage Multi-Tâches

L'apprentissage multi-tâches traditionnel améliore la performance par la représentation partagée et les biais inductifs
Des méthodes comme la chirurgie des gradients résolvent les conflits de gradients entre tâches

Conclusions et Discussion

Conclusions Principales

Percée Théorique: Établissement pour la première fois d'un lien mathématique rigoureux entre vecteurs de tâches et gradients
Orientation Pratique: Démonstration de l'efficacité de l'affinage d'une époque, fournissant des conseils pour les applications pratiques
Nouvelle Perspective: Redéfinition de l'arithmétique des tâches comme approximation de l'apprentissage multi-tâches

Limitations

Hypothèses Théoriques: L'analyse repose sur la descente de gradient en lot complet, tandis que la pratique utilise principalement la SGD
Architecture Réseau: Les bornes explicites s'appliquent uniquement aux réseaux feedforward; les architectures modernes (CNN, Transformer) sont plus complexes
Portée Expérimentale: Validation principalement sur des tâches visuelles; l'applicabilité dans d'autres domaines nécessite une vérification supplémentaire

Directions Futures

Extension de la Théorie SGD: Extension de la théorie au cadre de la descente de gradient stochastique
Architectures Complexes: Fourniture de bornes théoriques pour CNN, Transformer, etc.
Optimisation du Terme du Second Ordre: Étude des conditions où le terme d'erreur du second ordre peut être négligé ou approximé
Compréhension Unifiée: Exploration des connexions avec l'arrêt précoce, les minima plats/aigus et autres concepts

Évaluation Approfondie

Points Forts

Contribution Théorique Significative: Comble un vide important dans la compréhension théorique de l'arithmétique des tâches
Analyse Mathématique Rigoureuse: Fournit des preuves complètes et des bornes d'erreur explicites
Validation Expérimentale Suffisante: Les prédictions théoriques sont soutenues par des expériences sur plusieurs ensembles de données
Valeur Pratique Élevée: Fournit une orientation théorique pour les stratégies de fusion de modèles

Insuffisances

Conditions d'Hypothèses Fortes: L'hypothèse de GD en lot complet s'écarte des applications pratiques
Restrictions Architecturales: Les résultats théoriques s'appliquent principalement aux réseaux feedforward simples
Portée des Tâches Étroite: Les expériences se concentrent principalement sur les tâches de classification visuelle

Impact

Valeur Académique: Fournit une base théorique importante pour le domaine de la fusion de modèles
Signification Pratique: Guide des stratégies de fusion de modèles plus efficaces
Force Inspiratrice: Fournit un nouveau cadre théorique pour les recherches ultérieures

Scénarios d'Application

Déploiement Multi-Tâches: Scénarios nécessitant la fusion de plusieurs modèles spécialisés en un modèle unifié
Environnements aux Ressources Limitées: Applications avec ressources de stockage et de calcul limitées
Adaptation Rapide: Scénarios nécessitant l'acquisition rapide de capacités multi-tâches

Références

L'article cite des travaux importants dans les domaines de la fusion de modèles, des vecteurs de tâches et de l'apprentissage multi-tâches, notamment:

Ilharco et al. (2022) - Travail original sur l'arithmétique des tâches
Zhou et al. (2025) - Arithmétique des tâches itérative
Ortiz-Jimenez et al. (2024) - Arithmétique des tâches dans l'espace tangent
Wortsman et al. (2022) - Méthode de soupe de modèles

Cet article fournit une base théorique rigoureuse pour l'arithmétique des tâches par analyse mathématique, expliquant non seulement les raisons de son efficacité, mais fournissant également des conseils précieux pour les applications pratiques. Bien qu'il existe certaines limitations dans les hypothèses théoriques, ses contributions sont d'une importance significative pour la compréhension et l'amélioration des techniques de fusion de modèles.