Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
L'arithmétique des tâches (Task Arithmetic) constitue une technique simple mais puissante de fusion de modèles, permettant de combiner plusieurs modèles affinés en un modèle unifié. Bien que démontrant une excellente performance expérimentale, elle manque d'explication théorique claire quant à son fonctionnement et ses conditions d'applicabilité. Cet article établit une base théorique rigoureuse pour l'arithmétique des tâches en établissant un lien entre les vecteurs de tâches et les gradients de perte des tâches. L'étude révèle que, dans les conditions de descente de gradient standard, un vecteur de tâche produit par un affinage d'une époque est exactement équivalent au gradient négatif de la perte multiplié par le taux d'apprentissage. Pour les configurations pratiques multi-époque, cette équivalence s'applique approximativement, avec un terme d'erreur du second ordre que les auteurs délimitent explicitement pour les réseaux de neurones feedforward. L'analyse expérimentale sur sept repères visuels valide la théorie, démontrant que le gradient de la première époque domine la trajectoire d'affinage tant en norme qu'en direction. Une découverte importante est que la fusion de modèles affinés sur une seule époque atteint souvent une performance comparable à celle de la fusion de modèles complètement convergés.
Le paradigme pré-entraînement-affinage est devenu la pierre angulaire de l'apprentissage profond, permettant aux grands modèles universels de s'adapter à d'innombrables tâches spécifiques. Cependant, ce succès s'accompagne de coûts significatifs : le stockage de modèles affinés distincts pour chaque tâche génère une surcharge de stockage considérable, défi qui s'aggrave avec la croissance du nombre d'applications spécialisées.
Problème d'efficacité de stockage: Chaque tâche nécessite un modèle affiné indépendant, entraînant une croissance linéaire des coûts de stockage
Absence de compréhension théorique: Bien que l'arithmétique des tâches fonctionne bien expérimentalement, elle manque d'explication théorique rigoureuse
Stratégie d'affinage optimale non clarifiée: Il n'est pas clair combien de temps l'affinage est optimal pour la fusion de modèles
L'arithmétique des tâches, bien que simple et efficace, manque de fondements théoriques
Les travaux antérieurs ont observé empiriquement que les vecteurs de tâches issus d'affinage court sont plus appropriés pour la fusion, sans explication rigoureuse
Absence d'analyse mathématique de la relation entre vecteurs de tâches et gradients
Cet article vise à combler le vide théorique en révélant par analyse mathématique le fonctionnement de l'arithmétique des tâches, en particulier en établissant le lien entre les vecteurs de tâches et les gradients d'apprentissage multi-tâches.
Établissement des Fondements Théoriques: Preuve rigoureuse que le vecteur de tâche de la descente de gradient d'une époque est le gradient négatif mis à l'échelle, et que la différence entre les itérations d'arithmétique des tâches et l'entraînement multi-tâches conjoint est uniquement un terme du second ordre O(η²)
Dérivation de Bornes d'Erreur: Dérivation de bornes explicites de norme 2 uniforme pour le terme d'erreur du second ordre pour les réseaux feedforward, en supposant des poids bornés et des fonctions d'activation avec dérivées bornées
Validation Expérimentale: Confirmation expérimentale sur plusieurs tâches visuelles de la contribution dominante du gradient de la première époque à la trajectoire d'affinage globale, tant en norme qu'en direction
Orientation Pratique: Fourniture d'une justification théorique pour l'avantage de l'affinage court pour la fusion de modèles, redéfinissant l'arithmétique des tâches comme une approximation de l'apprentissage multi-tâches
Soit T l'ensemble des tâches, |T| le nombre de tâches. Les poids du modèle pré-entraîné sont θ_base. Pour une tâche t∈T, θ_t^(k) représente les paramètres après affinage de k époques sur la tâche t. Le vecteur de tâche est défini comme:
Soit θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) le modèle obtenu par arithmétique des tâches, où {θ_t^(k)}{t∈T} est produit par k époques de descente de gradient en lot complet avec taux d'apprentissage η. Soit θ_MT^(k) le résultat de k époques de descente de gradient sur la perte agrégée Σ{t∈T} L_t avec taux d'apprentissage αη. Alors:
Comparaison Une Époque vs Convergence: Comparaison de la performance de fusion de modèles affinés sur une époque avec celle de modèles complètement convergés
Analyse des Gradients: Analyse de la contribution normalisée de la norme de gradient à chaque époque
Cohérence Directionnelle: Calcul de la similarité cosinus entre gradients de différentes époques
Trajectoire dans l'Espace des Paramètres: Visualisation par PCA des trajectoires dans l'espace des paramètres pour différentes stratégies de fusion
Validation de l'Équivalence de Performance: Sur tous les ensembles de données testés, la performance de fusion de modèles affinés sur une époque est essentiellement comparable à celle de modèles complètement convergés, et dans certains cas même supérieure
Dominance de la Première Époque:
La première époque contribue à 0,3-0,7 de la norme de gradient normalisée
La similarité cosinus entre les gradients des cinq premières époques et le gradient de la première époque reste supérieure à 0,8
Analyse de l'Espace des Paramètres: L'arithmétique des tâches itérative, par des mises à jour à petit pas, guide le modèle vers des régions différentes et à perte plus faible
Maîtrise des Tâches ≠ Capacité de Fusion: Les modèles hautement spécialisés ne produisent pas nécessairement de meilleurs résultats de fusion
Importance de la Dynamique Précoce: La dynamique d'entraînement précoce est cruciale pour une fusion de modèles réussie
Qualité de l'Approximation du Gradient: La qualité de l'approximation du vecteur de tâche par rapport au vrai gradient multi-tâches diminue avec l'augmentation du temps d'affinage
Hypothèses Théoriques: L'analyse repose sur la descente de gradient en lot complet, tandis que la pratique utilise principalement la SGD
Architecture Réseau: Les bornes explicites s'appliquent uniquement aux réseaux feedforward; les architectures modernes (CNN, Transformer) sont plus complexes
Portée Expérimentale: Validation principalement sur des tâches visuelles; l'applicabilité dans d'autres domaines nécessite une vérification supplémentaire
L'article cite des travaux importants dans les domaines de la fusion de modèles, des vecteurs de tâches et de l'apprentissage multi-tâches, notamment:
Ilharco et al. (2022) - Travail original sur l'arithmétique des tâches
Zhou et al. (2025) - Arithmétique des tâches itérative
Ortiz-Jimenez et al. (2024) - Arithmétique des tâches dans l'espace tangent
Wortsman et al. (2022) - Méthode de soupe de modèles
Cet article fournit une base théorique rigoureuse pour l'arithmétique des tâches par analyse mathématique, expliquant non seulement les raisons de son efficacité, mais fournissant également des conseils précieux pour les applications pratiques. Bien qu'il existe certaines limitations dans les hypothèses théoriques, ses contributions sont d'une importance significative pour la compréhension et l'amélioration des techniques de fusion de modèles.