Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
L'aritmetica dei compiti (Task Arithmetic) rappresenta una tecnica semplice ma potente di fusione di modelli che consente di combinare più modelli sottoposti a fine-tuning in un modello unificato. Sebbene mostri eccellenti prestazioni sperimentali, manca di una chiara spiegazione teorica riguardante il suo funzionamento e le condizioni di applicabilità. Questo articolo fornisce una base teorica rigorosa per l'aritmetica dei compiti stabilendo un collegamento tra i vettori di compito e i gradienti della perdita del compito. La ricerca dimostra che, in condizioni di discesa del gradiente standard, il vettore di compito prodotto da un fine-tuning di un'epoca è completamente equivalente al gradiente negativo della perdita moltiplicato per il tasso di apprendimento. Per impostazioni pratiche multi-epoca, questa equivalenza vale approssimativamente, con un termine di errore del secondo ordine per il quale gli autori forniscono limiti espliciti per le reti feed-forward. L'analisi sperimentale su sette benchmark visivi verifica la teoria, dimostrando che il gradiente della prima epoca domina la traiettoria di fine-tuning sia in norma che in direzione. Una scoperta importante è che la fusione di modelli sottoposti a fine-tuning per una sola epoca spesso raggiunge prestazioni comparabili alla fusione di modelli completamente convergenti.
Il paradigma pre-addestramento-fine-tuning è diventato fondamentale nell'apprendimento profondo, consentendo ai grandi modelli universali di adattarsi a innumerevoli compiti specifici. Tuttavia, questo successo comporta costi significativi: l'archiviazione di modelli sottoposti a fine-tuning separati per ogni compito genera enormi spese di archiviazione, una sfida che si aggrava con la crescita del numero di applicazioni specializzate.
Problema di efficienza di archiviazione: Ogni compito richiede un modello sottoposto a fine-tuning indipendente, causando una crescita lineare dei costi di archiviazione
Mancanza di comprensione teorica: Sebbene l'aritmetica dei compiti mostri buone prestazioni sperimentali, manca una spiegazione teorica rigorosa
Strategia di fine-tuning ottimale non definita: Non è chiaro per quanto tempo il fine-tuning sia più efficace per la fusione di modelli
L'aritmetica dei compiti, sebbene semplice ed efficace, manca di fondamenti teorici
Lavori precedenti hanno osservato empiricamente che i vettori di compito da fine-tuning breve sono più adatti per la fusione, ma senza spiegazione rigorosa
Manca un'analisi matematica della relazione tra vettori di compito e gradienti
Questo articolo mira a colmare il vuoto teorico, rivelando attraverso l'analisi matematica il funzionamento dell'aritmetica dei compiti, in particolare stabilendo il collegamento tra vettori di compito e gradienti dell'apprendimento multi-compito.
Fondazione Teorica: Dimostrazione rigorosa che il vettore di compito della discesa del gradiente a un'epoca è il gradiente negativo scalato, con la differenza tra iterazioni successive dell'aritmetica dei compiti e l'addestramento multi-compito congiunto pari a un termine del secondo ordine O(η²)
Derivazione di Limiti di Errore: Derivazione di limiti espliciti della norma 2 uniforme per il termine di errore del secondo ordine nelle reti feed-forward, assumendo pesi limitati e funzioni di attivazione con derivate limitate
Verifica Sperimentale: Conferma sperimentale su più compiti visivi del contributo dominante del gradiente della prima epoca alla traiettoria complessiva di fine-tuning, sia in norma che in direzione
Guida Pratica: Fornisce una base teorica per l'utilità del fine-tuning breve per la fusione di modelli, riconcettualizzando l'aritmetica dei compiti come approssimazione dell'apprendimento multi-compito
Sia T l'insieme dei compiti, |T| il numero di compiti. I pesi del modello pre-addestrato sono θ_base. Per il compito t∈T, θ_t^(k) rappresenta i parametri dopo k epoche di fine-tuning sul compito t. Il vettore di compito è definito come:
Sia θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) il modello ottenuto utilizzando l'aritmetica dei compiti, dove {θ_t^(k)}{t∈T} è prodotto da k epoche di discesa del gradiente a lotto completo con passo η. Sia θ_MT^(k) il risultato di k epoche di discesa del gradiente sulla perdita aggregata Σ{t∈T} L_t con passo αη. Allora:
La teoria dimostra che le informazioni del gradiente della prima epoca dominano l'intera traiettoria di fine-tuning:
Analisi della Norma del Gradiente: La prima epoca contribuisce con la quota massima della norma del gradiente totale
Coerenza Direzionale: I gradienti delle epoche successive mantengono un'elevata somiglianza del coseno con il gradiente della prima epoca (>0,8)
Equivalenza di Prestazioni: Le prestazioni della fusione di modelli sottoposti a fine-tuning per un'epoca sono comparabili a quelle della fusione di modelli completamente convergenti
Confronto Un'Epoca vs Convergenza: Confronto delle prestazioni tra la fusione di modelli sottoposti a fine-tuning per un'epoca e modelli completamente convergenti
Analisi del Gradiente: Analisi del contributo normalizzato della norma del gradiente per ogni epoca
Coerenza Direzionale: Calcolo della somiglianza del coseno tra i gradienti di diverse epoche
Traiettoria nello Spazio dei Parametri: Visualizzazione tramite PCA delle traiettorie nello spazio dei parametri per diverse strategie di fusione
Verifica dell'Equivalenza di Prestazioni: Su tutti i dataset testati, le prestazioni della fusione di modelli sottoposti a fine-tuning per un'epoca sono sostanzialmente comparabili a quelle della fusione di modelli completamente convergenti, in alcuni casi addirittura superiori
Dominanza della Prima Epoca:
La prima epoca contribuisce con una norma del gradiente normalizzata di 0,3-0,7
La somiglianza del coseno tra i gradienti delle prime 5 epoche e il gradiente della prima epoca rimane superiore a 0,8
Analisi dello Spazio dei Parametri: L'aritmetica dei compiti iterativa, attraverso aggiornamenti a piccoli passi, guida il modello verso regioni diverse e con perdita inferiore
Specializzazione ≠ Capacità di Fusione: I modelli altamente specializzati non necessariamente producono risultati di fusione migliori
Importanza della Dinamica Iniziale: La dinamica dell'addestramento iniziale è cruciale per la fusione di modelli di successo
Qualità dell'Approssimazione del Gradiente: La qualità dell'approssimazione del vettore di compito rispetto al vero gradiente multi-compito diminuisce con l'aumentare del tempo di fine-tuning
Ipotesi Teoriche: L'analisi si basa sulla discesa del gradiente a lotto completo, mentre in pratica si utilizza principalmente SGD
Architetture di Rete: I limiti espliciti si applicano solo alle reti feed-forward, mentre le architetture moderne (CNN, Transformer) sono più complesse
Portata Sperimentale: La verifica è principalmente su compiti visivi, l'applicabilità ad altri domini richiede ulteriore verifica
L'articolo cita importanti lavori nei campi della fusione di modelli, vettori di compito e apprendimento multi-compito, inclusi:
Ilharco et al. (2022) - Lavoro originale sull'aritmetica dei compiti
Zhou et al. (2025) - Aritmetica dei compiti iterativa
Ortiz-Jimenez et al. (2024) - Aritmetica dei compiti nello spazio tangente
Wortsman et al. (2022) - Metodo della zuppa di modelli
Questo articolo fornisce una base teorica rigorosa per l'aritmetica dei compiti attraverso un'analisi matematica rigorosa, non solo spiegando le ragioni della sua efficacia, ma fornendo anche orientamento prezioso per le applicazioni pratiche. Sebbene esistano alcune limitazioni nelle ipotesi teoriche, i suoi contributi sono significativi per la comprensione e il miglioramento delle tecniche di fusione di modelli.