2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

Sui Vettori di Compito e i Gradienti

Informazioni Fondamentali

ID Articolo: 2508.16082
Titolo: On Task Vectors and Gradients
Autori: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
Classificazione: cs.LG, cs.AI
Data di Pubblicazione/Conferenza: NeurIPS 2025 Workshop: UniReps
Link Articolo: https://arxiv.org/abs/2508.16082

Riassunto

L'aritmetica dei compiti (Task Arithmetic) rappresenta una tecnica semplice ma potente di fusione di modelli che consente di combinare più modelli sottoposti a fine-tuning in un modello unificato. Sebbene mostri eccellenti prestazioni sperimentali, manca di una chiara spiegazione teorica riguardante il suo funzionamento e le condizioni di applicabilità. Questo articolo fornisce una base teorica rigorosa per l'aritmetica dei compiti stabilendo un collegamento tra i vettori di compito e i gradienti della perdita del compito. La ricerca dimostra che, in condizioni di discesa del gradiente standard, il vettore di compito prodotto da un fine-tuning di un'epoca è completamente equivalente al gradiente negativo della perdita moltiplicato per il tasso di apprendimento. Per impostazioni pratiche multi-epoca, questa equivalenza vale approssimativamente, con un termine di errore del secondo ordine per il quale gli autori forniscono limiti espliciti per le reti feed-forward. L'analisi sperimentale su sette benchmark visivi verifica la teoria, dimostrando che il gradiente della prima epoca domina la traiettoria di fine-tuning sia in norma che in direzione. Una scoperta importante è che la fusione di modelli sottoposti a fine-tuning per una sola epoca spesso raggiunge prestazioni comparabili alla fusione di modelli completamente convergenti.

Contesto di Ricerca e Motivazione

Contesto del Problema

Il paradigma pre-addestramento-fine-tuning è diventato fondamentale nell'apprendimento profondo, consentendo ai grandi modelli universali di adattarsi a innumerevoli compiti specifici. Tuttavia, questo successo comporta costi significativi: l'archiviazione di modelli sottoposti a fine-tuning separati per ogni compito genera enormi spese di archiviazione, una sfida che si aggrava con la crescita del numero di applicazioni specializzate.

Problemi Fondamentali

Problema di efficienza di archiviazione: Ogni compito richiede un modello sottoposto a fine-tuning indipendente, causando una crescita lineare dei costi di archiviazione
Mancanza di comprensione teorica: Sebbene l'aritmetica dei compiti mostri buone prestazioni sperimentali, manca una spiegazione teorica rigorosa
Strategia di fine-tuning ottimale non definita: Non è chiaro per quanto tempo il fine-tuning sia più efficace per la fusione di modelli

Limitazioni dei Metodi Esistenti

L'aritmetica dei compiti, sebbene semplice ed efficace, manca di fondamenti teorici
Lavori precedenti hanno osservato empiricamente che i vettori di compito da fine-tuning breve sono più adatti per la fusione, ma senza spiegazione rigorosa
Manca un'analisi matematica della relazione tra vettori di compito e gradienti

Motivazione della Ricerca

Questo articolo mira a colmare il vuoto teorico, rivelando attraverso l'analisi matematica il funzionamento dell'aritmetica dei compiti, in particolare stabilendo il collegamento tra vettori di compito e gradienti dell'apprendimento multi-compito.

Contributi Principali

Fondazione Teorica: Dimostrazione rigorosa che il vettore di compito della discesa del gradiente a un'epoca è il gradiente negativo scalato, con la differenza tra iterazioni successive dell'aritmetica dei compiti e l'addestramento multi-compito congiunto pari a un termine del secondo ordine O(η²)
Derivazione di Limiti di Errore: Derivazione di limiti espliciti della norma 2 uniforme per il termine di errore del secondo ordine nelle reti feed-forward, assumendo pesi limitati e funzioni di attivazione con derivate limitate
Verifica Sperimentale: Conferma sperimentale su più compiti visivi del contributo dominante del gradiente della prima epoca alla traiettoria complessiva di fine-tuning, sia in norma che in direzione
Guida Pratica: Fornisce una base teorica per l'utilità del fine-tuning breve per la fusione di modelli, riconcettualizzando l'aritmetica dei compiti come approssimazione dell'apprendimento multi-compito

Dettagli del Metodo

Definizione dei Compiti

Sia T l'insieme dei compiti, |T| il numero di compiti. I pesi del modello pre-addestrato sono θ_base. Per il compito t∈T, θ_t^(k) rappresenta i parametri dopo k epoche di fine-tuning sul compito t. Il vettore di compito è definito come:

τ_t^(k) := θ_t^(k) - θ_base

La perdita empirica per il compito t è:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Risultati Teorici Fondamentali

Teorema 1: Equivalenza tra Aritmetica dei Compiti e Apprendimento Multi-Compito

Sia θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) il modello ottenuto utilizzando l'aritmetica dei compiti, dove {θ_t^(k)}{t∈T} è prodotto da k epoche di discesa del gradiente a lotto completo con passo η. Sia θ_MT^(k) il risultato di k epoche di discesa del gradiente sulla perdita aggregata Σ{t∈T} L_t con passo αη. Allora:

Equivalenza Completa della Prima Epoca:
```
θ_TA^(1) = θ_MT^(1)
```

Equivalenza Approssimata Multi-Epoca (k > 1):

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

Dove il termine C è il termine di errore del secondo ordine:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Analisi della Dominanza della Prima Epoca

La teoria dimostra che le informazioni del gradiente della prima epoca dominano l'intera traiettoria di fine-tuning:

Analisi della Norma del Gradiente: La prima epoca contribuisce con la quota massima della norma del gradiente totale
Coerenza Direzionale: I gradienti delle epoche successive mantengono un'elevata somiglianza del coseno con il gradiente della prima epoca (>0,8)
Equivalenza di Prestazioni: Le prestazioni della fusione di modelli sottoposti a fine-tuning per un'epoca sono comparabili a quelle della fusione di modelli completamente convergenti

Limiti di Errore (Teorema 2)

Per una rete feed-forward di profondità L, sotto le ipotesi di pesi limitati, input limitati e funzioni di attivazione con derivate limitate:

Funzioni di Attivazione Generali:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

Funzioni di Attivazione ReLU:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

Dove H_max e G_max sono rispettivamente i limiti superiori dell'Hessiano e del gradiente.

Configurazione Sperimentale

Dataset

Gli esperimenti utilizzano sette benchmark visivi:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

Progettazione Sperimentale

Confronto Un'Epoca vs Convergenza: Confronto delle prestazioni tra la fusione di modelli sottoposti a fine-tuning per un'epoca e modelli completamente convergenti
Analisi del Gradiente: Analisi del contributo normalizzato della norma del gradiente per ogni epoca
Coerenza Direzionale: Calcolo della somiglianza del coseno tra i gradienti di diverse epoche
Traiettoria nello Spazio dei Parametri: Visualizzazione tramite PCA delle traiettorie nello spazio dei parametri per diverse strategie di fusione

Metodi di Confronto

Aritmetica dei Compiti Standard (Task Arithmetic)
TIES-merging
Model Breadcrumbs
DARE
Aritmetica dei Compiti Iterativa (Iterative TA)

Risultati Sperimentali

Risultati Principali

Verifica dell'Equivalenza di Prestazioni: Su tutti i dataset testati, le prestazioni della fusione di modelli sottoposti a fine-tuning per un'epoca sono sostanzialmente comparabili a quelle della fusione di modelli completamente convergenti, in alcuni casi addirittura superiori
Dominanza della Prima Epoca:
- La prima epoca contribuisce con una norma del gradiente normalizzata di 0,3-0,7
- La somiglianza del coseno tra i gradienti delle prime 5 epoche e il gradiente della prima epoca rimane superiore a 0,8
Analisi dello Spazio dei Parametri: L'aritmetica dei compiti iterativa, attraverso aggiornamenti a piccoli passi, guida il modello verso regioni diverse e con perdita inferiore

Esperimenti di Ablazione

Gli esperimenti verificano vari aspetti delle previsioni teoriche:

Conferma della posizione dominante del gradiente della prima epoca
Verifica che l'errore del secondo ordine introdotto dalle epoche successive è relativamente piccolo
Conferma che il fine-tuning breve è più favorevole per la fusione di modelli

Scoperte Chiave

Specializzazione ≠ Capacità di Fusione: I modelli altamente specializzati non necessariamente producono risultati di fusione migliori
Importanza della Dinamica Iniziale: La dinamica dell'addestramento iniziale è cruciale per la fusione di modelli di successo
Qualità dell'Approssimazione del Gradiente: La qualità dell'approssimazione del vettore di compito rispetto al vero gradiente multi-compito diminuisce con l'aumentare del tempo di fine-tuning

Lavori Correlati

Connettività dei Modelli e Fusione di Modelli

La ricerca sulla connettività lineare dei modelli rivela l'esistenza di percorsi lineari tra modelli con inizializzazione condivisa
I metodi di fusione basati su permutazioni risolvono i problemi di simmetria attraverso il trasporto ottimale

Metodi dei Vettori di Compito

I vettori di compito rappresentano gli aggiornamenti specifici del compito come incrementi del modello condiviso
I metodi estesi riducono l'interferenza attraverso sparsità, potatura e maschere

Apprendimento Multi-Compito

L'apprendimento multi-compito tradizionale migliora le prestazioni attraverso rappresentazioni condivise e bias induttivi
Metodi come la chirurgia del gradiente affrontano i conflitti di gradiente tra compiti

Conclusioni e Discussione

Conclusioni Principali

Scoperta Teorica: Primo collegamento matematico rigoroso tra vettori di compito e gradienti
Guida Pratica: Dimostrazione dell'efficacia del fine-tuning di un'epoca, fornendo orientamento per le applicazioni pratiche
Nuova Prospettiva: Riconcettualizzazione dell'aritmetica dei compiti come approssimazione dell'apprendimento multi-compito

Limitazioni

Ipotesi Teoriche: L'analisi si basa sulla discesa del gradiente a lotto completo, mentre in pratica si utilizza principalmente SGD
Architetture di Rete: I limiti espliciti si applicano solo alle reti feed-forward, mentre le architetture moderne (CNN, Transformer) sono più complesse
Portata Sperimentale: La verifica è principalmente su compiti visivi, l'applicabilità ad altri domini richiede ulteriore verifica

Direzioni Future

Estensione della Teoria SGD: Estensione della teoria alle impostazioni di discesa del gradiente stocastico
Architetture Complesse: Fornire limiti teorici per CNN, Transformer e altre architetture
Ottimizzazione del Termine del Secondo Ordine: Ricerca su quando il termine di errore del secondo ordine è trascurabile o approssimabile
Comprensione Unificata: Esplorazione dei collegamenti con concetti come l'early stopping e i minimi piatti/acuti

Valutazione Approfondita

Punti di Forza

Contributo Teorico Significativo: Colma un importante vuoto nella comprensione teorica dell'aritmetica dei compiti
Analisi Matematica Rigorosa: Fornisce prove complete e limiti di errore espliciti
Verifica Sperimentale Completa: Le previsioni teoriche sono supportate da esperimenti su più dataset
Valore Pratico Elevato: Fornisce orientamento teorico per le strategie di fusione di modelli

Insufficienze

Ipotesi Forti: L'ipotesi di GD a lotto completo si discosta dalle applicazioni pratiche
Limitazioni Architetturali: I risultati teorici si applicano principalmente a semplici reti feed-forward
Ambito di Compiti Ristretto: Gli esperimenti si concentrano principalmente su compiti di classificazione visiva

Impatto

Valore Accademico: Fornisce una base teorica importante per il campo della fusione di modelli
Significato Pratico: Guida strategie di fusione di modelli più efficienti
Forte Capacità Ispirativa: Fornisce un nuovo framework teorico per la ricerca successiva

Scenari Applicabili

Distribuzione Multi-Compito: Scenari che richiedono la fusione di più modelli specializzati in un modello unificato
Ambienti con Risorse Limitate: Applicazioni con risorse di archiviazione e calcolo limitate
Adattamento Rapido: Scenari che richiedono l'acquisizione rapida di capacità multi-compito

Bibliografia

L'articolo cita importanti lavori nei campi della fusione di modelli, vettori di compito e apprendimento multi-compito, inclusi:

Ilharco et al. (2022) - Lavoro originale sull'aritmetica dei compiti
Zhou et al. (2025) - Aritmetica dei compiti iterativa
Ortiz-Jimenez et al. (2024) - Aritmetica dei compiti nello spazio tangente
Wortsman et al. (2022) - Metodo della zuppa di modelli

Questo articolo fornisce una base teorica rigorosa per l'aritmetica dei compiti attraverso un'analisi matematica rigorosa, non solo spiegando le ragioni della sua efficacia, ma fornendo anche orientamento prezioso per le applicazioni pratiche. Sebbene esistano alcune limitazioni nelle ipotesi teoriche, i suoi contributi sono significativi per la comprensione e il miglioramento delle tecniche di fusione di modelli.