2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

Sobre Vectores de Tareas y Gradientes

Información Básica

ID del Artículo: 2508.16082
Título: On Task Vectors and Gradients
Autores: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
Clasificación: cs.LG, cs.AI
Fecha de Publicación/Conferencia: NeurIPS 2025 Workshop: UniReps
Enlace del Artículo: https://arxiv.org/abs/2508.16082

Resumen

La Aritmética de Tareas (Task Arithmetic) es una técnica simple pero poderosa de fusión de modelos que permite combinar múltiples modelos ajustados en uno unificado. A pesar de su excelente desempeño experimental, carece de una explicación teórica clara sobre cómo funciona y bajo qué condiciones es aplicable. Este artículo proporciona una base teórica rigurosa para la Aritmética de Tareas estableciendo una conexión entre vectores de tareas y gradientes de pérdida de tareas. La investigación demuestra que bajo condiciones estándar de descenso de gradiente, un vector de tarea producido por un ajuste de una época es exactamente equivalente al gradiente negativo de la pérdida multiplicado por la tasa de aprendizaje. Para configuraciones prácticas de múltiples épocas, esta equivalencia se mantiene aproximadamente, con un término de error de segundo orden que los autores acotan explícitamente para redes neuronales de alimentación hacia adelante. El análisis experimental en siete puntos de referencia visuales valida la teoría, demostrando que el gradiente de la primera época domina la trayectoria de ajuste tanto en norma como en dirección. Un hallazgo importante es que la fusión de modelos ajustados durante solo una época a menudo logra un desempeño comparable al de la fusión de modelos completamente convergidos.

Contexto de Investigación y Motivación

Contexto del Problema

El paradigma de preentrenamiento-ajuste se ha convertido en la piedra angular del aprendizaje profundo, permitiendo que modelos universales grandes se adapten a innumerables tareas específicas. Sin embargo, este éxito conlleva costos significativos: almacenar modelos ajustados separados para cada tarea genera una sobrecarga de almacenamiento considerable, desafío que se agudiza con el crecimiento del número de aplicaciones especializadas.

Problemas Centrales

Problema de Eficiencia de Almacenamiento: Cada tarea requiere un modelo ajustado independiente, resultando en crecimiento lineal de costos de almacenamiento
Ausencia de Comprensión Teórica: A pesar del buen desempeño experimental de la Aritmética de Tareas, carece de explicación teórica rigurosa
Estrategia de Ajuste Óptima Incierta: No está claro cuánto tiempo de ajuste es más efectivo para la fusión de modelos

Limitaciones de Métodos Existentes

La Aritmética de Tareas, aunque simple y efectiva, carece de fundamentos teóricos
Trabajos previos solo observaron empíricamente que vectores de tareas de ajuste breve son más adecuados para fusión, sin explicación rigurosa
Falta análisis matemático de la relación entre vectores de tareas y gradientes

Motivación de la Investigación

Este artículo busca cerrar la brecha teórica, revelando mediante análisis matemático cómo funciona la Aritmética de Tareas, particularmente estableciendo la conexión entre vectores de tareas y gradientes de aprendizaje multitarea.

Contribuciones Principales

Establecimiento de Fundamentos Teóricos: Demuestra rigurosamente que el vector de tarea del descenso de gradiente de una época es un gradiente negativo escalado, con diferencias en iteraciones posteriores de Aritmética de Tareas versus entrenamiento multitarea conjunto siendo solo términos de segundo orden O(η²)
Derivación de Cotas de Error: Deriva cotas explícitas de norma-2 uniforme para términos de error de segundo orden en redes neuronales de alimentación hacia adelante, asumiendo pesos acotados y funciones de activación con derivadas acotadas
Validación Experimental: Confirma experimentalmente en múltiples tareas visuales la contribución dominante del gradiente de la primera época a la trayectoria general de ajuste, tanto en norma como en dirección
Orientación Práctica: Proporciona fundamento teórico para la ventaja del ajuste de corta duración en fusión de modelos, replanteando la Aritmética de Tareas como aproximación del aprendizaje multitarea

Detalles del Método

Definición de Tareas

Sea T el conjunto de tareas, |T| el número de tareas. Los pesos del modelo preentrenado son θ_base. Para la tarea t∈T, θ_t^(k) representa los parámetros después de ajustar k épocas en la tarea t. El vector de tarea se define como:

τ_t^(k) := θ_t^(k) - θ_base

La pérdida empírica para la tarea t es:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Resultados Teóricos Principales

Teorema 1: Equivalencia entre Aritmética de Tareas y Aprendizaje Multitarea

Sea θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) el modelo obtenido mediante Aritmética de Tareas, donde {θ_t^(k)}{t∈T} se produce mediante k épocas de descenso de gradiente de lote completo con tamaño de paso η. Sea θ_MT^(k) el resultado de k épocas de descenso de gradiente en la pérdida agregada Σ{t∈T} L_t con tamaño de paso αη. Entonces:

Equivalencia Completa en la Primera Época:
```
θ_TA^(1) = θ_MT^(1)
```

Equivalencia Aproximada en Múltiples Épocas (k > 1):

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

Donde el término C es el término de error de segundo orden:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Análisis de Dominancia de la Primera Época

La teoría demuestra que la información del gradiente de la primera época domina la trayectoria completa de ajuste:

Análisis de Norma de Gradiente: La primera época contribuye la mayor parte de la norma de gradiente total
Consistencia de Dirección: Los gradientes de épocas posteriores mantienen alta similitud de coseno con el gradiente de la primera época (>0.8)
Equivalencia de Desempeño: El desempeño de fusión de modelos ajustados una época es comparable al de modelos completamente convergidos

Cotas de Error (Teorema 2)

Para redes neuronales de alimentación hacia adelante de profundidad L, bajo supuestos de pesos acotados, entrada acotada y funciones de activación con derivadas acotadas:

Funciones de Activación Generales:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

Función de Activación ReLU:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

Donde H_max y G_max son cotas superiores del Hessiano y gradiente respectivamente.

Configuración Experimental

Conjuntos de Datos

Los experimentos utilizan siete conjuntos de datos de referencia visuales:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

Diseño Experimental

Comparación Una Época vs Convergencia: Compara el desempeño de fusión de modelos ajustados una época versus modelos completamente convergidos
Análisis de Gradientes: Analiza la contribución normalizada de norma de gradiente en cada época
Consistencia de Dirección: Calcula similitud de coseno entre gradientes de diferentes épocas
Trayectoria en Espacio de Parámetros: Visualiza trayectorias de espacio de parámetros de diferentes estrategias de fusión mediante PCA

Métodos de Comparación

Aritmética de Tareas Estándar (Task Arithmetic)
TIES-merging
Model Breadcrumbs
DARE
Aritmética de Tareas Iterativa (Iterative TA)

Resultados Experimentales

Resultados Principales

Validación de Equivalencia de Desempeño: En todos los conjuntos de datos probados, el desempeño de fusión de modelos ajustados una época es esencialmente comparable al de modelos completamente convergidos, en algunos casos incluso superior
Dominancia de la Primera Época:
- La primera época contribuye 0.3-0.7 de la norma de gradiente normalizada
- La similitud de coseno entre gradientes de las primeras 5 épocas y el gradiente de la primera época se mantiene por encima de 0.8
Análisis del Espacio de Parámetros: La Aritmética de Tareas Iterativa mediante actualizaciones de paso pequeño puede guiar el modelo a regiones diferentes con pérdida más baja

Experimentos de Ablación

Los experimentos validan varios aspectos de las predicciones teóricas:

Confirman la posición dominante del gradiente de la primera época
Verifican que el término de error de segundo orden introducido por épocas posteriores es relativamente pequeño
Corroboran que el ajuste de corta duración es más favorable para la fusión de modelos

Hallazgos Clave

Especialización ≠ Capacidad de Fusión: Modelos altamente especializados no necesariamente producen mejores resultados de fusión
Importancia de la Dinámica Temprana: La dinámica de entrenamiento temprano es crucial para la fusión exitosa de modelos
Calidad de Aproximación de Gradientes: La calidad de los vectores de tareas como aproximación de gradientes multitarea reales disminuye con el tiempo de ajuste

Trabajo Relacionado

Conectividad de Modos y Fusión de Modelos

La investigación de conectividad de modos lineal demuestra la existencia de caminos lineales entre modelos con inicialización compartida
Los métodos de fusión basados en permutación resuelven problemas de simetría mediante transporte óptimo

Métodos de Vectores de Tareas

Los vectores de tareas representan actualizaciones específicas de tareas como incrementos del modelo compartido
Los métodos extendidos reducen interferencia mediante sparsidad, poda y máscaras

Aprendizaje Multitarea

El aprendizaje multitarea tradicional mejora el desempeño mediante representaciones compartidas y sesgos inductivos
Métodos como cirugía de gradientes resuelven conflictos de gradientes entre tareas

Conclusiones y Discusión

Conclusiones Principales

Avance Teórico: Establece por primera vez una conexión matemática rigurosa entre vectores de tareas y gradientes
Orientación Práctica: Demuestra la efectividad del ajuste de una época, proporcionando orientación para aplicaciones prácticas
Nueva Perspectiva: Replantea la Aritmética de Tareas como aproximación del aprendizaje multitarea

Limitaciones

Supuestos Teóricos: El análisis se basa en descenso de gradiente de lote completo, mientras que la práctica utiliza principalmente SGD
Arquitecturas de Red: Las cotas explícitas son solo para redes de alimentación hacia adelante; arquitecturas modernas (CNN, Transformer) son más complejas
Alcance Experimental: La validación es principalmente en tareas visuales; la aplicabilidad en otros dominios requiere verificación adicional

Direcciones Futuras

Extensión de Teoría SGD: Extender la teoría a configuraciones de descenso de gradiente estocástico
Arquitecturas Complejas: Proporcionar cotas teóricas para CNN, Transformer, etc.
Optimización de Términos de Segundo Orden: Investigar cuándo los términos de error de segundo orden son despreciables o aproximables
Comprensión Unificada: Explorar conexiones con conceptos como parada temprana y mínimos planos/agudos

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Cierra una brecha importante en la comprensión teórica de la Aritmética de Tareas
Análisis Matemático Riguroso: Proporciona pruebas completas y cotas de error explícitas
Validación Experimental Suficiente: Las predicciones teóricas están respaldadas por experimentos en múltiples conjuntos de datos
Alto Valor Práctico: Proporciona orientación teórica para estrategias de fusión de modelos

Deficiencias

Supuestos Fuertes: El supuesto de GD de lote completo se desvía de aplicaciones prácticas
Restricción de Arquitectura: Los resultados teóricos se aplican principalmente a redes simples de alimentación hacia adelante
Rango de Tareas Estrecho: Los experimentos se concentran principalmente en tareas de clasificación visual

Impacto

Valor Académico: Proporciona fundamentos teóricos importantes para el campo de fusión de modelos
Significado Práctico: Orienta estrategias de fusión de modelos más eficientes
Poder Inspirador: Proporciona un nuevo marco teórico para investigaciones posteriores

Escenarios Aplicables

Despliegue Multitarea: Escenarios que requieren fusionar múltiples modelos especializados en uno unificado
Entornos con Recursos Limitados: Aplicaciones con almacenamiento y recursos computacionales limitados
Adaptación Rápida: Escenarios que requieren adquirir rápidamente capacidades multitarea

Referencias

El artículo cita trabajos importantes en los campos de fusión de modelos, vectores de tareas y aprendizaje multitarea, incluyendo:

Ilharco et al. (2022) - Trabajo original de Aritmética de Tareas
Zhou et al. (2025) - Aritmética de Tareas Iterativa
Ortiz-Jimenez et al. (2024) - Aritmética de Tareas en Espacio Tangente
Wortsman et al. (2022) - Método de Sopa de Modelos

Este artículo proporciona fundamentos teóricos rigurosos para la Aritmética de Tareas mediante análisis matemático exhaustivo, no solo explicando las razones de su efectividad sino también proporcionando orientación valiosa para aplicaciones prácticas. A pesar de algunas limitaciones en los supuestos teóricos, sus contribuciones son significativas para comprender y mejorar técnicas de fusión de modelos.