2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

Sobre Vectores de Tareas y Gradientes

Información Básica

  • ID del Artículo: 2508.16082
  • Título: On Task Vectors and Gradients
  • Autores: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • Clasificación: cs.LG, cs.AI
  • Fecha de Publicación/Conferencia: NeurIPS 2025 Workshop: UniReps
  • Enlace del Artículo: https://arxiv.org/abs/2508.16082

Resumen

La Aritmética de Tareas (Task Arithmetic) es una técnica simple pero poderosa de fusión de modelos que permite combinar múltiples modelos ajustados en uno unificado. A pesar de su excelente desempeño experimental, carece de una explicación teórica clara sobre cómo funciona y bajo qué condiciones es aplicable. Este artículo proporciona una base teórica rigurosa para la Aritmética de Tareas estableciendo una conexión entre vectores de tareas y gradientes de pérdida de tareas. La investigación demuestra que bajo condiciones estándar de descenso de gradiente, un vector de tarea producido por un ajuste de una época es exactamente equivalente al gradiente negativo de la pérdida multiplicado por la tasa de aprendizaje. Para configuraciones prácticas de múltiples épocas, esta equivalencia se mantiene aproximadamente, con un término de error de segundo orden que los autores acotan explícitamente para redes neuronales de alimentación hacia adelante. El análisis experimental en siete puntos de referencia visuales valida la teoría, demostrando que el gradiente de la primera época domina la trayectoria de ajuste tanto en norma como en dirección. Un hallazgo importante es que la fusión de modelos ajustados durante solo una época a menudo logra un desempeño comparable al de la fusión de modelos completamente convergidos.

Contexto de Investigación y Motivación

Contexto del Problema

El paradigma de preentrenamiento-ajuste se ha convertido en la piedra angular del aprendizaje profundo, permitiendo que modelos universales grandes se adapten a innumerables tareas específicas. Sin embargo, este éxito conlleva costos significativos: almacenar modelos ajustados separados para cada tarea genera una sobrecarga de almacenamiento considerable, desafío que se agudiza con el crecimiento del número de aplicaciones especializadas.

Problemas Centrales

  1. Problema de Eficiencia de Almacenamiento: Cada tarea requiere un modelo ajustado independiente, resultando en crecimiento lineal de costos de almacenamiento
  2. Ausencia de Comprensión Teórica: A pesar del buen desempeño experimental de la Aritmética de Tareas, carece de explicación teórica rigurosa
  3. Estrategia de Ajuste Óptima Incierta: No está claro cuánto tiempo de ajuste es más efectivo para la fusión de modelos

Limitaciones de Métodos Existentes

  • La Aritmética de Tareas, aunque simple y efectiva, carece de fundamentos teóricos
  • Trabajos previos solo observaron empíricamente que vectores de tareas de ajuste breve son más adecuados para fusión, sin explicación rigurosa
  • Falta análisis matemático de la relación entre vectores de tareas y gradientes

Motivación de la Investigación

Este artículo busca cerrar la brecha teórica, revelando mediante análisis matemático cómo funciona la Aritmética de Tareas, particularmente estableciendo la conexión entre vectores de tareas y gradientes de aprendizaje multitarea.

Contribuciones Principales

  1. Establecimiento de Fundamentos Teóricos: Demuestra rigurosamente que el vector de tarea del descenso de gradiente de una época es un gradiente negativo escalado, con diferencias en iteraciones posteriores de Aritmética de Tareas versus entrenamiento multitarea conjunto siendo solo términos de segundo orden O(η²)
  2. Derivación de Cotas de Error: Deriva cotas explícitas de norma-2 uniforme para términos de error de segundo orden en redes neuronales de alimentación hacia adelante, asumiendo pesos acotados y funciones de activación con derivadas acotadas
  3. Validación Experimental: Confirma experimentalmente en múltiples tareas visuales la contribución dominante del gradiente de la primera época a la trayectoria general de ajuste, tanto en norma como en dirección
  4. Orientación Práctica: Proporciona fundamento teórico para la ventaja del ajuste de corta duración en fusión de modelos, replanteando la Aritmética de Tareas como aproximación del aprendizaje multitarea

Detalles del Método

Definición de Tareas

Sea T el conjunto de tareas, |T| el número de tareas. Los pesos del modelo preentrenado son θ_base. Para la tarea t∈T, θ_t^(k) representa los parámetros después de ajustar k épocas en la tarea t. El vector de tarea se define como:

τ_t^(k) := θ_t^(k) - θ_base

La pérdida empírica para la tarea t es:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

Resultados Teóricos Principales

Teorema 1: Equivalencia entre Aritmética de Tareas y Aprendizaje Multitarea

Sea θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) el modelo obtenido mediante Aritmética de Tareas, donde {θ_t^(k)}{t∈T} se produce mediante k épocas de descenso de gradiente de lote completo con tamaño de paso η. Sea θ_MT^(k) el resultado de k épocas de descenso de gradiente en la pérdida agregada Σ{t∈T} L_t con tamaño de paso αη. Entonces:

  1. Equivalencia Completa en la Primera Época:
    θ_TA^(1) = θ_MT^(1)
    
  2. Equivalencia Aproximada en Múltiples Épocas (k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

Donde el término C es el término de error de segundo orden:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

Análisis de Dominancia de la Primera Época

La teoría demuestra que la información del gradiente de la primera época domina la trayectoria completa de ajuste:

  1. Análisis de Norma de Gradiente: La primera época contribuye la mayor parte de la norma de gradiente total
  2. Consistencia de Dirección: Los gradientes de épocas posteriores mantienen alta similitud de coseno con el gradiente de la primera época (>0.8)
  3. Equivalencia de Desempeño: El desempeño de fusión de modelos ajustados una época es comparable al de modelos completamente convergidos

Cotas de Error (Teorema 2)

Para redes neuronales de alimentación hacia adelante de profundidad L, bajo supuestos de pesos acotados, entrada acotada y funciones de activación con derivadas acotadas:

Funciones de Activación Generales:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

Función de Activación ReLU:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

Donde H_max y G_max son cotas superiores del Hessiano y gradiente respectivamente.

Configuración Experimental

Conjuntos de Datos

Los experimentos utilizan siete conjuntos de datos de referencia visuales:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

Diseño Experimental

  1. Comparación Una Época vs Convergencia: Compara el desempeño de fusión de modelos ajustados una época versus modelos completamente convergidos
  2. Análisis de Gradientes: Analiza la contribución normalizada de norma de gradiente en cada época
  3. Consistencia de Dirección: Calcula similitud de coseno entre gradientes de diferentes épocas
  4. Trayectoria en Espacio de Parámetros: Visualiza trayectorias de espacio de parámetros de diferentes estrategias de fusión mediante PCA

Métodos de Comparación

  • Aritmética de Tareas Estándar (Task Arithmetic)
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • Aritmética de Tareas Iterativa (Iterative TA)

Resultados Experimentales

Resultados Principales

  1. Validación de Equivalencia de Desempeño: En todos los conjuntos de datos probados, el desempeño de fusión de modelos ajustados una época es esencialmente comparable al de modelos completamente convergidos, en algunos casos incluso superior
  2. Dominancia de la Primera Época:
    • La primera época contribuye 0.3-0.7 de la norma de gradiente normalizada
    • La similitud de coseno entre gradientes de las primeras 5 épocas y el gradiente de la primera época se mantiene por encima de 0.8
  3. Análisis del Espacio de Parámetros: La Aritmética de Tareas Iterativa mediante actualizaciones de paso pequeño puede guiar el modelo a regiones diferentes con pérdida más baja

Experimentos de Ablación

Los experimentos validan varios aspectos de las predicciones teóricas:

  • Confirman la posición dominante del gradiente de la primera época
  • Verifican que el término de error de segundo orden introducido por épocas posteriores es relativamente pequeño
  • Corroboran que el ajuste de corta duración es más favorable para la fusión de modelos

Hallazgos Clave

  1. Especialización ≠ Capacidad de Fusión: Modelos altamente especializados no necesariamente producen mejores resultados de fusión
  2. Importancia de la Dinámica Temprana: La dinámica de entrenamiento temprano es crucial para la fusión exitosa de modelos
  3. Calidad de Aproximación de Gradientes: La calidad de los vectores de tareas como aproximación de gradientes multitarea reales disminuye con el tiempo de ajuste

Trabajo Relacionado

Conectividad de Modos y Fusión de Modelos

  • La investigación de conectividad de modos lineal demuestra la existencia de caminos lineales entre modelos con inicialización compartida
  • Los métodos de fusión basados en permutación resuelven problemas de simetría mediante transporte óptimo

Métodos de Vectores de Tareas

  • Los vectores de tareas representan actualizaciones específicas de tareas como incrementos del modelo compartido
  • Los métodos extendidos reducen interferencia mediante sparsidad, poda y máscaras

Aprendizaje Multitarea

  • El aprendizaje multitarea tradicional mejora el desempeño mediante representaciones compartidas y sesgos inductivos
  • Métodos como cirugía de gradientes resuelven conflictos de gradientes entre tareas

Conclusiones y Discusión

Conclusiones Principales

  1. Avance Teórico: Establece por primera vez una conexión matemática rigurosa entre vectores de tareas y gradientes
  2. Orientación Práctica: Demuestra la efectividad del ajuste de una época, proporcionando orientación para aplicaciones prácticas
  3. Nueva Perspectiva: Replantea la Aritmética de Tareas como aproximación del aprendizaje multitarea

Limitaciones

  1. Supuestos Teóricos: El análisis se basa en descenso de gradiente de lote completo, mientras que la práctica utiliza principalmente SGD
  2. Arquitecturas de Red: Las cotas explícitas son solo para redes de alimentación hacia adelante; arquitecturas modernas (CNN, Transformer) son más complejas
  3. Alcance Experimental: La validación es principalmente en tareas visuales; la aplicabilidad en otros dominios requiere verificación adicional

Direcciones Futuras

  1. Extensión de Teoría SGD: Extender la teoría a configuraciones de descenso de gradiente estocástico
  2. Arquitecturas Complejas: Proporcionar cotas teóricas para CNN, Transformer, etc.
  3. Optimización de Términos de Segundo Orden: Investigar cuándo los términos de error de segundo orden son despreciables o aproximables
  4. Comprensión Unificada: Explorar conexiones con conceptos como parada temprana y mínimos planos/agudos

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Cierra una brecha importante en la comprensión teórica de la Aritmética de Tareas
  2. Análisis Matemático Riguroso: Proporciona pruebas completas y cotas de error explícitas
  3. Validación Experimental Suficiente: Las predicciones teóricas están respaldadas por experimentos en múltiples conjuntos de datos
  4. Alto Valor Práctico: Proporciona orientación teórica para estrategias de fusión de modelos

Deficiencias

  1. Supuestos Fuertes: El supuesto de GD de lote completo se desvía de aplicaciones prácticas
  2. Restricción de Arquitectura: Los resultados teóricos se aplican principalmente a redes simples de alimentación hacia adelante
  3. Rango de Tareas Estrecho: Los experimentos se concentran principalmente en tareas de clasificación visual

Impacto

  1. Valor Académico: Proporciona fundamentos teóricos importantes para el campo de fusión de modelos
  2. Significado Práctico: Orienta estrategias de fusión de modelos más eficientes
  3. Poder Inspirador: Proporciona un nuevo marco teórico para investigaciones posteriores

Escenarios Aplicables

  1. Despliegue Multitarea: Escenarios que requieren fusionar múltiples modelos especializados en uno unificado
  2. Entornos con Recursos Limitados: Aplicaciones con almacenamiento y recursos computacionales limitados
  3. Adaptación Rápida: Escenarios que requieren adquirir rápidamente capacidades multitarea

Referencias

El artículo cita trabajos importantes en los campos de fusión de modelos, vectores de tareas y aprendizaje multitarea, incluyendo:

  • Ilharco et al. (2022) - Trabajo original de Aritmética de Tareas
  • Zhou et al. (2025) - Aritmética de Tareas Iterativa
  • Ortiz-Jimenez et al. (2024) - Aritmética de Tareas en Espacio Tangente
  • Wortsman et al. (2022) - Método de Sopa de Modelos

Este artículo proporciona fundamentos teóricos rigurosos para la Aritmética de Tareas mediante análisis matemático exhaustivo, no solo explicando las razones de su efectividad sino también proporcionando orientación valiosa para aplicaciones prácticas. A pesar de algunas limitaciones en los supuestos teóricos, sus contribuciones son significativas para comprender y mejorar técnicas de fusión de modelos.