Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
La Aritmética de Tareas (Task Arithmetic) es una técnica simple pero poderosa de fusión de modelos que permite combinar múltiples modelos ajustados en uno unificado. A pesar de su excelente desempeño experimental, carece de una explicación teórica clara sobre cómo funciona y bajo qué condiciones es aplicable. Este artículo proporciona una base teórica rigurosa para la Aritmética de Tareas estableciendo una conexión entre vectores de tareas y gradientes de pérdida de tareas. La investigación demuestra que bajo condiciones estándar de descenso de gradiente, un vector de tarea producido por un ajuste de una época es exactamente equivalente al gradiente negativo de la pérdida multiplicado por la tasa de aprendizaje. Para configuraciones prácticas de múltiples épocas, esta equivalencia se mantiene aproximadamente, con un término de error de segundo orden que los autores acotan explícitamente para redes neuronales de alimentación hacia adelante. El análisis experimental en siete puntos de referencia visuales valida la teoría, demostrando que el gradiente de la primera época domina la trayectoria de ajuste tanto en norma como en dirección. Un hallazgo importante es que la fusión de modelos ajustados durante solo una época a menudo logra un desempeño comparable al de la fusión de modelos completamente convergidos.
El paradigma de preentrenamiento-ajuste se ha convertido en la piedra angular del aprendizaje profundo, permitiendo que modelos universales grandes se adapten a innumerables tareas específicas. Sin embargo, este éxito conlleva costos significativos: almacenar modelos ajustados separados para cada tarea genera una sobrecarga de almacenamiento considerable, desafío que se agudiza con el crecimiento del número de aplicaciones especializadas.
Problema de Eficiencia de Almacenamiento: Cada tarea requiere un modelo ajustado independiente, resultando en crecimiento lineal de costos de almacenamiento
Ausencia de Comprensión Teórica: A pesar del buen desempeño experimental de la Aritmética de Tareas, carece de explicación teórica rigurosa
Estrategia de Ajuste Óptima Incierta: No está claro cuánto tiempo de ajuste es más efectivo para la fusión de modelos
Este artículo busca cerrar la brecha teórica, revelando mediante análisis matemático cómo funciona la Aritmética de Tareas, particularmente estableciendo la conexión entre vectores de tareas y gradientes de aprendizaje multitarea.
Establecimiento de Fundamentos Teóricos: Demuestra rigurosamente que el vector de tarea del descenso de gradiente de una época es un gradiente negativo escalado, con diferencias en iteraciones posteriores de Aritmética de Tareas versus entrenamiento multitarea conjunto siendo solo términos de segundo orden O(η²)
Derivación de Cotas de Error: Deriva cotas explícitas de norma-2 uniforme para términos de error de segundo orden en redes neuronales de alimentación hacia adelante, asumiendo pesos acotados y funciones de activación con derivadas acotadas
Validación Experimental: Confirma experimentalmente en múltiples tareas visuales la contribución dominante del gradiente de la primera época a la trayectoria general de ajuste, tanto en norma como en dirección
Orientación Práctica: Proporciona fundamento teórico para la ventaja del ajuste de corta duración en fusión de modelos, replanteando la Aritmética de Tareas como aproximación del aprendizaje multitarea
Sea T el conjunto de tareas, |T| el número de tareas. Los pesos del modelo preentrenado son θ_base. Para la tarea t∈T, θ_t^(k) representa los parámetros después de ajustar k épocas en la tarea t. El vector de tarea se define como:
Sea θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k) el modelo obtenido mediante Aritmética de Tareas, donde {θ_t^(k)}{t∈T} se produce mediante k épocas de descenso de gradiente de lote completo con tamaño de paso η. Sea θ_MT^(k) el resultado de k épocas de descenso de gradiente en la pérdida agregada Σ{t∈T} L_t con tamaño de paso αη. Entonces:
Equivalencia Completa en la Primera Época:
θ_TA^(1) = θ_MT^(1)
Equivalencia Aproximada en Múltiples Épocas (k > 1):
Para redes neuronales de alimentación hacia adelante de profundidad L, bajo supuestos de pesos acotados, entrada acotada y funciones de activación con derivadas acotadas:
Validación de Equivalencia de Desempeño: En todos los conjuntos de datos probados, el desempeño de fusión de modelos ajustados una época es esencialmente comparable al de modelos completamente convergidos, en algunos casos incluso superior
Dominancia de la Primera Época:
La primera época contribuye 0.3-0.7 de la norma de gradiente normalizada
La similitud de coseno entre gradientes de las primeras 5 épocas y el gradiente de la primera época se mantiene por encima de 0.8
Análisis del Espacio de Parámetros: La Aritmética de Tareas Iterativa mediante actualizaciones de paso pequeño puede guiar el modelo a regiones diferentes con pérdida más baja
Especialización ≠ Capacidad de Fusión: Modelos altamente especializados no necesariamente producen mejores resultados de fusión
Importancia de la Dinámica Temprana: La dinámica de entrenamiento temprano es crucial para la fusión exitosa de modelos
Calidad de Aproximación de Gradientes: La calidad de los vectores de tareas como aproximación de gradientes multitarea reales disminuye con el tiempo de ajuste
Supuestos Teóricos: El análisis se basa en descenso de gradiente de lote completo, mientras que la práctica utiliza principalmente SGD
Arquitecturas de Red: Las cotas explícitas son solo para redes de alimentación hacia adelante; arquitecturas modernas (CNN, Transformer) son más complejas
Alcance Experimental: La validación es principalmente en tareas visuales; la aplicabilidad en otros dominios requiere verificación adicional
El artículo cita trabajos importantes en los campos de fusión de modelos, vectores de tareas y aprendizaje multitarea, incluyendo:
Ilharco et al. (2022) - Trabajo original de Aritmética de Tareas
Zhou et al. (2025) - Aritmética de Tareas Iterativa
Ortiz-Jimenez et al. (2024) - Aritmética de Tareas en Espacio Tangente
Wortsman et al. (2022) - Método de Sopa de Modelos
Este artículo proporciona fundamentos teóricos rigurosos para la Aritmética de Tareas mediante análisis matemático exhaustivo, no solo explicando las razones de su efectividad sino también proporcionando orientación valiosa para aplicaciones prácticas. A pesar de algunas limitaciones en los supuestos teóricos, sus contribuciones son significativas para comprender y mejorar técnicas de fusión de modelos.