2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.

Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.

academic

작업 벡터와 그래디언트에 관하여

기본 정보

논문 ID: 2508.16082
제목: On Task Vectors and Gradients
저자: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
분류: cs.LG, cs.AI
발표 시간/학회: NeurIPS 2025 Workshop: UniReps
논문 링크: https://arxiv.org/abs/2508.16082

초록

작업 산술(Task Arithmetic)은 여러 미세조정된 모델을 하나의 통합 모델로 결합하는 간단하면서도 강력한 모델 병합 기법이다. 실험에서 우수한 성능을 보이고 있음에도 불구하고, 그 작동 원리와 적용 조건을 설명하는 명확한 이론적 설명이 부족하다. 본 논문은 작업 벡터와 작업 손실 그래디언트 사이의 연관성을 확립함으로써 작업 산술에 대한 엄격한 이론적 기초를 제공한다. 연구 결과에 따르면 표준 그래디언트 하강 조건에서 1에포크 미세조정으로 생성된 작업 벡터는 손실의 음의 그래디언트에 학습률을 곱한 것과 완전히 동등하다. 실제의 다중 에포크 설정의 경우, 이러한 동등성은 근사적으로 성립하며 2차 오차항이 존재하고, 저자들은 피드포워드 네트워크에 대한 명시적 경계를 제시한다. 7개의 시각 기준에 대한 실험 분석을 통해 이론을 검증하여 첫 번째 에포크의 그래디언트가 미세조정 궤적을 범수와 방향 모두에서 지배함을 증명한다. 중요한 발견은 단 1에포크만 미세조정된 모델을 병합하는 것이 완전히 수렴된 모델을 병합하는 것과 비슷한 성능을 달성할 수 있다는 것이다.

연구 배경 및 동기

문제 배경

사전학습-미세조정 패러다임은 깊은 학습의 초석이 되어 대규모 범용 모델이 무수한 특정 작업에 적응할 수 있게 했다. 그러나 이러한 성공에는 상당한 비용이 따른다. 각 작업마다 별도의 미세조정된 모델을 저장하면 막대한 저장 오버헤드가 발생하며, 이 문제는 전문 응용 프로그램의 수가 증가함에 따라 악화된다.

핵심 문제

저장 효율성 문제: 각 작업마다 독립적인 미세조정 모델이 필요하여 저장 비용이 선형적으로 증가
이론적 이해 부족: 작업 산술이 실험에서 좋은 성능을 보이고 있음에도 불구하고 엄격한 이론적 설명이 부족
최적 미세조정 전략 불명확: 모델 병합에 가장 효과적인 미세조정 기간이 불명확

기존 방법의 한계

작업 산술은 간단하고 효과적이지만 이론적 기초가 부족
선행 연구에서는 단기 미세조정의 작업 벡터가 병합에 더 적합하다는 것을 경험적으로 관찰했지만 엄격한 설명이 없음
작업 벡터와 그래디언트 관계에 대한 수학적 분석 부재

연구 동기

본 논문은 이론적 공백을 메우고 수학적 분석을 통해 작업 산술의 작동 원리를 밝히는 것을 목표로 하며, 특히 작업 벡터와 다중작업 학습 그래디언트 사이의 연관성을 확립하고자 한다.

핵심 기여

이론적 기초 확립: 단일 에포크 그래디언트 하강의 작업 벡터가 스케일된 음의 그래디언트이며, 후속 작업 산술 반복과 결합 다중작업 훈련의 차이가 2차 항 O(η²)에 불과함을 엄격히 증명
오차 경계 도출: 유계 가중치와 유계 도함수 활성화 함수를 가정하여 피드포워드 네트워크에 대한 2차 오차항의 명시적 균일 2-범수 경계 도출
실험 검증: 여러 시각 작업에 대한 실험으로 첫 번째 에포크 그래디언트가 전체 미세조정 궤적에 미치는 지배적 기여를 범수와 방향 모두에서 확인
실무 지침: 단기 미세조정이 모델 병합에 유리한 이론적 근거를 제공하고, 작업 산술을 근사 다중작업 학습으로 재정의

방법론 상세 설명

작업 정의

T를 작업 집합, |T|를 작업 수라고 하자. 사전학습된 모델 가중치는 θ_base이다. 작업 t∈T에 대해, θ_t^(k)는 작업 t에서 k개 에포크 미세조정 후의 매개변수를 나타낸다. 작업 벡터는 다음과 같이 정의된다:

τ_t^(k) := θ_t^(k) - θ_base

작업 t의 경험적 손실은:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

핵심 이론 결과

정리 1: 작업 산술과 다중작업 학습의 동등성

θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)를 작업 산술을 사용하여 얻은 모델이라 하자. 여기서 {θ_t^(k)}{t∈T}는 k개 에포크의 전체 배치 그래디언트 하강으로 생성되고 스텝 크기는 η이다. θ_MT^(k)를 집계 손실 Σ{t∈T} L_t에서 k개 에포크 그래디언트 하강의 결과라 하자. 스텝 크기는 αη이다. 그러면 다음이 성립한다:

첫 번째 에포크 완전 동등성:
```
θ_TA^(1) = θ_MT^(1)
```

다중 에포크 근사 동등성 (k > 1):

θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)

여기서 C항은 2차 오차항이다:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

첫 번째 에포크 지배성 분석

이론은 첫 번째 에포크의 그래디언트 정보가 전체 미세조정 궤적을 지배함을 보여준다:

그래디언트 범수 분석: 첫 번째 에포크가 총 그래디언트 범수의 최대 부분을 기여
방향 일관성: 후속 에포크의 그래디언트는 첫 번째 에포크 그래디언트와 높은 코사인 유사도(>0.8) 유지
성능 동등성: 1에포크 미세조정 모델 병합 성능이 완전히 수렴된 모델 병합과 동등

오차 경계 (정리 2)

깊이 L인 피드포워드 네트워크에서 유계 가중치, 유계 입력, 유계 도함수 활성화 함수 가정 하에:

일반 활성화 함수:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU 활성화 함수:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

여기서 H_max와 G_max는 각각 헤시안과 그래디언트의 상한이다.

실험 설정

데이터셋

실험은 7개의 시각 기준 데이터셋을 사용한다:

CIFAR-100
SVHN
RESISC45
MNIST
EuroSAT
GTSRB
DTD
SUN397

실험 설계

1에포크 vs 수렴 비교: 1에포크 미세조정 모델 병합과 완전 수렴 모델 병합의 성능 비교
그래디언트 분석: 각 에포크 그래디언트 범수의 정규화된 기여도 분석
방향 일관성: 서로 다른 에포크 그래디언트 간의 코사인 유사도 계산
매개변수 공간 궤적: PCA를 통한 서로 다른 병합 전략의 매개변수 공간 궤적 시각화

비교 방법

표준 작업 산술(Task Arithmetic)
TIES-merging
Model Breadcrumbs
DARE
반복 작업 산술(Iterative TA)

실험 결과

주요 결과

성능 동등성 검증: 모든 테스트 데이터셋에서 1에포크 미세조정 모델 병합 성능이 완전히 수렴된 모델 병합과 기본적으로 동등하며, 경우에 따라 더 우수함
첫 번째 에포크 지배성:
- 첫 번째 에포크가 정규화된 그래디언트 범수의 0.3-0.7 기여
- 처음 5개 에포크의 그래디언트와 첫 번째 에포크 그래디언트의 코사인 유사도가 0.8 이상 유지
매개변수 공간 분석: 반복 작업 산술이 작은 스텝 크기 업데이트를 통해 모델을 다른 더 낮은 손실 영역으로 유도