2025-11-24T23:40:16.998519

On Task Vectors and Gradients

Zhou, Solombrino, Crisostomi et al.
Task arithmetic has emerged as a simple yet powerful technique for model merging, enabling the combination of multiple finetuned models into one. Despite its empirical success, a clear theoretical explanation of why and when it works is lacking. This paper provides a rigorous theoretical foundation for task arithmetic by establishing a connection between task vectors and gradients of the task losses. We show that under standard gradient descent, a task vector generated from one epoch of finetuning is exactly equivalent to the negative gradient of the loss, scaled by the learning rate. For the practical multi-epoch setting, we prove that this equivalence holds approximately, with a second-order error term that we explicitly bound for feed-forward networks. Our empirical analysis across seven vision benchmarks corroborates our theory, demonstrating that the first-epoch gradient dominates the finetuning trajectory in both norm and direction. A key implication is that merging models finetuned for only a single epoch often yields performance comparable to merging fully converged models. These findings reframe task arithmetic as a form of approximate multitask learning, providing a clear rationale for its effectiveness and highlighting the critical role of early training dynamics in model merging.
academic

작업 벡터와 그래디언트에 관하여

기본 정보

  • 논문 ID: 2508.16082
  • 제목: On Task Vectors and Gradients
  • 저자: Luca Zhou, Daniele Solombrino, Donato Crisostomi, Maria Sofia Bucarelli, Giuseppe A. D'Inverno, Fabrizio Silvestri, Emanuele Rodolà
  • 분류: cs.LG, cs.AI
  • 발표 시간/학회: NeurIPS 2025 Workshop: UniReps
  • 논문 링크: https://arxiv.org/abs/2508.16082

초록

작업 산술(Task Arithmetic)은 여러 미세조정된 모델을 하나의 통합 모델로 결합하는 간단하면서도 강력한 모델 병합 기법이다. 실험에서 우수한 성능을 보이고 있음에도 불구하고, 그 작동 원리와 적용 조건을 설명하는 명확한 이론적 설명이 부족하다. 본 논문은 작업 벡터와 작업 손실 그래디언트 사이의 연관성을 확립함으로써 작업 산술에 대한 엄격한 이론적 기초를 제공한다. 연구 결과에 따르면 표준 그래디언트 하강 조건에서 1에포크 미세조정으로 생성된 작업 벡터는 손실의 음의 그래디언트에 학습률을 곱한 것과 완전히 동등하다. 실제의 다중 에포크 설정의 경우, 이러한 동등성은 근사적으로 성립하며 2차 오차항이 존재하고, 저자들은 피드포워드 네트워크에 대한 명시적 경계를 제시한다. 7개의 시각 기준에 대한 실험 분석을 통해 이론을 검증하여 첫 번째 에포크의 그래디언트가 미세조정 궤적을 범수와 방향 모두에서 지배함을 증명한다. 중요한 발견은 단 1에포크만 미세조정된 모델을 병합하는 것이 완전히 수렴된 모델을 병합하는 것과 비슷한 성능을 달성할 수 있다는 것이다.

연구 배경 및 동기

문제 배경

사전학습-미세조정 패러다임은 깊은 학습의 초석이 되어 대규모 범용 모델이 무수한 특정 작업에 적응할 수 있게 했다. 그러나 이러한 성공에는 상당한 비용이 따른다. 각 작업마다 별도의 미세조정된 모델을 저장하면 막대한 저장 오버헤드가 발생하며, 이 문제는 전문 응용 프로그램의 수가 증가함에 따라 악화된다.

핵심 문제

  1. 저장 효율성 문제: 각 작업마다 독립적인 미세조정 모델이 필요하여 저장 비용이 선형적으로 증가
  2. 이론적 이해 부족: 작업 산술이 실험에서 좋은 성능을 보이고 있음에도 불구하고 엄격한 이론적 설명이 부족
  3. 최적 미세조정 전략 불명확: 모델 병합에 가장 효과적인 미세조정 기간이 불명확

기존 방법의 한계

  • 작업 산술은 간단하고 효과적이지만 이론적 기초가 부족
  • 선행 연구에서는 단기 미세조정의 작업 벡터가 병합에 더 적합하다는 것을 경험적으로 관찰했지만 엄격한 설명이 없음
  • 작업 벡터와 그래디언트 관계에 대한 수학적 분석 부재

연구 동기

본 논문은 이론적 공백을 메우고 수학적 분석을 통해 작업 산술의 작동 원리를 밝히는 것을 목표로 하며, 특히 작업 벡터와 다중작업 학습 그래디언트 사이의 연관성을 확립하고자 한다.

핵심 기여

  1. 이론적 기초 확립: 단일 에포크 그래디언트 하강의 작업 벡터가 스케일된 음의 그래디언트이며, 후속 작업 산술 반복과 결합 다중작업 훈련의 차이가 2차 항 O(η²)에 불과함을 엄격히 증명
  2. 오차 경계 도출: 유계 가중치와 유계 도함수 활성화 함수를 가정하여 피드포워드 네트워크에 대한 2차 오차항의 명시적 균일 2-범수 경계 도출
  3. 실험 검증: 여러 시각 작업에 대한 실험으로 첫 번째 에포크 그래디언트가 전체 미세조정 궤적에 미치는 지배적 기여를 범수와 방향 모두에서 확인
  4. 실무 지침: 단기 미세조정이 모델 병합에 유리한 이론적 근거를 제공하고, 작업 산술을 근사 다중작업 학습으로 재정의

방법론 상세 설명

작업 정의

T를 작업 집합, |T|를 작업 수라고 하자. 사전학습된 모델 가중치는 θ_base이다. 작업 t∈T에 대해, θ_t^(k)는 작업 t에서 k개 에포크 미세조정 후의 매개변수를 나타낸다. 작업 벡터는 다음과 같이 정의된다:

τ_t^(k) := θ_t^(k) - θ_base

작업 t의 경험적 손실은:

L_t(θ) := (1/n_t) Σ_{i=1}^{n_t} ℓ(x_i, y_i, θ)

핵심 이론 결과

정리 1: 작업 산술과 다중작업 학습의 동등성

θ_TA^(k) = θ_base + α Σ_{t∈T} τ_t^(k)를 작업 산술을 사용하여 얻은 모델이라 하자. 여기서 {θ_t^(k)}{t∈T}는 k개 에포크의 전체 배치 그래디언트 하강으로 생성되고 스텝 크기는 η이다. θ_MT^(k)를 집계 손실 Σ{t∈T} L_t에서 k개 에포크 그래디언트 하강의 결과라 하자. 스텝 크기는 αη이다. 그러면 다음이 성립한다:

  1. 첫 번째 에포크 완전 동등성:
    θ_TA^(1) = θ_MT^(1)
    
  2. 다중 에포크 근사 동등성 (k > 1):
    θ_TA^(k) = θ_MT^(k) + η²C({θ_MT^(j)}_{j=1}^{k-2}) + O(η³)
    

여기서 C항은 2차 오차항이다:

C({θ_MT^(j)}_{j=1}^h) = Σ_{t∈T} Σ_{e=0}^h ∇²L_t(θ_MT^(e)) Σ_{m=0}^e r_t(θ_MT^(m))

첫 번째 에포크 지배성 분석

이론은 첫 번째 에포크의 그래디언트 정보가 전체 미세조정 궤적을 지배함을 보여준다:

  1. 그래디언트 범수 분석: 첫 번째 에포크가 총 그래디언트 범수의 최대 부분을 기여
  2. 방향 일관성: 후속 에포크의 그래디언트는 첫 번째 에포크 그래디언트와 높은 코사인 유사도(>0.8) 유지
  3. 성능 동등성: 1에포크 미세조정 모델 병합 성능이 완전히 수렴된 모델 병합과 동등

오차 경계 (정리 2)

깊이 L인 피드포워드 네트워크에서 유계 가중치, 유계 입력, 유계 도함수 활성화 함수 가정 하에:

일반 활성화 함수:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^φ G_max^φ

ReLU 활성화 함수:

||C({θ_MT^(j)}_{j=1}^h)||_2 ≤ T((h+2)/2)|αT+1|H_max^ReLU G_max^ReLU

여기서 H_max와 G_max는 각각 헤시안과 그래디언트의 상한이다.

실험 설정

데이터셋

실험은 7개의 시각 기준 데이터셋을 사용한다:

  • CIFAR-100
  • SVHN
  • RESISC45
  • MNIST
  • EuroSAT
  • GTSRB
  • DTD
  • SUN397

실험 설계

  1. 1에포크 vs 수렴 비교: 1에포크 미세조정 모델 병합과 완전 수렴 모델 병합의 성능 비교
  2. 그래디언트 분석: 각 에포크 그래디언트 범수의 정규화된 기여도 분석
  3. 방향 일관성: 서로 다른 에포크 그래디언트 간의 코사인 유사도 계산
  4. 매개변수 공간 궤적: PCA를 통한 서로 다른 병합 전략의 매개변수 공간 궤적 시각화

비교 방법

  • 표준 작업 산술(Task Arithmetic)
  • TIES-merging
  • Model Breadcrumbs
  • DARE
  • 반복 작업 산술(Iterative TA)

실험 결과

주요 결과

  1. 성능 동등성 검증: 모든 테스트 데이터셋에서 1에포크 미세조정 모델 병합 성능이 완전히 수렴된 모델 병합과 기본적으로 동등하며, 경우에 따라 더 우수함
  2. 첫 번째 에포크 지배성:
    • 첫 번째 에포크가 정규화된 그래디언트 범수의 0.3-0.7 기여
    • 처음 5개 에포크의 그래디언트와 첫 번째 에포크 그래디언트의 코사인 유사도가 0.8 이상 유지
  3. 매개변수 공간 분석: 반복 작업 산술이 작은 스텝 크기 업데이트를 통해 모델을 다른 더 낮은 손실 영역으로 유도

제거 실험

실험은 이론 예측의 각 측면을 검증한다:

  • 첫 번째 에포크 그래디언트의 지배적 지위 확인
  • 후속 에포크가 도입하는 2차 오차항이 상대적으로 작음을 검증
  • 단기 미세조정이 모델 병합에 더 유리함을 확인

주요 발견

  1. 작업 숙련도 ≠ 병합 능력: 고도로 전문화된 모델이 반드시 더 나은 병합 결과를 생성하지는 않음
  2. 초기 동역학의 중요성: 초기 훈련 동역학이 성공적인 모델 병합에 중요
  3. 그래디언트 근사 품질: 작업 벡터의 실제 다중작업 그래디언트 근사 품질이 미세조정 시간 증가에 따라 감소

관련 연구

모드 연결성 및 모델 병합

  • 선형 모드 연결성 연구는 공유 초기화를 가진 모델 간의 선형 경로 존재를 보여줌
  • 순열 기반 병합 방법은 최적 수송을 통한 대칭성 문제 해결

작업 벡터 방법

  • 작업 벡터는 작업 특정 업데이트를 공유 모델의 증분으로 표현
  • 확장 방법은 희소성, 가지치기, 마스킹 등을 통해 간섭 감소

다중작업 학습

  • 전통적 다중작업 학습은 공유 표현과 귀납적 편향을 통해 성능 향상
  • 그래디언트 수술 등의 방법은 작업 간 그래디언트 충돌 해결

결론 및 논의

주요 결론

  1. 이론적 돌파: 작업 벡터와 그래디언트 간의 엄격한 수학적 연관성을 최초로 확립
  2. 실무 지침: 1에포크 미세조정의 효과성을 증명하여 실제 응용에 지침 제공
  3. 새로운 관점: 작업 산술을 근사 다중작업 학습으로 재정의

한계

  1. 이론적 가정: 분석은 전체 배치 그래디언트 하강을 기반으로 하지만 실제로는 SGD를 주로 사용
  2. 네트워크 아키텍처: 명시적 경계는 피드포워드 네트워크에만 적용되며, 현대 아키텍처(CNN, Transformer)는 더 복잡
  3. 실험 범위: 주로 시각 작업에서 검증되었으며, 다른 분야의 적용 가능성은 추가 검증 필요

향후 방향

  1. SGD 이론 확장: 이론을 확률적 그래디언트 하강 설정으로 확장
  2. 복잡한 아키텍처: CNN, Transformer 등에 대한 이론적 경계 제공
  3. 2차 항 최적화: 2차 오차항이 무시할 수 있거나 근사 가능한 경우 연구
  4. 통합 이해: 조기 중단, 평탄/날카로운 최솟값 등의 개념과의 연관성 탐색

심층 평가

장점

  1. 이론적 기여 상당함: 작업 산술의 이론적 이해에 대한 중요한 공백 메움
  2. 수학적 분석 엄격함: 완전한 증명과 명시적 오차 경계 제공
  3. 실험 검증 충분함: 이론 예측이 여러 데이터셋의 실험으로 지지됨
  4. 실용 가치 높음: 모델 병합 전략에 대한 이론적 지침 제공

부족한 점

  1. 강한 가정 조건: 전체 배치 GD 가정이 실제 응용과 괴리
  2. 아키텍처 제한: 이론 결과가 주로 간단한 피드포워드 네트워크에 적용
  3. 작업 범위 좁음: 실험이 주로 시각 분류 작업에 집중

영향력

  1. 학술적 가치: 모델 병합 분야에 중요한 이론적 기초 제공
  2. 실용적 의의: 더 효율적인 모델 병합 전략 지침
  3. 영감 제공: 후속 연구를 위한 새로운 이론적 프레임워크 제공

적용 시나리오

  1. 다중작업 배포: 여러 전문 모델을 통합 모델로 병합해야 하는 경우
  2. 자원 제약 환경: 저장 및 계산 자원이 제한된 응용
  3. 빠른 적응: 다중작업 능력을 빠르게 획득해야 하는 경우

참고문헌

논문은 모델 병합, 작업 벡터, 다중작업 학습 등의 분야에서 중요한 연구를 인용하고 있으며, 다음을 포함한다:

  • Ilharco et al. (2022) - 작업 산술의 원본 연구
  • Zhou et al. (2025) - 반복 작업 산술
  • Ortiz-Jimenez et al. (2024) - 접선 공간의 작업 산술
  • Wortsman et al. (2022) - 모델 수프 방법

이 논문은 엄격한 수학적 분석을 통해 작업 산술에 대한 이론적 기초를 제공하며, 그 효과성의 원인을 설명할 뿐만 아니라 실제 응용에 가치 있는 지침을 제공한다. 일부 이론적 가정의 한계가 있지만, 그 기여는 모델 병합 기술의 이해와 개선에 중요한 의미를 갖는다.