2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic

다중 소스 시각 프롬프트 전이를 위한 최적 프롬프트 앙상블 학습

기본 정보

  • 논문 ID: 2504.12311
  • 제목: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
  • 저자: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (칭화대학교 선전국제대학원, 동남대학교)
  • 분류: cs.CL (계산언어학)
  • 발표 시간/학회: arXiv 사전인쇄본 (2025년 10월 15일 최신 버전)
  • 논문 링크: https://arxiv.org/abs/2504.12311v5

초록

본 논문은 다중 소스 시각 프롬프트 전이 작업을 위해 HGPrompt 프레임워크를 제안한다. 이 방법은 정보 이론 전이 가능성 측도와 그래디언트 충돌 최소화 정규화 항을 공동으로 최적화하여 최적의 앙상블 가중치를 학습한다. 구체적으로, 미분 가능한 프롬프트 전이 가능성 측도를 제안하여 목표 작업에서 프롬프트 유도 특징의 판별성을 포착하고, Hessian 및 Fisher 정보 기반으로 서로 다른 소스 프롬프트의 그래디언트 분산을 일치시켜 안정적이고 일관된 지식 전이를 보장하며 그래디언트 충돌을 억제한다. 대규모 VTAB 벤치마크에서의 실험이 HGPrompt의 유효성을 검증했다.

연구 배경 및 동기

문제 정의

시각 기초 모델의 발전에 따라 프롬프트 튜닝(Prompt Tuning)이 다운스트림 작업에 적응하기 위한 경량 전략이 되었다. 기존 방법이 직면한 핵심 문제는 여러 소스 프롬프트를 효과적으로 집계하여 새로운 작업의 일반화 능력을 향상시키는 방법이다.

연구 동기

  1. 자원 효율성 요구: 대규모 사전 학습 모델에서 전체 모델 미세 조정이 비현실적이 되었으며, 프롬프트 튜닝은 0.4%의 매개변수만 업데이트하여 경쟁력 있는 성능을 달성할 수 있다
  2. 프롬프트 자산 가치: 사전 학습된 프롬프트가 귀중한 지식 자산이 되었으며, 다중 소스 프롬프트의 조합은 상호 보완적 지식을 활용할 수 있다
  3. 기존 방법의 한계: 단순한 연결 또는 평균 집계는 서로 다른 소스 프롬프트의 목표 작업에 대한 기여도 차이를 무시하여 표현 붕괴를 초래할 수 있다

핵심 과제

  • 기존 방법은 각 프롬프트의 전이 가능성을 독립적으로 평가하여 프롬프트 간의 상호 의존성을 무시한다
  • 이론적 기초가 부족한 휴리스틱 방법(예: 매개변수 유사성 계산)
  • 다중 프롬프트 집계로 인한 그래디언트 간섭으로 최적화 불안정성 발생

핵심 기여

  1. HGPrompt 프레임워크 제안: 집계된 프롬프트 유도 특징의 전이 가능성을 평가하여 최적 프롬프트 가중치를 동적으로 학습하는 첫 번째 이론적으로 신뢰할 수 있는 프레임워크
  2. 정보 이론 전이 가능성 측도: H-score 기반의 미분 가능한 프롬프트 전이 가능성 측도로 명확하고 해석 가능한 기여도 정량화 제공
  3. 그래디언트 정렬 정규화: 다중 소스 프롬프트 간의 그래디언트 충돌 문제를 해결하는 혁신적인 그래디언트 분산 일치 목표
  4. 최첨단 성능: VTAB 벤치마크에서 최첨단 성능 달성, 평균 정확도 60.3%

방법 상세 설명

작업 정의

κ개의 소스 작업 S = {Sᵢ}ᵏᵢ₌₁ 및 해당 최적화된 프롬프트 {Pᵢ}ᵏᵢ₌₁이 주어졌을 때, 목표는 소스 프롬프트를 최적으로 조합하여 새로운 작업 T를 위한 목표 프롬프트 P_T를 구성하는 것이다. M ≤ κ를 선택된 소스 프롬프트의 수라 하고, 가중치 α = (α₁,...,αₘ)은 ∑ᵢαᵢ = 1 및 αᵢ ≥ 0을 만족한다.

모델 아키텍처

1. 시각 프롬프트 튜닝 기초

사전 학습된 Transformer의 경우, m개의 학습 가능한 프롬프트 토큰 P = p₁,...,pₘ ∈ ℝᵐˣᵈ을 도입한다. 입력 이미지 X의 패치 임베딩 E(X) ∈ ℝⁿˣᵈ이 주어졌을 때, 결합된 입력 시퀀스는 P;E(X) ∈ ℝ⁽ᵐ⁺ⁿ⁾ˣᵈ이다.

예측 확률은 다음과 같다:

Pr_θ(Y|X;P) = exp(f_Y([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. H-score 전이 가능성 측도

정의 1: 입력 데이터 x, 레이블 y 및 특징 추출기 f(x)가 주어졌을 때, 단측 H-score는 다음과 같이 정의된다:

H(f) = tr(cov(f(X))⁻¹cov(E_P[X|Y][f(X)|Y]))

이 측도는 직관적인 해석을 가진다: 높은 H-score는 더 큰 클래스 간 판별성 cov(Ef(X)|Y)과 최소 특징 중복 tr(cov(f(X)))을 나타낸다.

정의 2: 최적 특징 가중치는 가중 특징 합의 H-score를 최대화하여 결정된다:

α* = argmax_α H(∑ⱼαⱼ·f_Pⱼ) s.t. ∑ⱼαⱼ = 1

정리 1: H-score는 가중치 α의 볼록 이차 형식이므로 최적화 문제의 신뢰할 수 있는 해결을 보장한다.

3. 그래디언트 정렬 정규화

다중 프롬프트 집계의 그래디언트 간섭 문제를 해결하기 위해 그래디언트 분산 일치 목표를 제안한다:

각 소스 프롬프트 Pᵢ의 그래디언트 계산:

gᵢ = ∇_Pᵢ L(f_θ([x₀;Pᵢ;E(X)]), y)

그래디언트 분산:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

정규화 항:

L_align(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

총 목표 함수:

L(α) = -H(α) + λL_align(α)

기술 혁신점

  1. 집계 평가 vs 독립 평가: 기존 방법이 각 프롬프트를 독립적으로 평가하는 것과 달리, 본 논문은 집계된 프롬프트의 전체 전이 가능성을 평가한다
  2. 이론적 기초: 정보 이론 기반 H-score는 엄격한 수학적 기초를 제공하여 휴리스틱 방법을 대체한다
  3. 그래디언트 충돌 해결: Hessian 및 Fisher 정보의 이론적 통찰을 기반으로 그래디언트 분산 일치를 설계하여 최적화 불일치를 감소시킨다

실험 설정

데이터셋

VTAB-1k 벤치마크의 13개 데이터셋 사용, 세 가지 작업 범주 포함:

  • Natural: 일반 카메라로 촬영한 이미지 (예: CIFAR100, Flowers102, Pets)
  • Specialized: 전용 장비로 획득한 데이터 (예: EuroSAT 위성 이미지)
  • Structured: 공간 추론이 필요한 작업 (예: CLEVR 계산 작업)

평가 지표

분류 정확도를 주요 평가 지표로 사용하며, 3회 독립 실행의 평균 결과를 보고한다.

비교 방법

11개의 기준 방법 포함:

  1. 분류 헤드 재훈련: PARTIAL-k, MLP-k
  2. 매개변수 부분집합 업데이트: Adapter, SIDETUNE, BIAS
  3. 프롬프트 전이: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

구현 세부사항

  • 백본 네트워크: ViT-B/16 (ImageNet-21k 사전 학습)
  • 프롬프트 토큰 수: 50
  • 소스 작업 훈련: 10 에포크
  • 계산 장치: NVIDIA A800-80GB GPU
  • 샘플 수: 전이 가능성 및 그래디언트 정렬 손실 계산을 위해 각 소스 작업당 2000개 샘플

실험 결과

주요 결과

HGPrompt는 13개의 시각 작업에서 최첨단 성능 달성:

방법CIFAR100DTDFlowers102PetsSVHNEuroSAT평균
PANDA74.161.396.586.271.290.858.7
HGPrompt75.964.298.187.471.092.660.3
  • 평균 정확도 60.3%, 모든 기준 방법 초과
  • 세밀한 분류 작업(Flowers102, Pets)에서 우수한 성능
  • 기하학적 추론 작업(sNORB-Azimuth, dSprite-Orientation)에서 새로운 기준 수립

절제 실험

각 구성 요소의 기여도 분석:

H(α)L_alignCIFARDTDPetsEuroSAT평균
××60.457.882.789.172.5
×74.662.385.991.278.5
×74.161.985.590.878.1
75.964.287.492.680.0

결과는 두 구성 요소가 상호 보완적 역할을 하며, 공동 사용 시 최고 성능을 달성함을 보여준다.

가중치 분석

Spearman 순위 상관계수를 통한 가중치 품질 검증:

방법CIFARC-distd-LocDMLSVHN평균
SPoT0.5520.175-0.1680.112-0.1470.105
PANDA0.9160.4410.5520.7130.2240.569
HGPrompt0.9440.6640.8530.7270.8530.808

HGPrompt가 학습한 가중치는 제로샷 전이 정확도와 최고의 상관성을 보이며, 작업 간 의미론적 친화성을 더 정확하게 반영한다.

확장성 분석

소스 프롬프트 수가 3에서 11로 증가함에 따라 HGPrompt는 PANDA 및 SPoT에 비해 더 강한 성능 우위를 보여주며, 대규모 프롬프트 집합에서 방법의 유효성을 검증한다.

표현 시각화

t-SNE 시각화는 HGPrompt가 생성한 특징이 더 나은 클래스 판별성을 가지며, 동일 클래스 객체가 긴밀한 그룹을 형성하고 경계가 명확함을 보여준다.

관련 연구

매개변수 효율적 전이 학습

  • NLP 분야: Adapter, BitFit, LoRA 등 방법이 1-5% 매개변수 튜닝
  • 시각 분야: VPT가 학습 가능한 토큰 도입, VP가 픽셀 수준 섭동 수행

전이 가능성 추정

  • 정보 이론 방법: H-score, LEEP, LogME가 특징 판별성 평가
  • 최적 수송: OTCE가 도메인-작업 차이 측정

다중 소스 프롬프트 튜닝

  • 단일 작업 전이: SPoT가 메트릭을 사용하여 최고 소스 작업 예측, Su 등이 신경원 활성화의 역할 강조
  • 다중 작업 설정: ATTEMPT가 주의 메커니즘으로 지식 집계, PANDA가 지식 증류로 망각 문제 해결

결론 및 논의

주요 결론

  1. HGPrompt는 H-score와 그래디언트 정렬을 공동으로 최적화하여 최적 프롬프트 앙상블 달성
  2. 정보 이론 측도가 휴리스틱 방법보다 프롬프트 전이 가능성을 더 효과적으로 정량화
  3. 그래디언트 분산 일치가 다중 소스 프롬프트의 간섭 문제를 성공적으로 해결

한계

  1. 아키텍처 특이성: 현재 작업은 Transformer 아키텍처에 중점을 두고 있으며, 다른 아키텍처에 대한 적용 가능성 제한
  2. 모달리티 제약: 주로 시각 작업을 대상으로 하며, 다중 모달 학습에는 새로운 프롬프트 설계 방법 필요
  3. 계산 오버헤드: 여러 소스 프롬프트의 특징 및 그래디언트 계산 필요

향후 방향

  1. 아키텍처 무관 범용 프롬프트 인터페이스로 확장
  2. 다중 모달 학습에서 프롬프트 설계 탐색
  3. 더 효율적인 전이 가능성 평가 방법 연구

심층 평가

장점

  1. 이론적 혁신: 정보 이론 기반 전이 가능성 측도가 엄격한 수학적 기초 제공
  2. 기술 선진성: 그래디언트 정렬 정규화가 다중 소스 간섭 문제를 영리하게 해결
  3. 충분한 실험: 대규모 벤치마크에서의 포괄적 평가가 방법의 유효성 검증
  4. 강한 해석 가능성: 가중치 학습 과정이 명확한 이론적 설명 제공

부족한 점

  1. 이론 분석 깊이: 볼록성 증명은 제공하지만 수렴성 및 최적성 분석 부족
  2. 초매개변수 민감성: λ 매개변수 선택이 성능에 큰 영향을 미치며 자적응 메커니즘 부재
  3. 계산 복잡도: 방법의 계산 복잡도 및 확장성에 대한 상세 분석 부족

영향력

  1. 학술 기여: 다중 소스 프롬프트 전이를 위한 새로운 이론적 프레임워크 및 실용적 방법 제공
  2. 실용 가치: 자원 제약 환경에서 중요한 응용 가치
  3. 재현 가능성: 저자가 소스 코드 제공 약속으로 방법 확산에 유리

적용 시나리오

  1. 자원 제약 환경: 모바일 장치, 엣지 컴퓨팅 등 시나리오
  2. 빠른 적응 요구: 새로운 작업에 빠르게 적응해야 하는 응용
  3. 다중 작업 학습: 여러 관련 작업의 지식을 활용해야 하는 시나리오

참고문헌

논문은 풍부한 관련 연구를 인용하고 있다:

  • 매개변수 효율적 학습: Houlsby et al. (2019), Hu et al. (2021)
  • 전이 가능성 평가: Bao et al. (2019), You et al. (2021)
  • 다중 작업 학습: Yu et al. (2020), Rame et al. (2022)
  • 시각 Transformer: Dosovitskiy (2020), Jia et al. (2022)

본 논문은 다중 소스 시각 프롬프트 전이 분야에서 중요한 기여를 하였으며, 이론적 혁신과 기술적 돌파를 통해 기존 방법의 핵심 문제를 해결하고 매개변수 효율적 전이 학습을 위한 새로운 연구 방향을 제시한다.