2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.

Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.

academic

다중 소스 시각 프롬프트 전이를 위한 최적 프롬프트 앙상블 학습

기본 정보

논문 ID: 2504.12311
제목: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
저자: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (칭화대학교 선전국제대학원, 동남대학교)
분류: cs.CL (계산언어학)
발표 시간/학회: arXiv 사전인쇄본 (2025년 10월 15일 최신 버전)
논문 링크: https://arxiv.org/abs/2504.12311v5

초록

본 논문은 다중 소스 시각 프롬프트 전이 작업을 위해 HGPrompt 프레임워크를 제안한다. 이 방법은 정보 이론 전이 가능성 측도와 그래디언트 충돌 최소화 정규화 항을 공동으로 최적화하여 최적의 앙상블 가중치를 학습한다. 구체적으로, 미분 가능한 프롬프트 전이 가능성 측도를 제안하여 목표 작업에서 프롬프트 유도 특징의 판별성을 포착하고, Hessian 및 Fisher 정보 기반으로 서로 다른 소스 프롬프트의 그래디언트 분산을 일치시켜 안정적이고 일관된 지식 전이를 보장하며 그래디언트 충돌을 억제한다. 대규모 VTAB 벤치마크에서의 실험이 HGPrompt의 유효성을 검증했다.

연구 배경 및 동기

문제 정의

시각 기초 모델의 발전에 따라 프롬프트 튜닝(Prompt Tuning)이 다운스트림 작업에 적응하기 위한 경량 전략이 되었다. 기존 방법이 직면한 핵심 문제는 여러 소스 프롬프트를 효과적으로 집계하여 새로운 작업의 일반화 능력을 향상시키는 방법이다.

연구 동기

자원 효율성 요구: 대규모 사전 학습 모델에서 전체 모델 미세 조정이 비현실적이 되었으며, 프롬프트 튜닝은 0.4%의 매개변수만 업데이트하여 경쟁력 있는 성능을 달성할 수 있다
프롬프트 자산 가치: 사전 학습된 프롬프트가 귀중한 지식 자산이 되었으며, 다중 소스 프롬프트의 조합은 상호 보완적 지식을 활용할 수 있다
기존 방법의 한계: 단순한 연결 또는 평균 집계는 서로 다른 소스 프롬프트의 목표 작업에 대한 기여도 차이를 무시하여 표현 붕괴를 초래할 수 있다

핵심 과제

기존 방법은 각 프롬프트의 전이 가능성을 독립적으로 평가하여 프롬프트 간의 상호 의존성을 무시한다
이론적 기초가 부족한 휴리스틱 방법(예: 매개변수 유사성 계산)
다중 프롬프트 집계로 인한 그래디언트 간섭으로 최적화 불안정성 발생

핵심 기여

HGPrompt 프레임워크 제안: 집계된 프롬프트 유도 특징의 전이 가능성을 평가하여 최적 프롬프트 가중치를 동적으로 학습하는 첫 번째 이론적으로 신뢰할 수 있는 프레임워크
정보 이론 전이 가능성 측도: H-score 기반의 미분 가능한 프롬프트 전이 가능성 측도로 명확하고 해석 가능한 기여도 정량화 제공
그래디언트 정렬 정규화: 다중 소스 프롬프트 간의 그래디언트 충돌 문제를 해결하는 혁신적인 그래디언트 분산 일치 목표
최첨단 성능: VTAB 벤치마크에서 최첨단 성능 달성, 평균 정확도 60.3%

방법 상세 설명

작업 정의

κ개의 소스 작업 S = {Sᵢ}ᵏᵢ₌₁ 및 해당 최적화된 프롬프트 {Pᵢ}ᵏᵢ₌₁이 주어졌을 때, 목표는 소스 프롬프트를 최적으로 조합하여 새로운 작업 T를 위한 목표 프롬프트 P_T를 구성하는 것이다. M ≤ κ를 선택된 소스 프롬프트의 수라 하고, 가중치 α = (α₁,...,αₘ)은 ∑ᵢαᵢ = 1 및 αᵢ ≥ 0을 만족한다.

모델 아키텍처

1. 시각 프롬프트 튜닝 기초

사전 학습된 Transformer의 경우, m개의 학습 가능한 프롬프트 토큰 P = p₁,...,pₘ ∈ ℝᵐˣᵈ을 도입한다. 입력 이미지 X의 패치 임베딩 E(X) ∈ ℝⁿˣᵈ이 주어졌을 때, 결합된 입력 시퀀스는 P;E(X) ∈ ℝ⁽ᵐ⁺ⁿ⁾ˣᵈ이다.

예측 확률은 다음과 같다:

Pr_θ(Y|X;P) = exp(f_Y([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. H-score 전이 가능성 측도

정의 1: 입력 데이터 x, 레이블 y 및 특징 추출기 f(x)가 주어졌을 때, 단측 H-score는 다음과 같이 정의된다:

H(f) = tr(cov(f(X))⁻¹cov(E_P[X|Y][f(X)|Y]))

이 측도는 직관적인 해석을 가진다: 높은 H-score는 더 큰 클래스 간 판별성 cov(Ef(X)|Y)과 최소 특징 중복 tr(cov(f(X)))을 나타낸다.

정의 2: 최적 특징 가중치는 가중 특징 합의 H-score를 최대화하여 결정된다:

α* = argmax_α H(∑ⱼαⱼ·f_Pⱼ) s.t. ∑ⱼαⱼ = 1

정리 1: H-score는 가중치 α의 볼록 이차 형식이므로 최적화 문제의 신뢰할 수 있는 해결을 보장한다.

3. 그래디언트 정렬 정규화

다중 프롬프트 집계의 그래디언트 간섭 문제를 해결하기 위해 그래디언트 분산 일치 목표를 제안한다:

각 소스 프롬프트 Pᵢ의 그래디언트 계산:

gᵢ = ∇_Pᵢ L(f_θ([x₀;Pᵢ;E(X)]), y)

그래디언트 분산:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

정규화 항:

L_align(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

총 목표 함수:

L(α) = -H(α) + λL_align(α)

기술 혁신점

집계 평가 vs 독립 평가: 기존 방법이 각 프롬프트를 독립적으로 평가하는 것과 달리, 본 논문은 집계된 프롬프트의 전체 전이 가능성을 평가한다
이론적 기초: 정보 이론 기반 H-score는 엄격한 수학적 기초를 제공하여 휴리스틱 방법을 대체한다
그래디언트 충돌 해결: Hessian 및 Fisher 정보의 이론적 통찰을 기반으로 그래디언트 분산 일치를 설계하여 최적화 불일치를 감소시킨다