Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
본 논문은 다중 소스 시각 프롬프트 전이 작업을 위해 HGPrompt 프레임워크를 제안한다. 이 방법은 정보 이론 전이 가능성 측도와 그래디언트 충돌 최소화 정규화 항을 공동으로 최적화하여 최적의 앙상블 가중치를 학습한다. 구체적으로, 미분 가능한 프롬프트 전이 가능성 측도를 제안하여 목표 작업에서 프롬프트 유도 특징의 판별성을 포착하고, Hessian 및 Fisher 정보 기반으로 서로 다른 소스 프롬프트의 그래디언트 분산을 일치시켜 안정적이고 일관된 지식 전이를 보장하며 그래디언트 충돌을 억제한다. 대규모 VTAB 벤치마크에서의 실험이 HGPrompt의 유효성을 검증했다.
κ개의 소스 작업 S = {Sᵢ}ᵏᵢ₌₁ 및 해당 최적화된 프롬프트 {Pᵢ}ᵏᵢ₌₁이 주어졌을 때, 목표는 소스 프롬프트를 최적으로 조합하여 새로운 작업 T를 위한 목표 프롬프트 P_T를 구성하는 것이다. M ≤ κ를 선택된 소스 프롬프트의 수라 하고, 가중치 α = (α₁,...,αₘ)은 ∑ᵢαᵢ = 1 및 αᵢ ≥ 0을 만족한다.