Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
論文ID : 2504.12311タイトル : Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer著者 : Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (清華大学深圳国際大学院、東南大学)分類 : cs.CL (計算言語学)発表時期/会議 : arXiv プレプリント (2025年10月15日最新版)論文リンク : https://arxiv.org/abs/2504.12311v5 本論文はマルチソース視覚プロンプト転移タスクに対してHGPromptフレームワークを提案する。本手法は情報理論的転移可能性度量と勾配競合最小化正則化項の共同最適化を通じて、最適なアンサンブル重みを学習する。具体的には、微分可能なプロンプト転移可能性度量を提案して、目標タスク上でプロンプトが誘導する特徴の判別性を捉える。同時にHessian情報とFisher情報マッチングに基づいて異なるソースプロンプトの勾配分散を一致させ、安定で一貫した知識転移を確保し、勾配競合を抑制する。大規模VTABベンチマーク上の実験によってHGPromptの有効性が検証された。
視覚基礎モデルの発展に伴い、プロンプトチューニング(Prompt Tuning)は下流タスクへの適応のための軽量戦略となっている。既存手法が直面する核心的問題は、複数のソースプロンプトを効果的に集約して新規タスクの汎化能力を向上させる方法である。
リソース効率の必要性 :大規模事前学習モデルに対する全モデル微調整は非現実的となり、プロンプトチューニングはわずか0.4%のパラメータ更新で競争力のある性能を達成できるプロンプト資産の価値 :事前学習済みプロンプトは貴重な知識資産となり、マルチソースプロンプトの組み合わせは相補的知識を活用できる既存手法の限界 :単純な連結または平均化による集約は、異なるソースプロンプトの目標タスクへの貢献度の差異を無視し、表現の崩壊を招く可能性がある従来手法は各プロンプトの転移可能性を孤立して評価し、プロンプト間の相互依存性を無視している 理論的基礎のないヒューリスティック手法(パラメータ類似性計算など)が使用されている マルチプロンプト集約による勾配干渉が最適化の不安定性を招く HGPromptフレームワークの提案 :最適なプロンプト重みを動的に学習する初の理論的に信頼性のあるフレームワーク。集約プロンプトが誘導する特徴の転移可能性を評価する情報理論的転移可能性度量 :H-scoreに基づく微分可能なプロンプト転移可能性度量。明確で解釈可能な貢献度の定量化を提供する勾配対齢正則化 :マルチソースプロンプト間の勾配競合問題を解決する革新的な勾配分散マッチング目標最先端性能 :VTABベンチマーク上で最先端性能を達成。平均精度60.3%κ個のソースタスク S = {Si}ᵏᵢ₌₁とそれに対応する最適化プロンプト{Pi}ᵏᵢ₌₁が与えられたとき、目標は最適な組み合わせによってソースプロンプトから新規タスク T の目標プロンプト PT を構築することである。M ≤ κを選択されたソースプロンプト数とし、重み α = (α₁,...,αM)は∑ᵢαᵢ = 1かつαᵢ ≥ 0を満たす。
事前学習済みTransformerに対して、m個の学習可能なプロンプトトークン P = p₁,...,pm ∈ Rᵐˣᵈ を導入する。入力画像Xのパッチ埋め込み E(X) ∈ Rⁿˣᵈ が与えられたとき、組み合わせ入力シーケンスは P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ となる。
予測確率は以下の通り:
Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fi([P;E(X)];θ))
定義1 :入力データ x、ラベル y、特徴抽出器 f(x) が与えられたとき、単側H-scoreは以下のように定義される:
H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))
この度量は直感的な解釈を持つ:高いH-scoreはより大きなクラス間判別性 cov(Ef(X)|Y ) と最小の特徴冗長性 tr(cov(f(X))) を示す。
定義2 :最適な特徴重みは加重特徴和のH-scoreを最大化することで決定される:
α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1
定理1 :H-scoreは重み α に関する凸二次形式であり、最適化問題の信頼性のある解法を保証する。
マルチプロンプト集約の勾配干渉問題を解決するため、勾配分散マッチング目標を提案する:
各ソースプロンプト Pi の勾配を計算:
gi = ∇Pi L(fθ([x₀;Pi;E(X)]), y)
勾配分散:
vi = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²
正則化項:
Lalign(α) = 1/M ∑ᵢ||vi - v̄(α)||²₂
総合目的関数:
L(α) = -H(α) + λLalign(α)
集約評価対孤立評価 :従来手法が各プロンプトを独立に評価するのに対し、本論文は集約プロンプトの全体的な転移可能性を評価する理論的基礎 :情報理論に基づくH-scoreは厳密な数学的基礎を提供し、ヒューリスティック手法に代わる勾配競合の解決 :Hessian情報とFisher情報の理論的洞察に基づいて、勾配分散マッチングを設計し、最適化の不一致を低減するVTAB-1kベンチマークの13個のデータセットを使用。3つのタスクカテゴリを網羅:
Natural :通常のカメラで撮影された画像(CIFAR100、Flowers102、Petsなど)Specialized :専用機器で取得されたデータ(EuroSAT衛星画像など)Structured :空間推論が必要(CLEVR計数タスクなど)分類精度を主要な評価指標として使用。3回の独立実行の平均結果を報告。
11個のベースライン手法を含む:
分類ヘッド再訓練 :PARTIAL-k、MLP-kパラメータサブセット更新 :Adapter、SIDETUNE、BIASプロンプト転移 :Average、Single-Best、VPT、SPoT、ATTEMPT、PANDAバックボーン:ViT-B/16 (ImageNet-21k事前学習) プロンプトトークン数:50 ソースタスク訓練:10エポック 計算デバイス:NVIDIA A800-80GB GPU サンプル数:転移可能性と勾配対齢損失計算用に各ソースタスクから2000サンプル HGPromptは13個の視覚タスク上で最先端性能を達成:
手法 CIFAR100 DTD Flowers102 Pets SVHN EuroSAT 平均 PANDA 74.1 61.3 96.5 86.2 71.2 90.8 58.7 HGPrompt 75.9 64.2 98.1 87.4 71.0 92.6 60.3
平均精度60.3%。すべてのベースライン手法を上回る 細粒度認識タスク(Flowers102、Pets)で優れた性能を発揮 幾何推論タスク(sNORB-Azimuth、dSprite-Orientation)で新しいベンチマークを確立 各コンポーネントの貢献度分析:
H(α) Lalign CIFAR DTD Pets EuroSAT 平均 × × 60.4 57.8 82.7 89.1 72.5 ✓ × 74.6 62.3 85.9 91.2 78.5 × ✓ 74.1 61.9 85.5 90.8 78.1 ✓ ✓ 75.9 64.2 87.4 92.6 80.0
結果は2つのコンポーネントが相補的な役割を果たし、共同使用で最高性能を達成することを示している。
Spearman順位相関係数による重み品質の検証:
手法 CIFAR C-dist d-Loc DML SVHN 平均 SPoT 0.552 0.175 -0.168 0.112 -0.147 0.105 PANDA 0.916 0.441 0.552 0.713 0.224 0.569 HGPrompt 0.944 0.664 0.853 0.727 0.853 0.808
HGPromptが学習した重みはゼロショット転移精度との相関性が最も高く、タスク間の意味的親和性をより正確に反映する。
ソースプロンプト数が3から11に増加するにつれて、HGPromptはPANDAおよびSPoTと比較してより強い性能優位性を示し、大規模プロンプト集合上での手法の有効性を検証する。
t-SNE可視化はHGPromptが生成する特徴がより優れたクラス判別性を持つことを示し、同一クラスのオブジェクトが密集したグループを形成し、境界が明確である。
NLP分野 :Adapter、BitFit、LoRAなどの手法が1~5%のパラメータをチューニング視覚分野 :VPTが学習可能なトークンを導入、VPがピクセルレベルの摂動を実施情報理論的手法 :H-score、LEEP、LogMEが特徴判別性を評価最適輸送 :OTCEがドメイン-タスク差異を測定単一タスク転移 :SPoTが度量を使用して最適なソースタスクを予測、Suらがニューロン活性化の役割を強調マルチタスク設定 :ATTEMPTが注意機構を使用して知識を集約、PANDAが知識蒸留を通じて忘却問題を解決HGPromptはH-scoreと勾配対齢の共同最適化を通じて最適なプロンプト集約を実現した 情報理論的度量はヒューリスティック手法よりもプロンプト転移可能性の定量化に有効である 勾配分散マッチングはマルチソースプロンプトの干渉問題を成功裏に解決した アーキテクチャ特異性 :現在の研究はTransformerアーキテクチャに焦点を当てており、他のアーキテクチャへの適用性は限定的であるモダリティ制約 :主に視覚タスクを対象としており、マルチモーダル学習には新しいプロンプト設計方法が必要である計算オーバーヘッド :複数のソースプロンプトの特徴と勾配の計算が必要であるアーキテクチャに依存しない汎用プロンプトインターフェースへの拡張 マルチモーダル学習におけるプロンプト設計の探索 より効率的な転移可能性評価方法の研究 理論的革新 :情報理論に基づく転移可能性度量は厳密な数学的基礎を提供する技術的先進性 :勾配対齢正則化はマルチソース干渉問題を巧妙に解決する実験の充実 :大規模ベンチマーク上の包括的評価が手法の有効性を検証する解釈可能性 :重み学習プロセスは明確な理論的説明を持つ理論分析の深さ :凸性証明は提供されているが、収束性と最適性の分析が不十分であるハイパーパラメータ感度 :λパラメータの選択が性能に大きく影響するが、適応的メカニズムが欠けている計算複雑度 :手法の計算複雑度とスケーラビリティの詳細な分析が不足している学術的貢献 :マルチソースプロンプト転移に新しい理論的フレームワークと実用的手法を提供する実用的価値 :リソース制約下のシナリオで重要な応用価値を持つ再現性 :著者がソースコード提供を約束しており、手法の普及に有利であるリソース制約環境 :モバイルデバイス、エッジコンピューティングなどのシーン迅速な適応需要 :新規タスクへの迅速な適応が必要なアプリケーションマルチタスク学習 :複数の関連タスクの知識を活用する必要があるシーン論文は豊富な関連研究を引用している。以下を含む:
パラメータ効率的学習:Houlsby et al. (2019)、Hu et al. (2021) 転移可能性評価:Bao et al. (2019)、You et al. (2021) マルチタスク学習:Yu et al. (2020)、Rame et al. (2022) 視覚Transformer:Dosovitskiy (2020)、Jia et al. (2022) 本論文はマルチソース視覚プロンプト転移分野に重要な貢献をなし、理論的革新と技術的突破を通じて既存手法の重要な問題を解決し、パラメータ効率的転移学習に新しい研究方向を提供している。