2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic

マルチソース視覚プロンプト転移のための最適プロンプトアンサンブル学習

基本情報

  • 論文ID: 2504.12311
  • タイトル: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
  • 著者: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (清華大学深圳国際大学院、東南大学)
  • 分類: cs.CL (計算言語学)
  • 発表時期/会議: arXiv プレプリント (2025年10月15日最新版)
  • 論文リンク: https://arxiv.org/abs/2504.12311v5

要旨

本論文はマルチソース視覚プロンプト転移タスクに対してHGPromptフレームワークを提案する。本手法は情報理論的転移可能性度量と勾配競合最小化正則化項の共同最適化を通じて、最適なアンサンブル重みを学習する。具体的には、微分可能なプロンプト転移可能性度量を提案して、目標タスク上でプロンプトが誘導する特徴の判別性を捉える。同時にHessian情報とFisher情報マッチングに基づいて異なるソースプロンプトの勾配分散を一致させ、安定で一貫した知識転移を確保し、勾配競合を抑制する。大規模VTABベンチマーク上の実験によってHGPromptの有効性が検証された。

研究背景と動機

問題定義

視覚基礎モデルの発展に伴い、プロンプトチューニング(Prompt Tuning)は下流タスクへの適応のための軽量戦略となっている。既存手法が直面する核心的問題は、複数のソースプロンプトを効果的に集約して新規タスクの汎化能力を向上させる方法である。

研究動機

  1. リソース効率の必要性:大規模事前学習モデルに対する全モデル微調整は非現実的となり、プロンプトチューニングはわずか0.4%のパラメータ更新で競争力のある性能を達成できる
  2. プロンプト資産の価値:事前学習済みプロンプトは貴重な知識資産となり、マルチソースプロンプトの組み合わせは相補的知識を活用できる
  3. 既存手法の限界:単純な連結または平均化による集約は、異なるソースプロンプトの目標タスクへの貢献度の差異を無視し、表現の崩壊を招く可能性がある

核心的課題

  • 従来手法は各プロンプトの転移可能性を孤立して評価し、プロンプト間の相互依存性を無視している
  • 理論的基礎のないヒューリスティック手法(パラメータ類似性計算など)が使用されている
  • マルチプロンプト集約による勾配干渉が最適化の不安定性を招く

核心的貢献

  1. HGPromptフレームワークの提案:最適なプロンプト重みを動的に学習する初の理論的に信頼性のあるフレームワーク。集約プロンプトが誘導する特徴の転移可能性を評価する
  2. 情報理論的転移可能性度量:H-scoreに基づく微分可能なプロンプト転移可能性度量。明確で解釈可能な貢献度の定量化を提供する
  3. 勾配対齢正則化:マルチソースプロンプト間の勾配競合問題を解決する革新的な勾配分散マッチング目標
  4. 最先端性能:VTABベンチマーク上で最先端性能を達成。平均精度60.3%

方法の詳細

タスク定義

κ個のソースタスク S = {Si}ᵏᵢ₌₁とそれに対応する最適化プロンプト{Pi}ᵏᵢ₌₁が与えられたとき、目標は最適な組み合わせによってソースプロンプトから新規タスク T の目標プロンプト PT を構築することである。M ≤ κを選択されたソースプロンプト数とし、重み α = (α₁,...,αM)は∑ᵢαᵢ = 1かつαᵢ ≥ 0を満たす。

モデルアーキテクチャ

1. 視覚プロンプトチューニングの基礎

事前学習済みTransformerに対して、m個の学習可能なプロンプトトークン P = p₁,...,pm ∈ Rᵐˣᵈ を導入する。入力画像Xのパッチ埋め込み E(X) ∈ Rⁿˣᵈ が与えられたとき、組み合わせ入力シーケンスは P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ となる。

予測確率は以下の通り:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fi([P;E(X)];θ))

2. H-score転移可能性度量

定義1:入力データ x、ラベル y、特徴抽出器 f(x) が与えられたとき、単側H-scoreは以下のように定義される:

H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))

この度量は直感的な解釈を持つ:高いH-scoreはより大きなクラス間判別性 cov(Ef(X)|Y) と最小の特徴冗長性 tr(cov(f(X))) を示す。

定義2:最適な特徴重みは加重特徴和のH-scoreを最大化することで決定される:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

定理1:H-scoreは重み α に関する凸二次形式であり、最適化問題の信頼性のある解法を保証する。

3. 勾配対齢正則化

マルチプロンプト集約の勾配干渉問題を解決するため、勾配分散マッチング目標を提案する:

各ソースプロンプト Pi の勾配を計算:

gi = ∇Pi L(fθ([x₀;Pi;E(X)]), y)

勾配分散:

vi = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

正則化項:

Lalign(α) = 1/M ∑ᵢ||vi - v̄(α)||²₂

総合目的関数:

L(α) = -H(α) + λLalign(α)

技術的革新点

  1. 集約評価対孤立評価:従来手法が各プロンプトを独立に評価するのに対し、本論文は集約プロンプトの全体的な転移可能性を評価する
  2. 理論的基礎:情報理論に基づくH-scoreは厳密な数学的基礎を提供し、ヒューリスティック手法に代わる
  3. 勾配競合の解決:Hessian情報とFisher情報の理論的洞察に基づいて、勾配分散マッチングを設計し、最適化の不一致を低減する

実験設定

データセット

VTAB-1kベンチマークの13個のデータセットを使用。3つのタスクカテゴリを網羅:

  • Natural:通常のカメラで撮影された画像(CIFAR100、Flowers102、Petsなど)
  • Specialized:専用機器で取得されたデータ(EuroSAT衛星画像など)
  • Structured:空間推論が必要(CLEVR計数タスクなど)

評価指標

分類精度を主要な評価指標として使用。3回の独立実行の平均結果を報告。

比較手法

11個のベースライン手法を含む:

  1. 分類ヘッド再訓練:PARTIAL-k、MLP-k
  2. パラメータサブセット更新:Adapter、SIDETUNE、BIAS
  3. プロンプト転移:Average、Single-Best、VPT、SPoT、ATTEMPT、PANDA

実装詳細

  • バックボーン:ViT-B/16 (ImageNet-21k事前学習)
  • プロンプトトークン数:50
  • ソースタスク訓練:10エポック
  • 計算デバイス:NVIDIA A800-80GB GPU
  • サンプル数:転移可能性と勾配対齢損失計算用に各ソースタスクから2000サンプル

実験結果

主要結果

HGPromptは13個の視覚タスク上で最先端性能を達成:

手法CIFAR100DTDFlowers102PetsSVHNEuroSAT平均
PANDA74.161.396.586.271.290.858.7
HGPrompt75.964.298.187.471.092.660.3
  • 平均精度60.3%。すべてのベースライン手法を上回る
  • 細粒度認識タスク(Flowers102、Pets)で優れた性能を発揮
  • 幾何推論タスク(sNORB-Azimuth、dSprite-Orientation)で新しいベンチマークを確立

アブレーション実験

各コンポーネントの貢献度分析:

H(α)LalignCIFARDTDPetsEuroSAT平均
××60.457.882.789.172.5
×74.662.385.991.278.5
×74.161.985.590.878.1
75.964.287.492.680.0

結果は2つのコンポーネントが相補的な役割を果たし、共同使用で最高性能を達成することを示している。

重み分析

Spearman順位相関係数による重み品質の検証:

手法CIFARC-distd-LocDMLSVHN平均
SPoT0.5520.175-0.1680.112-0.1470.105
PANDA0.9160.4410.5520.7130.2240.569
HGPrompt0.9440.6640.8530.7270.8530.808

HGPromptが学習した重みはゼロショット転移精度との相関性が最も高く、タスク間の意味的親和性をより正確に反映する。

スケーラビリティ分析

ソースプロンプト数が3から11に増加するにつれて、HGPromptはPANDAおよびSPoTと比較してより強い性能優位性を示し、大規模プロンプト集合上での手法の有効性を検証する。

表現の可視化

t-SNE可視化はHGPromptが生成する特徴がより優れたクラス判別性を持つことを示し、同一クラスのオブジェクトが密集したグループを形成し、境界が明確である。

関連研究

パラメータ効率的転移学習

  • NLP分野:Adapter、BitFit、LoRAなどの手法が1~5%のパラメータをチューニング
  • 視覚分野:VPTが学習可能なトークンを導入、VPがピクセルレベルの摂動を実施

転移可能性推定

  • 情報理論的手法:H-score、LEEP、LogMEが特徴判別性を評価
  • 最適輸送:OTCEがドメイン-タスク差異を測定

マルチソースプロンプトチューニング

  • 単一タスク転移:SPoTが度量を使用して最適なソースタスクを予測、Suらがニューロン活性化の役割を強調
  • マルチタスク設定:ATTEMPTが注意機構を使用して知識を集約、PANDAが知識蒸留を通じて忘却問題を解決

結論と考察

主要な結論

  1. HGPromptはH-scoreと勾配対齢の共同最適化を通じて最適なプロンプト集約を実現した
  2. 情報理論的度量はヒューリスティック手法よりもプロンプト転移可能性の定量化に有効である
  3. 勾配分散マッチングはマルチソースプロンプトの干渉問題を成功裏に解決した

限界

  1. アーキテクチャ特異性:現在の研究はTransformerアーキテクチャに焦点を当てており、他のアーキテクチャへの適用性は限定的である
  2. モダリティ制約:主に視覚タスクを対象としており、マルチモーダル学習には新しいプロンプト設計方法が必要である
  3. 計算オーバーヘッド:複数のソースプロンプトの特徴と勾配の計算が必要である

今後の方向性

  1. アーキテクチャに依存しない汎用プロンプトインターフェースへの拡張
  2. マルチモーダル学習におけるプロンプト設計の探索
  3. より効率的な転移可能性評価方法の研究

深層評価

利点

  1. 理論的革新:情報理論に基づく転移可能性度量は厳密な数学的基礎を提供する
  2. 技術的先進性:勾配対齢正則化はマルチソース干渉問題を巧妙に解決する
  3. 実験の充実:大規模ベンチマーク上の包括的評価が手法の有効性を検証する
  4. 解釈可能性:重み学習プロセスは明確な理論的説明を持つ

不足点

  1. 理論分析の深さ:凸性証明は提供されているが、収束性と最適性の分析が不十分である
  2. ハイパーパラメータ感度:λパラメータの選択が性能に大きく影響するが、適応的メカニズムが欠けている
  3. 計算複雑度:手法の計算複雑度とスケーラビリティの詳細な分析が不足している

影響力

  1. 学術的貢献:マルチソースプロンプト転移に新しい理論的フレームワークと実用的手法を提供する
  2. 実用的価値:リソース制約下のシナリオで重要な応用価値を持つ
  3. 再現性:著者がソースコード提供を約束しており、手法の普及に有利である

適用シーン

  1. リソース制約環境:モバイルデバイス、エッジコンピューティングなどのシーン
  2. 迅速な適応需要:新規タスクへの迅速な適応が必要なアプリケーション
  3. マルチタスク学習:複数の関連タスクの知識を活用する必要があるシーン

参考文献

論文は豊富な関連研究を引用している。以下を含む:

  • パラメータ効率的学習:Houlsby et al. (2019)、Hu et al. (2021)
  • 転移可能性評価:Bao et al. (2019)、You et al. (2021)
  • マルチタスク学習:Yu et al. (2020)、Rame et al. (2022)
  • 視覚Transformer:Dosovitskiy (2020)、Jia et al. (2022)

本論文はマルチソース視覚プロンプト転移分野に重要な貢献をなし、理論的革新と技術的突破を通じて既存手法の重要な問題を解決し、パラメータ効率的転移学習に新しい研究方向を提供している。