Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic
Lernen optimaler Prompt-Ensembles für Multi-Source Visual Prompt Transfer
Dieser Artikel präsentiert das HGPrompt-Framework für Multi-Source Visual Prompt Transfer-Aufgaben. Die Methode lernt optimale Ensemble-Gewichte durch gemeinsame Optimierung eines informationstheoretischen Transferierbarkeitsmasses und eines Gradienten-Konflikt-Minimierungsterms. Konkret wird ein differenzierbares Prompt-Transferierbarkeitsmass vorgeschlagen, um die Diskriminativität von Prompt-induzierten Merkmalen bei der Zielaufgabe zu erfassen. Gleichzeitig wird die Gradienten-Varianz verschiedener Quell-Prompts durch Hessian- und Fisher-Informations-Matching abgestimmt, um stabilen und konsistenten Wissenstransfer zu gewährleisten und Gradienten-Konflikte zu unterdrücken. Experimente auf der großflächigen VTAB-Benchmark validieren die Effektivität von HGPrompt.
Mit der Entwicklung visueller Grundmodelle ist Prompt Tuning zu einer leichtgewichtigen Strategie zur Anpassung an nachgelagerte Aufgaben geworden. Das Kernproblem, dem sich bestehende Methoden gegenübersehen, ist: Wie können mehrere Quell-Prompts effektiv aggregiert werden, um die Generalisierungsfähigkeit bei neuen Aufgaben zu verbessern?
Ressourceneffizienzanforderungen: Vollständiges Model Fine-Tuning wird bei großflächigen vortrainierten Modellen unpraktisch; Prompt Tuning benötigt nur die Aktualisierung von 0,4% der Parameter, um wettbewerbsfähige Leistung zu erreichen
Wert von Prompt-Assets: Vorgenerierte Prompts sind zu wertvollen Wissensressourcen geworden; die Kombination mehrerer Quell-Prompts kann komplementäres Wissen nutzen
Einschränkungen bestehender Methoden: Einfache Verkettungs- oder Durchschnittsaggregation ignoriert die unterschiedlichen Beitragsdifferenzen verschiedener Quell-Prompts zur Zielaufgabe und kann zu Merkmals-Kollaps führen
HGPrompt-Framework: Das erste theoretisch fundierte Framework zum dynamischen Lernen optimaler Prompt-Gewichte durch Bewertung der Transferierbarkeit von aggregierten Prompt-induzierten Merkmalen
Informationstheoretisches Transferierbarkeitsmass: Differenzierbares Prompt-Transferierbarkeitsmass basierend auf H-Score, das eine explizite und interpretierbare Quantifizierung des Beitrags bietet
Gradienten-Alignment-Regularisierung: Innovatives Gradienten-Varianz-Matching-Ziel zur Lösung von Gradienten-Konflikten zwischen Multi-Source-Prompts
SOTA-Leistung: State-of-the-Art-Leistung auf der VTAB-Benchmark mit durchschnittlicher Genauigkeit von 60,3%
Gegeben κ Quellaufgaben S = {Si}ᵏᵢ₌₁ und ihre entsprechenden optimierten Prompts {Pi}ᵏᵢ₌₁ besteht das Ziel darin, durch optimale Kombination von Quell-Prompts einen Ziel-Prompt PT für eine neue Aufgabe T zu konstruieren. Sei M ≤ κ die Anzahl der ausgewählten Quell-Prompts und Gewichte α = (α₁,...,αM) erfüllen ∑ᵢαᵢ = 1 und αᵢ ≥ 0.
Für einen vortrainierten Transformer werden m lernbare Prompt-Tokens P = p₁,...,pm ∈ Rᵐˣᵈ eingeführt. Gegeben die Patch-Einbettung E(X) ∈ Rⁿˣᵈ eines Eingabebildes X ist die kombinierte Eingabesequenz P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.
Definition 1: Gegeben Eingabedaten x, Label y und Merkmalsextraktor f(x) ist der einseitige H-Score definiert als:
H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))
Dieses Mass hat eine intuitive Interpretation: Ein hoher H-Score zeigt grössere Klassen-Diskriminativität cov(Ef(X)|Y) und minimale Merkmals-Redundanz tr(cov(f(X))) an.
Definition 2: Die optimalen Merkmals-Gewichte werden durch Maximierung des H-Scores der gewichteten Merkmalssumme bestimmt:
α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1
Theorem 1: Der H-Score ist eine konvexe quadratische Form bezüglich der Gewichte α, was die zuverlässige Lösung des Optimierungsproblems garantiert.
Ensemble-Bewertung vs. isolierte Bewertung: Im Gegensatz zu traditionellen Methoden, die jeden Prompt unabhängig bewerten, bewertet dieser Artikel die Gesamttransferierbarkeit des aggregierten Prompts
Theoretische Grundlagen: Das auf Informationstheorie basierende H-Score-Mass bietet eine strenge mathematische Grundlage und ersetzt heuristische Methoden
Gradienten-Konflikt-Lösung: Durch theoretische Erkenntnisse aus Hessian- und Fisher-Informationen wird Gradienten-Varianz-Matching entworfen, um Optimierungsinkonsistenzen zu reduzieren
Validierung der Gewichtsqualität durch Spearman-Rangkorrelationskoeffizient:
Methode
CIFAR
C-dist
d-Loc
DML
SVHN
Durchschnitt
SPoT
0,552
0,175
-0,168
0,112
-0,147
0,105
PANDA
0,916
0,441
0,552
0,713
0,224
0,569
HGPrompt
0,944
0,664
0,853
0,727
0,853
0,808
Die von HGPrompt gelernten Gewichte zeigen die höchste Korrelation mit Zero-Shot-Transfer-Genauigkeit und reflektieren genauer die semantische Affinität zwischen Aufgaben.
Mit zunehmender Anzahl von Quell-Prompts von 3 auf 11 zeigt HGPrompt stärkere Leistungsvorteile gegenüber PANDA und SPoT und validiert die Effektivität der Methode bei grossen Prompt-Sammlungen.
t-SNE-Visualisierung zeigt, dass von HGPrompt generierte Merkmale bessere Klassen-Diskriminativität aufweisen, mit engen Gruppierungen gleichartiger Objekte und klaren Grenzen.
Tiefe der theoretischen Analyse: Obwohl Konvexitätsbeweise bereitgestellt werden, ist die Analyse von Konvergenz und Optimalität nicht ausreichend tiefgreifend
Hyperparameter-Sensitivität: Die Wahl des λ-Parameters hat grossen Einfluss auf die Leistung; es fehlt ein adaptiver Mechanismus
Rechenkomplexität: Die Rechenkomplexität und Skalierbarkeit der Methode werden nicht detailliert analysiert
Das Paper zitiert umfangreiche verwandte Arbeiten, einschliesslich:
Parametereffizientes Lernen: Houlsby et al. (2019), Hu et al. (2021)
Transferierbarkeitsbewertung: Bao et al. (2019), You et al. (2021)
Multi-Task-Learning: Yu et al. (2020), Rame et al. (2022)
Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)
Dieses Paper leistet wichtige Beiträge im Bereich des Multi-Source Visual Prompt Transfer, löst Schlüsselprobleme bestehender Methoden durch theoretische Innovation und technische Durchbrüche und bietet neue Forschungsrichtungen für parametereffizientes Transfer Learning.