2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic

Lernen optimaler Prompt-Ensembles für Multi-Source Visual Prompt Transfer

Grundinformationen

  • Paper-ID: 2504.12311
  • Titel: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
  • Autoren: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Shenzhen International Graduate School der Tsinghua-Universität, Südostuniversität)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungszeit/Konferenz: arXiv-Preprint (neueste Version vom 15. Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2504.12311v5

Zusammenfassung

Dieser Artikel präsentiert das HGPrompt-Framework für Multi-Source Visual Prompt Transfer-Aufgaben. Die Methode lernt optimale Ensemble-Gewichte durch gemeinsame Optimierung eines informationstheoretischen Transferierbarkeitsmasses und eines Gradienten-Konflikt-Minimierungsterms. Konkret wird ein differenzierbares Prompt-Transferierbarkeitsmass vorgeschlagen, um die Diskriminativität von Prompt-induzierten Merkmalen bei der Zielaufgabe zu erfassen. Gleichzeitig wird die Gradienten-Varianz verschiedener Quell-Prompts durch Hessian- und Fisher-Informations-Matching abgestimmt, um stabilen und konsistenten Wissenstransfer zu gewährleisten und Gradienten-Konflikte zu unterdrücken. Experimente auf der großflächigen VTAB-Benchmark validieren die Effektivität von HGPrompt.

Forschungshintergrund und Motivation

Problemdefinition

Mit der Entwicklung visueller Grundmodelle ist Prompt Tuning zu einer leichtgewichtigen Strategie zur Anpassung an nachgelagerte Aufgaben geworden. Das Kernproblem, dem sich bestehende Methoden gegenübersehen, ist: Wie können mehrere Quell-Prompts effektiv aggregiert werden, um die Generalisierungsfähigkeit bei neuen Aufgaben zu verbessern?

Forschungsmotivation

  1. Ressourceneffizienzanforderungen: Vollständiges Model Fine-Tuning wird bei großflächigen vortrainierten Modellen unpraktisch; Prompt Tuning benötigt nur die Aktualisierung von 0,4% der Parameter, um wettbewerbsfähige Leistung zu erreichen
  2. Wert von Prompt-Assets: Vorgenerierte Prompts sind zu wertvollen Wissensressourcen geworden; die Kombination mehrerer Quell-Prompts kann komplementäres Wissen nutzen
  3. Einschränkungen bestehender Methoden: Einfache Verkettungs- oder Durchschnittsaggregation ignoriert die unterschiedlichen Beitragsdifferenzen verschiedener Quell-Prompts zur Zielaufgabe und kann zu Merkmals-Kollaps führen

Kernherausforderungen

  • Traditionelle Methoden bewerten die Transferierbarkeit jedes Prompts isoliert und ignorieren gegenseitige Abhängigkeiten zwischen Prompts
  • Mangel an theoretisch fundierten heuristischen Methoden (wie Berechnung der Parameterähnlichkeit)
  • Gradienten-Interferenzen durch Multi-Prompt-Aggregation führen zu Optimierungsinstabilität

Kernbeiträge

  1. HGPrompt-Framework: Das erste theoretisch fundierte Framework zum dynamischen Lernen optimaler Prompt-Gewichte durch Bewertung der Transferierbarkeit von aggregierten Prompt-induzierten Merkmalen
  2. Informationstheoretisches Transferierbarkeitsmass: Differenzierbares Prompt-Transferierbarkeitsmass basierend auf H-Score, das eine explizite und interpretierbare Quantifizierung des Beitrags bietet
  3. Gradienten-Alignment-Regularisierung: Innovatives Gradienten-Varianz-Matching-Ziel zur Lösung von Gradienten-Konflikten zwischen Multi-Source-Prompts
  4. SOTA-Leistung: State-of-the-Art-Leistung auf der VTAB-Benchmark mit durchschnittlicher Genauigkeit von 60,3%

Methodische Details

Aufgabendefinition

Gegeben κ Quellaufgaben S = {Si}ᵏᵢ₌₁ und ihre entsprechenden optimierten Prompts {Pi}ᵏᵢ₌₁ besteht das Ziel darin, durch optimale Kombination von Quell-Prompts einen Ziel-Prompt PT für eine neue Aufgabe T zu konstruieren. Sei M ≤ κ die Anzahl der ausgewählten Quell-Prompts und Gewichte α = (α₁,...,αM) erfüllen ∑ᵢαᵢ = 1 und αᵢ ≥ 0.

Modellarchitektur

1. Grundlagen des visuellen Prompt Tuning

Für einen vortrainierten Transformer werden m lernbare Prompt-Tokens P = p₁,...,pm ∈ Rᵐˣᵈ eingeführt. Gegeben die Patch-Einbettung E(X) ∈ Rⁿˣᵈ eines Eingabebildes X ist die kombinierte Eingabesequenz P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ.

Die Vorhersagewahrscheinlichkeit ist:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fi([P;E(X)];θ))

2. H-Score Transferierbarkeitsmass

Definition 1: Gegeben Eingabedaten x, Label y und Merkmalsextraktor f(x) ist der einseitige H-Score definiert als:

H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))

Dieses Mass hat eine intuitive Interpretation: Ein hoher H-Score zeigt grössere Klassen-Diskriminativität cov(Ef(X)|Y) und minimale Merkmals-Redundanz tr(cov(f(X))) an.

Definition 2: Die optimalen Merkmals-Gewichte werden durch Maximierung des H-Scores der gewichteten Merkmalssumme bestimmt:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

Theorem 1: Der H-Score ist eine konvexe quadratische Form bezüglich der Gewichte α, was die zuverlässige Lösung des Optimierungsproblems garantiert.

3. Gradienten-Alignment-Regularisierung

Um das Gradienten-Interferenzproblem bei Multi-Prompt-Aggregation zu lösen, wird ein Gradienten-Varianz-Matching-Ziel vorgeschlagen:

Berechnung des Gradienten für jeden Quell-Prompt Pi:

gi = ∇Pi L(fθ([x₀;Pi;E(X)]), y)

Gradienten-Varianz:

vi = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Regularisierungsterm:

Lalign(α) = 1/M ∑ᵢ||vi - v̄(α)||²₂

Gesamtzielfunction:

L(α) = -H(α) + λLalign(α)

Technische Innovationen

  1. Ensemble-Bewertung vs. isolierte Bewertung: Im Gegensatz zu traditionellen Methoden, die jeden Prompt unabhängig bewerten, bewertet dieser Artikel die Gesamttransferierbarkeit des aggregierten Prompts
  2. Theoretische Grundlagen: Das auf Informationstheorie basierende H-Score-Mass bietet eine strenge mathematische Grundlage und ersetzt heuristische Methoden
  3. Gradienten-Konflikt-Lösung: Durch theoretische Erkenntnisse aus Hessian- und Fisher-Informationen wird Gradienten-Varianz-Matching entworfen, um Optimierungsinkonsistenzen zu reduzieren

Experimentelle Einrichtung

Datensätze

Verwendung von 13 Datensätzen aus der VTAB-1k-Benchmark, die drei Aufgabenkategorien abdecken:

  • Natural: Bilder von regulären Kameras (z.B. CIFAR100, Flowers102, Pets)
  • Specialized: Daten von speziellen Geräten (z.B. EuroSAT-Satellitenbild)
  • Structured: Aufgaben, die räumliches Denken erfordern (z.B. CLEVR-Zählaufgaben)

Bewertungsmetriken

Klassifizierungsgenauigkeit als primäre Bewertungsmetrik; Durchschnittsergebnisse von drei unabhängigen Durchläufen werden berichtet.

Vergleichsmethoden

Umfasst 11 Baseline-Methoden:

  1. Neutraining des Klassifizierungskopfes: PARTIAL-k, MLP-k
  2. Parametersubset-Aktualisierung: Adapter, SIDETUNE, BIAS
  3. Prompt Transfer: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Implementierungsdetails

  • Backbone-Netzwerk: ViT-B/16 (ImageNet-21k vortrainiert)
  • Anzahl der Prompt-Tokens: 50
  • Training der Quellaufgaben: 10 Epochen
  • Rechengerät: NVIDIA A800-80GB GPU
  • Stichprobengrösse: 2000 Samples pro Quellaufgabe für Transferierbarkeitsmass- und Gradienten-Alignment-Verlustberechnung

Experimentelle Ergebnisse

Hauptergebnisse

HGPrompt erreicht SOTA-Leistung auf 13 visuellen Aufgaben:

MethodeCIFAR100DTDFlowers102PetsSVHNEuroSATDurchschnitt
PANDA74,161,396,586,271,290,858,7
HGPrompt75,964,298,187,471,092,660,3
  • Durchschnittliche Genauigkeit von 60,3%, übertrifft alle Baseline-Methoden
  • Hervorragende Leistung bei feinkörnerigen Erkennungsaufgaben (Flowers102, Pets)
  • Neue Benchmarks bei geometrischen Inferenzaufgaben (sNORB-Azimuth, dSprite-Orientation)

Ablationsstudien

Beitragsanalyse der Komponenten:

H(α)LalignCIFARDTDPetsEuroSATDurchschnitt
××60,457,882,789,172,5
×74,662,385,991,278,5
×74,161,985,590,878,1
75,964,287,492,680,0

Die Ergebnisse zeigen, dass die beiden Komponenten komplementär wirken und die beste Leistung bei gemeinsamer Verwendung erreicht wird.

Gewichtsanalyse

Validierung der Gewichtsqualität durch Spearman-Rangkorrelationskoeffizient:

MethodeCIFARC-distd-LocDMLSVHNDurchschnitt
SPoT0,5520,175-0,1680,112-0,1470,105
PANDA0,9160,4410,5520,7130,2240,569
HGPrompt0,9440,6640,8530,7270,8530,808

Die von HGPrompt gelernten Gewichte zeigen die höchste Korrelation mit Zero-Shot-Transfer-Genauigkeit und reflektieren genauer die semantische Affinität zwischen Aufgaben.

Skalierbarkeitsanalyse

Mit zunehmender Anzahl von Quell-Prompts von 3 auf 11 zeigt HGPrompt stärkere Leistungsvorteile gegenüber PANDA und SPoT und validiert die Effektivität der Methode bei grossen Prompt-Sammlungen.

Merkmals-Visualisierung

t-SNE-Visualisierung zeigt, dass von HGPrompt generierte Merkmale bessere Klassen-Diskriminativität aufweisen, mit engen Gruppierungen gleichartiger Objekte und klaren Grenzen.

Verwandte Arbeiten

Parametereffizientes Transfer Learning

  • NLP-Bereich: Adapter, BitFit, LoRA und andere Methoden tunen 1-5% der Parameter
  • Visueller Bereich: VPT führt lernbare Tokens ein, VP führt Pixel-Level-Störungen durch

Transferierbarkeitschätzung

  • Informationstheoretische Methoden: H-Score, LEEP, LogME bewerten Merkmals-Diskriminativität
  • Optimaler Transport: OTCE misst Domänen-Aufgaben-Differenzen

Multi-Source Prompt Tuning

  • Single-Task Transfer: SPoT verwendet Metriken zur Vorhersage der besten Quellaufgabe; Su et al. betonen die Rolle neuronaler Aktivierungen
  • Multi-Task-Setting: ATTEMPT verwendet Aufmerksamkeitsmechanismen zur Wissensaggregation, PANDA löst Vergessensprobleme durch Wissensdestillation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. HGPrompt erreicht optimale Prompt-Integration durch gemeinsame Optimierung von H-Score und Gradienten-Alignment
  2. Informationstheoretische Masse quantifizieren Prompt-Transferierbarkeit effektiver als heuristische Methoden
  3. Gradienten-Varianz-Matching löst erfolgreich das Interferenzproblem bei Multi-Source-Prompts

Einschränkungen

  1. Architektur-Spezifität: Aktuelle Arbeiten konzentrieren sich auf Transformer-Architekturen; die Anwendbarkeit auf andere Architekturen ist begrenzt
  2. Modalitäts-Beschränkungen: Hauptsächlich auf visuelle Aufgaben ausgerichtet; Multi-Modal-Learning erfordert neue Prompt-Design-Methoden
  3. Rechenkomplexität: Erfordert Berechnung von Merkmalen und Gradienten mehrerer Quell-Prompts

Zukünftige Richtungen

  1. Erweiterung auf architektur-unabhängige universelle Prompt-Schnittstellen
  2. Erforschung von Prompt-Design im Multi-Modal-Learning
  3. Untersuchung effizienterer Transferierbarkeitsbewertungsmethoden

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Das auf Informationstheorie basierende Transferierbarkeitsmass bietet eine strenge mathematische Grundlage
  2. Technische Fortschritte: Gradienten-Alignment-Regularisierung löst elegant das Multi-Source-Interferenzproblem
  3. Umfassende Experimente: Vollständige Evaluierung auf grossflächigen Benchmarks validiert die Methodeneffektivität
  4. Starke Interpretierbarkeit: Der Gewichtslernprozess hat explizite theoretische Erklärungen

Mängel

  1. Tiefe der theoretischen Analyse: Obwohl Konvexitätsbeweise bereitgestellt werden, ist die Analyse von Konvergenz und Optimalität nicht ausreichend tiefgreifend
  2. Hyperparameter-Sensitivität: Die Wahl des λ-Parameters hat grossen Einfluss auf die Leistung; es fehlt ein adaptiver Mechanismus
  3. Rechenkomplexität: Die Rechenkomplexität und Skalierbarkeit der Methode werden nicht detailliert analysiert

Auswirkungen

  1. Akademischer Beitrag: Bietet einen neuen theoretischen Rahmen und praktische Methoden für Multi-Source-Prompt-Transfer
  2. Praktischer Wert: Hat wichtige Anwendungswerte in ressourcenbeschränkten Szenarien
  3. Reproduzierbarkeit: Autoren verpflichten sich zur Bereitstellung von Quellcode, was die Methodenverbreitung fördert

Anwendungsszenarien

  1. Ressourcenbeschränkte Umgebungen: Mobile Geräte, Edge Computing und ähnliche Szenarien
  2. Schnelle Adaptationsanforderungen: Anwendungen, die schnelle Anpassung an neue Aufgaben erfordern
  3. Multi-Task-Learning: Szenarien, die Wissen aus mehreren verwandten Aufgaben nutzen müssen

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, einschliesslich:

  • Parametereffizientes Lernen: Houlsby et al. (2019), Hu et al. (2021)
  • Transferierbarkeitsbewertung: Bao et al. (2019), You et al. (2021)
  • Multi-Task-Learning: Yu et al. (2020), Rame et al. (2022)
  • Vision Transformer: Dosovitskiy (2020), Jia et al. (2022)

Dieses Paper leistet wichtige Beiträge im Bereich des Multi-Source Visual Prompt Transfer, löst Schlüsselprobleme bestehender Methoden durch theoretische Innovation und technische Durchbrüche und bietet neue Forschungsrichtungen für parametereffizientes Transfer Learning.