Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic
Aprendizaje del Conjunto Óptimo de Indicaciones para Transferencia de Indicaciones Visuales Multifuente
Título: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Autores: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Escuela Internacional de Posgrado de la Universidad de Tsinghua en Shenzhen, Universidad del Sureste)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación/Conferencia: Preimpresión arXiv (versión más reciente del 15 de octubre de 2025)
Este artículo propone el marco HGPrompt para la tarea de transferencia de indicaciones visuales multifuente. El método aprende pesos de conjunto óptimos mediante la optimización conjunta de una medida de transferibilidad basada en teoría de la información y un término de regularización que minimiza conflictos de gradientes. Específicamente, se propone una medida de transferibilidad de indicaciones diferenciable para capturar la discriminabilidad de características inducidas por indicaciones en la tarea objetivo, mientras que se utiliza la coincidencia de información de Hessian y Fisher para igualar las varianzas de gradientes de diferentes indicaciones fuente, asegurando una transferencia de conocimiento estable y consistente e inhibiendo conflictos de gradientes. Los experimentos en el banco de pruebas VTAB a gran escala validan la efectividad de HGPrompt.
Con el desarrollo de modelos visuales fundamentales, el ajuste de indicaciones (Prompt Tuning) se ha convertido en una estrategia ligera para adaptar tareas descendentes. El problema central que enfrentan los métodos existentes es: ¿cómo agregar efectivamente múltiples indicaciones fuente para mejorar la capacidad de generalización en nuevas tareas?
Necesidad de Eficiencia de Recursos: El ajuste fino de modelo completo se vuelve impracticable en modelos preentrenados a gran escala, mientras que el ajuste de indicaciones solo requiere actualizar el 0.4% de los parámetros para lograr rendimiento competitivo
Valor de Activos de Indicaciones: Las indicaciones preentrenadas se han convertido en activos de conocimiento valiosos, y la combinación de indicaciones multifuente puede aprovechar conocimiento complementario
Limitaciones de Métodos Existentes: La agregación simple mediante concatenación o promediado ignora las diferencias en la contribución de diferentes indicaciones fuente a la tarea objetivo, lo que puede conducir al colapso de representación
Marco HGPrompt Propuesto: Primer marco teóricamente confiable que aprende dinámicamente pesos óptimos de indicaciones mediante la evaluación de la transferibilidad del conjunto de características inducidas por indicaciones agregadas
Medida de Transferibilidad Basada en Teoría de la Información: Medida diferenciable de transferibilidad de indicaciones basada en H-score, proporcionando cuantificación explícita e interpretable de contribuciones
Regularización de Alineación de Gradientes: Objetivo innovador de coincidencia de varianza de gradientes que resuelve el problema de conflicto de gradientes entre indicaciones multifuente
Rendimiento SOTA: Logra rendimiento de última generación en el banco de pruebas VTAB, con precisión promedio del 60.3%
Dadas κ tareas fuente S = {Sᵢ}ᵏᵢ₌₁ y sus indicaciones optimizadas correspondientes {Pᵢ}ᵏᵢ₌₁, el objetivo es construir una indicación objetivo P_T para una nueva tarea T mediante la combinación óptima de indicaciones fuente. Sea M ≤ κ el número de indicaciones fuente seleccionadas, con pesos α = (α₁,...,αₘ) que satisfacen ∑ᵢαᵢ = 1 y αᵢ ≥ 0.
Para un Transformer preentrenado, se introducen m tokens de indicación aprendibles P = p₁,...,pₘ ∈ ℝᵐˣᵈ. Dada la incrustación de parches E(X) ∈ ℝⁿˣᵈ de una imagen de entrada X, la secuencia de entrada combinada es P;E(X) ∈ ℝ⁽ᵐ⁺ⁿ⁾ˣᵈ.
Definición 1: Dado datos de entrada x, etiqueta y y extractor de características f(x), el H-score unilateral se define como:
H(f) = tr(cov(f(X))⁻¹cov(E_P[X|Y][f(X)|Y]))
Esta medida tiene una interpretación intuitiva: un H-score alto indica mayor discriminabilidad entre clases cov(Ef(X)|Y) y redundancia mínima de características tr(cov(f(X))).
Definición 2: Los pesos de características óptimos se determinan maximizando el H-score de la suma ponderada de características:
α* = argmax_α H(∑ⱼαⱼ·f_Pⱼ) s.t. ∑ⱼαⱼ = 1
Teorema 1: El H-score es una forma cuadrática convexa en los pesos α, garantizando la resolución confiable del problema de optimización.
Para resolver el problema de interferencia de gradientes en la agregación de múltiples indicaciones, se propone un objetivo de coincidencia de varianza de gradientes:
Calcular el gradiente de cada indicación fuente Pᵢ:
Evaluación de Conjunto vs Evaluación Aislada: A diferencia de los métodos tradicionales que evalúan cada indicación independientemente, este trabajo evalúa la transferibilidad general de indicaciones agregadas
Fundamento Teórico: El H-score basado en teoría de la información proporciona una base matemática rigurosa, reemplazando métodos heurísticos
Resolución de Conflictos de Gradientes: Mediante perspectivas teóricas de información de Hessian y Fisher, se diseña la coincidencia de varianza de gradientes para reducir inconsistencias de optimización
Validación de la calidad de pesos mediante coeficiente de correlación de rango de Spearman:
Método
CIFAR
C-dist
d-Loc
DML
SVHN
Promedio
SPoT
0.552
0.175
-0.168
0.112
-0.147
0.105
PANDA
0.916
0.441
0.552
0.713
0.224
0.569
HGPrompt
0.944
0.664
0.853
0.727
0.853
0.808
Los pesos aprendidos por HGPrompt muestran la correlación más alta con la precisión de transferencia de cero ejemplos, reflejando más precisamente la afinidad semántica entre tareas.
Con el aumento del número de indicaciones fuente de 3 a 11, HGPrompt demuestra ventajas de rendimiento más fuertes en comparación con PANDA y SPoT, validando la efectividad del método en conjuntos de indicaciones a gran escala.
La visualización t-SNE muestra que las características generadas por HGPrompt poseen mejor discriminabilidad de clase, con objetos de la misma clase formando agrupaciones compactas y límites claros.
Transferencia de Tarea Única: SPoT utiliza métricas para predecir la mejor tarea fuente, Su et al. enfatizan el papel de activación neuronal
Configuración Multitarea: ATTEMPT utiliza mecanismo de atención para agregar conocimiento, PANDA resuelve problemas de olvido mediante destilación de conocimiento
El artículo cita abundante trabajo relacionado, incluyendo:
Aprendizaje Eficiente en Parámetros: Houlsby et al. (2019), Hu et al. (2021)
Evaluación de Transferibilidad: Bao et al. (2019), You et al. (2021)
Aprendizaje Multitarea: Yu et al. (2020), Rame et al. (2022)
Transformers Visuales: Dosovitskiy (2020), Jia et al. (2022)
Este artículo realiza contribuciones importantes en el campo de la transferencia de indicaciones visuales multifuente, resolviendo problemas clave de métodos existentes mediante innovación teórica y avance técnico, proporcionando nuevas direcciones de investigación para el aprendizaje de transferencia eficiente en parámetros.