2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.

Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.

academic

Aprendizaje del Conjunto Óptimo de Indicaciones para Transferencia de Indicaciones Visuales Multifuente

Información Básica

ID del Artículo: 2504.12311
Título: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
Autores: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (Escuela Internacional de Posgrado de la Universidad de Tsinghua en Shenzhen, Universidad del Sureste)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación/Conferencia: Preimpresión arXiv (versión más reciente del 15 de octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2504.12311v5

Resumen

Este artículo propone el marco HGPrompt para la tarea de transferencia de indicaciones visuales multifuente. El método aprende pesos de conjunto óptimos mediante la optimización conjunta de una medida de transferibilidad basada en teoría de la información y un término de regularización que minimiza conflictos de gradientes. Específicamente, se propone una medida de transferibilidad de indicaciones diferenciable para capturar la discriminabilidad de características inducidas por indicaciones en la tarea objetivo, mientras que se utiliza la coincidencia de información de Hessian y Fisher para igualar las varianzas de gradientes de diferentes indicaciones fuente, asegurando una transferencia de conocimiento estable y consistente e inhibiendo conflictos de gradientes. Los experimentos en el banco de pruebas VTAB a gran escala validan la efectividad de HGPrompt.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el desarrollo de modelos visuales fundamentales, el ajuste de indicaciones (Prompt Tuning) se ha convertido en una estrategia ligera para adaptar tareas descendentes. El problema central que enfrentan los métodos existentes es: ¿cómo agregar efectivamente múltiples indicaciones fuente para mejorar la capacidad de generalización en nuevas tareas?

Motivación de la Investigación

Necesidad de Eficiencia de Recursos: El ajuste fino de modelo completo se vuelve impracticable en modelos preentrenados a gran escala, mientras que el ajuste de indicaciones solo requiere actualizar el 0.4% de los parámetros para lograr rendimiento competitivo
Valor de Activos de Indicaciones: Las indicaciones preentrenadas se han convertido en activos de conocimiento valiosos, y la combinación de indicaciones multifuente puede aprovechar conocimiento complementario
Limitaciones de Métodos Existentes: La agregación simple mediante concatenación o promediado ignora las diferencias en la contribución de diferentes indicaciones fuente a la tarea objetivo, lo que puede conducir al colapso de representación

Desafíos Centrales

Los métodos tradicionales evalúan la transferibilidad de cada indicación de forma aislada, ignorando las interdependencias entre indicaciones
Falta de métodos heurísticos con fundamento teórico (como el cálculo de similitud de parámetros)
La interferencia de gradientes introducida por la agregación de múltiples indicaciones causa inestabilidad en la optimización

Contribuciones Principales

Marco HGPrompt Propuesto: Primer marco teóricamente confiable que aprende dinámicamente pesos óptimos de indicaciones mediante la evaluación de la transferibilidad del conjunto de características inducidas por indicaciones agregadas
Medida de Transferibilidad Basada en Teoría de la Información: Medida diferenciable de transferibilidad de indicaciones basada en H-score, proporcionando cuantificación explícita e interpretable de contribuciones
Regularización de Alineación de Gradientes: Objetivo innovador de coincidencia de varianza de gradientes que resuelve el problema de conflicto de gradientes entre indicaciones multifuente
Rendimiento SOTA: Logra rendimiento de última generación en el banco de pruebas VTAB, con precisión promedio del 60.3%

Explicación Detallada del Método

Definición de Tarea

Dadas κ tareas fuente S = {Sᵢ}ᵏᵢ₌₁ y sus indicaciones optimizadas correspondientes {Pᵢ}ᵏᵢ₌₁, el objetivo es construir una indicación objetivo P_T para una nueva tarea T mediante la combinación óptima de indicaciones fuente. Sea M ≤ κ el número de indicaciones fuente seleccionadas, con pesos α = (α₁,...,αₘ) que satisfacen ∑ᵢαᵢ = 1 y αᵢ ≥ 0.

Arquitectura del Modelo

1. Fundamentos del Ajuste de Indicaciones Visuales

Para un Transformer preentrenado, se introducen m tokens de indicación aprendibles P = p₁,...,pₘ ∈ ℝᵐˣᵈ. Dada la incrustación de parches E(X) ∈ ℝⁿˣᵈ de una imagen de entrada X, la secuencia de entrada combinada es P;E(X) ∈ ℝ⁽ᵐ⁺ⁿ⁾ˣᵈ.

La probabilidad de predicción es:

Pr_θ(Y|X;P) = exp(f_Y([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fᵢ([P;E(X)];θ))

2. Medida de Transferibilidad H-score

Definición 1: Dado datos de entrada x, etiqueta y y extractor de características f(x), el H-score unilateral se define como:

H(f) = tr(cov(f(X))⁻¹cov(E_P[X|Y][f(X)|Y]))

Esta medida tiene una interpretación intuitiva: un H-score alto indica mayor discriminabilidad entre clases cov(Ef(X)|Y) y redundancia mínima de características tr(cov(f(X))).

Definición 2: Los pesos de características óptimos se determinan maximizando el H-score de la suma ponderada de características:

α* = argmax_α H(∑ⱼαⱼ·f_Pⱼ) s.t. ∑ⱼαⱼ = 1

Teorema 1: El H-score es una forma cuadrática convexa en los pesos α, garantizando la resolución confiable del problema de optimización.

3. Regularización de Alineación de Gradientes

Para resolver el problema de interferencia de gradientes en la agregación de múltiples indicaciones, se propone un objetivo de coincidencia de varianza de gradientes:

Calcular el gradiente de cada indicación fuente Pᵢ:

gᵢ = ∇_Pᵢ L(f_θ([x₀;Pᵢ;E(X)]), y)

Varianza de gradientes:

vᵢ = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

Término de regularización:

L_align(α) = 1/M ∑ᵢ||vᵢ - v̄(α)||²₂

Función objetivo total:

L(α) = -H(α) + λL_align(α)

Puntos de Innovación Técnica

Evaluación de Conjunto vs Evaluación Aislada: A diferencia de los métodos tradicionales que evalúan cada indicación independientemente, este trabajo evalúa la transferibilidad general de indicaciones agregadas
Fundamento Teórico: El H-score basado en teoría de la información proporciona una base matemática rigurosa, reemplazando métodos heurísticos
Resolución de Conflictos de Gradientes: Mediante perspectivas teóricas de información de Hessian y Fisher, se diseña la coincidencia de varianza de gradientes para reducir inconsistencias de optimización

Configuración Experimental

Conjuntos de Datos

Se utiliza el banco de pruebas VTAB-1k con 13 conjuntos de datos, cubriendo tres categorías de tareas:

Natural: Imágenes capturadas por cámara convencional (como CIFAR100, Flowers102, Pets)
Specialized: Datos obtenidos por dispositivos especializados (como imágenes satelitales EuroSAT)
Structured: Requiere razonamiento espacial (como tareas de conteo CLEVR)

Métricas de Evaluación

Se utiliza la precisión de clasificación como métrica de evaluación principal, reportando resultados promediados de tres ejecuciones independientes.

Métodos de Comparación

Incluye 11 métodos de referencia:

Reentrenamiento de Cabeza de Clasificación: PARTIAL-k, MLP-k
Actualización de Subconjunto de Parámetros: Adapter, SIDETUNE, BIAS
Transferencia de Indicaciones: Average, Single-Best, VPT, SPoT, ATTEMPT, PANDA

Detalles de Implementación

Red troncal: ViT-B/16 (preentrenada en ImageNet-21k)
Número de tokens de indicación: 50
Entrenamiento de tarea fuente: 10 épocas
Dispositivo de cálculo: GPU NVIDIA A800-80GB
Cantidad de muestras: 2000 muestras por tarea fuente para calcular pérdida de transferibilidad y alineación de gradientes

Resultados Experimentales

Resultados Principales

HGPrompt logra rendimiento SOTA en 13 tareas visuales:

Método	CIFAR100	DTD	Flowers102	Pets	SVHN	EuroSAT	Promedio
PANDA	74.1	61.3	96.5	86.2	71.2	90.8	58.7
HGPrompt	75.9	64.2	98.1	87.4	71.0	92.6	60.3

Precisión promedio del 60.3%, superando todos los métodos de referencia
Desempeño destacado en tareas de reconocimiento de grano fino (Flowers102, Pets)
Establece nuevos puntos de referencia en tareas de razonamiento geométrico (sNORB-Azimuth, dSprite-Orientation)

Experimentos de Ablación

Análisis de contribución de componentes:

H(α)	L_align	CIFAR	DTD	Pets	EuroSAT	Promedio
×	×	60.4	57.8	82.7	89.1	72.5
✓	×	74.6	62.3	85.9	91.2	78.5
×	✓	74.1	61.9	85.5	90.8	78.1
✓	✓	75.9	64.2	87.4	92.6	80.0

Los resultados demuestran que ambos componentes tienen efectos complementarios, logrando el mejor rendimiento cuando se utilizan conjuntamente.

Análisis de Pesos

Validación de la calidad de pesos mediante coeficiente de correlación de rango de Spearman:

Método	CIFAR	C-dist	d-Loc	DML	SVHN	Promedio
SPoT	0.552	0.175	-0.168	0.112	-0.147	0.105
PANDA	0.916	0.441	0.552	0.713	0.224	0.569
HGPrompt	0.944	0.664	0.853	0.727	0.853	0.808

Los pesos aprendidos por HGPrompt muestran la correlación más alta con la precisión de transferencia de cero ejemplos, reflejando más precisamente la afinidad semántica entre tareas.

Análisis de Escalabilidad

Con el aumento del número de indicaciones fuente de 3 a 11, HGPrompt demuestra ventajas de rendimiento más fuertes en comparación con PANDA y SPoT, validando la efectividad del método en conjuntos de indicaciones a gran escala.

Visualización de Representación

La visualización t-SNE muestra que las características generadas por HGPrompt poseen mejor discriminabilidad de clase, con objetos de la misma clase formando agrupaciones compactas y límites claros.

Trabajo Relacionado

Aprendizaje de Transferencia Eficiente en Parámetros

Dominio NLP: Métodos Adapter, BitFit, LoRA ajustan el 1-5% de parámetros
Dominio Visual: VPT introduce tokens aprendibles, VP realiza perturbaciones a nivel de píxeles

Estimación de Transferibilidad

Métodos Basados en Teoría de la Información: H-score, LEEP, LogME evalúan discriminabilidad de características
Transporte Óptimo: OTCE mide diferencias dominio-tarea

Ajuste de Indicaciones Multifuente

Transferencia de Tarea Única: SPoT utiliza métricas para predecir la mejor tarea fuente, Su et al. enfatizan el papel de activación neuronal
Configuración Multitarea: ATTEMPT utiliza mecanismo de atención para agregar conocimiento, PANDA resuelve problemas de olvido mediante destilación de conocimiento

Conclusiones y Discusión

Conclusiones Principales

HGPrompt logra integración óptima de indicaciones mediante optimización conjunta de H-score y alineación de gradientes
Las medidas basadas en teoría de la información cuantifican más efectivamente la transferibilidad de indicaciones que los métodos heurísticos
La coincidencia de varianza de gradientes resuelve exitosamente el problema de interferencia de indicaciones multifuente

Limitaciones

Especificidad de Arquitectura: El trabajo actual se enfoca en arquitecturas Transformer, con aplicabilidad limitada a otras arquitecturas
Restricción Modal: Se enfoca principalmente en tareas visuales, requiriendo nuevos métodos de diseño de indicaciones para aprendizaje multimodal
Costo Computacional: Requiere calcular características y gradientes de múltiples indicaciones fuente

Direcciones Futuras

Extensión a interfaces de indicaciones genéricas independientes de arquitectura
Exploración del diseño de indicaciones en aprendizaje multimodal
Investigación de métodos más eficientes de evaluación de transferibilidad

Evaluación Profunda

Fortalezas

Innovación Teórica: La medida de transferibilidad basada en teoría de la información proporciona una base matemática rigurosa
Avance Técnico: La regularización de alineación de gradientes resuelve ingeniosamente el problema de interferencia multifuente
Evaluación Exhaustiva: La evaluación integral en bancos de pruebas a gran escala valida la efectividad del método
Interpretabilidad Fuerte: El proceso de aprendizaje de pesos posee explicación teórica clara

Insuficiencias

Profundidad de Análisis Teórico: Aunque proporciona prueba de convexidad, el análisis de convergencia y optimalidad es insuficiente
Sensibilidad a Hiperparámetros: La selección del parámetro λ impacta significativamente el rendimiento, careciendo de mecanismos adaptativos
Complejidad Computacional: Falta análisis detallado de complejidad computacional y escalabilidad del método

Impacto

Contribución Académica: Proporciona nuevo marco teórico y método práctico para transferencia de indicaciones multifuente
Valor Práctico: Posee valor de aplicación importante en escenarios con recursos limitados
Reproducibilidad: Los autores se comprometen a proporcionar código fuente, facilitando la promoción del método

Escenarios Aplicables

Entornos con Recursos Limitados: Dispositivos móviles, computación perimetral y otros escenarios
Necesidades de Adaptación Rápida: Aplicaciones que requieren adaptación rápida a nuevas tareas
Aprendizaje Multitarea: Escenarios que necesitan aprovechar conocimiento de múltiples tareas relacionadas

Referencias

El artículo cita abundante trabajo relacionado, incluyendo:

Aprendizaje Eficiente en Parámetros: Houlsby et al. (2019), Hu et al. (2021)
Evaluación de Transferibilidad: Bao et al. (2019), You et al. (2021)
Aprendizaje Multitarea: Yu et al. (2020), Rame et al. (2022)
Transformers Visuales: Dosovitskiy (2020), Jia et al. (2022)

Este artículo realiza contribuciones importantes en el campo de la transferencia de indicaciones visuales multifuente, resolviendo problemas clave de métodos existentes mediante innovación teórica y avance técnico, proporcionando nuevas direcciones de investigación para el aprendizaje de transferencia eficiente en parámetros.