2025-11-21T00:49:15.710789

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

Zhang, Cao, Wu et al.
Prompt tuning has emerged as a lightweight strategy for adapting foundation models to downstream tasks, particularly for resource-constrained systems. As pre-trained prompts become valuable assets, combining multiple source prompts offers a promising approach to enhance generalization for new tasks by leveraging complementary knowledge. However, naive aggregation often overlooks different source prompts have different contribution potential to the target task. To address this, we propose HGPrompt, a dynamic framework that learns optimal ensemble weights. These weights are optimized by jointly maximizing an information-theoretic metric for transferability and minimizing gradient conflicts via a novel regularization strategy. Specifically, we propose a differentiable prompt transferability metric to captures the discriminability of prompt-induced features on the target task. Meanwhile, HGPrompt match the gradient variances with respect to different source prompts based on Hessian and Fisher Information, ensuring stable and coherent knowledge transfer while suppressing gradient conflicts among them. Extensive experiments on the large-scale VTAB benchmark demonstrate the state-of-the-art performance of HGPrompt, validating its effectiveness in learning an optimal ensemble for effective multi-source prompt transfer.
academic

Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer

基本信息

  • 论文ID: 2504.12311
  • 标题: Learning Optimal Prompt Ensemble for Multi-source Visual Prompt Transfer
  • 作者: Enming Zhang, Liwen Cao, Yanru Wu, Zijie Zhao, Yang Li (清华大学深圳国际研究生院, 东南大学)
  • 分类: cs.CL (计算语言学)
  • 发表时间/会议: arXiv预印本 (2025年10月15日最新版本)
  • 论文链接: https://arxiv.org/abs/2504.12311v5

摘要

本文针对多源视觉提示迁移任务,提出了HGPrompt框架。该方法通过联合优化信息论可迁移性度量和梯度冲突最小化正则项来学习最优的集成权重。具体而言,提出了可微分的提示可迁移性度量来捕获目标任务上提示诱导特征的判别性,同时基于Hessian和Fisher信息匹配不同源提示的梯度方差,确保稳定一致的知识迁移并抑制梯度冲突。在大规模VTAB基准上的实验验证了HGPrompt的有效性。

研究背景与动机

问题定义

随着视觉基础模型的发展,提示调优(Prompt Tuning)已成为适应下游任务的轻量级策略。现有方法面临的核心问题是:如何有效地聚合多个源提示来增强新任务的泛化能力。

研究动机

  1. 资源效率需求:全模型微调在大规模预训练模型上变得不现实,提示调优仅需更新0.4%的参数即可达到竞争性能
  2. 提示资产价值:预训练提示已成为宝贵的知识资产,多源提示的组合可以利用互补知识
  3. 现有方法局限:简单的连接或平均聚合忽略了不同源提示对目标任务的贡献差异,可能导致表征崩塌

核心挑战

  • 传统方法孤立地评估每个提示的可迁移性,忽略了提示间的相互依赖关系
  • 缺乏理论基础的启发式方法(如参数相似性计算)
  • 多提示聚合引入的梯度干扰导致优化不稳定

核心贡献

  1. 提出HGPrompt框架:首个动态学习最优提示权重的理论可靠框架,通过评估聚合提示诱导的特征集成可迁移性
  2. 信息论可迁移性度量:基于H-score的可微分提示可迁移性度量,提供明确且可解释的贡献量化
  3. 梯度对齐正则化:创新的梯度方差匹配目标,解决多源提示间的梯度冲突问题
  4. SOTA性能:在VTAB基准上取得最先进性能,平均准确率达60.3%

方法详解

任务定义

给定κ个源任务S = {Si}ᵏᵢ₌₁及其对应的优化提示{Pi}ᵏᵢ₌₁,目标是通过最优组合源提示为新任务T构造目标提示PT。设M ≤ κ为选定源提示数量,权重α = (α₁,...,αM)满足∑ᵢαᵢ = 1且αᵢ ≥ 0。

模型架构

1. 视觉提示调优基础

对于预训练Transformer,引入m个可学习提示tokens P = p₁,...,pm ∈ Rᵐˣᵈ。给定输入图像X的patch嵌入E(X) ∈ Rⁿˣᵈ,组合输入序列为P;E(X) ∈ R⁽ᵐ⁺ⁿ⁾ˣᵈ。

预测概率为:

Prθ(Y|X;P) = exp(fY([P;E(X)];θ)) / ∑ᶜᵢ₌₁exp(fi([P;E(X)];θ))

2. H-score可迁移性度量

定义1:给定输入数据x、标签y和特征提取器f(x),单侧H-score定义为:

H(f) = tr(cov(f(X))⁻¹cov(E_PX|Y[f(X)|Y]))

该度量具有直观解释:高H-score表示更大的类间判别性cov(Ef(X)|Y)和最小的特征冗余tr(cov(f(X)))。

定义2:最优特征权重通过最大化加权特征和的H-score确定:

α* = argmax_α H(∑ⱼαⱼ·fPⱼ) s.t. ∑ⱼαⱼ = 1

定理1:H-score是权重α的凸二次形式,保证优化问题的可靠求解。

3. 梯度对齐正则化

为解决多提示聚合的梯度干扰问题,提出梯度方差匹配目标:

计算每个源提示Pi的梯度:

gi = ∇Pi L(fθ([x₀;Pi;E(X)]), y)

梯度方差:

vi = Var(G) = 1/(N-1) ∑ⱼ(gⁱⱼ - gᵅⱼ)²

正则化项:

Lalign(α) = 1/M ∑ᵢ||vi - v̄(α)||²₂

总目标函数:

L(α) = -H(α) + λLalign(α)

技术创新点

  1. 集成评估vs孤立评估:不同于传统方法独立评估每个提示,本文评估聚合提示的整体可迁移性
  2. 理论基础:基于信息论的H-score提供了严格的数学基础,替代启发式方法
  3. 梯度冲突解决:通过Hessian和Fisher信息的理论洞察,设计梯度方差匹配来减少优化不一致性

实验设置

数据集

使用VTAB-1k基准的13个数据集,涵盖三类任务:

  • Natural:常规相机拍摄图像(如CIFAR100、Flowers102、Pets)
  • Specialized:专用设备获取数据(如EuroSAT卫星图像)
  • Structured:需要空间推理(如CLEVR计数任务)

评价指标

使用分类准确率作为主要评价指标,报告三次独立运行的平均结果。

对比方法

包含11个基准方法:

  1. 重训练分类头:PARTIAL-k、MLP-k
  2. 参数子集更新:Adapter、SIDETUNE、BIAS
  3. 提示迁移:Average、Single-Best、VPT、SPoT、ATTEMPT、PANDA

实现细节

  • 骨干网络:ViT-B/16 (ImageNet-21k预训练)
  • 提示tokens数量:50
  • 源任务训练:10个epoch
  • 计算设备:NVIDIA A800-80GB GPU
  • 样本数量:每个源任务2000样本用于可迁移性和梯度对齐损失计算

实验结果

主要结果

HGPrompt在13个视觉任务上取得SOTA性能:

方法CIFAR100DTDFlowers102PetsSVHNEuroSAT平均
PANDA74.161.396.586.271.290.858.7
HGPrompt75.964.298.187.471.092.660.3
  • 平均准确率60.3%,超越所有基准方法
  • 在细粒度识别任务(Flowers102、Pets)上表现突出
  • 在几何推理任务(sNORB-Azimuth、dSprite-Orientation)上建立新基准

消融实验

各组件贡献分析:

H(α)LalignCIFARDTDPetsEuroSAT平均
××60.457.882.789.172.5
×74.662.385.991.278.5
×74.161.985.590.878.1
75.964.287.492.680.0

结果表明两个组件具有互补作用,联合使用达到最佳性能。

权重分析

通过Spearman秩相关系数验证权重质量:

方法CIFARC-distd-LocDMLSVHN平均
SPoT0.5520.175-0.1680.112-0.1470.105
PANDA0.9160.4410.5520.7130.2240.569
HGPrompt0.9440.6640.8530.7270.8530.808

HGPrompt学习的权重与零样本迁移准确率相关性最高,更准确地反映任务间语义亲和性。

扩展性分析

随着源提示数量从3增加到11,HGPrompt相比PANDA和SPoT展现出更强的性能优势,验证了方法在大规模提示集合上的有效性。

表征可视化

t-SNE可视化显示HGPrompt生成的特征具有更好的类判别性,同类对象形成紧密分组且边界清晰。

相关工作

参数高效迁移学习

  • NLP领域:Adapter、BitFit、LoRA等方法调优1-5%参数
  • 视觉领域:VPT引入可学习tokens,VP进行像素级扰动

可迁移性估计

  • 信息论方法:H-score、LEEP、LogME评估特征判别性
  • 最优传输:OTCE测量域-任务差异

多源提示调优

  • 单任务迁移:SPoT使用度量预测最佳源任务,Su等强调神经元激活的作用
  • 多任务设置:ATTEMPT使用注意力机制聚合知识,PANDA通过知识蒸馏解决遗忘问题

结论与讨论

主要结论

  1. HGPrompt通过联合优化H-score和梯度对齐实现了最优提示集成
  2. 信息论度量比启发式方法更有效地量化提示可迁移性
  3. 梯度方差匹配成功解决了多源提示的干扰问题

局限性

  1. 架构特异性:当前工作专注于Transformer架构,对其他架构的适用性有限
  2. 模态约束:主要针对视觉任务,多模态学习需要新的提示设计方法
  3. 计算开销:需要计算多个源提示的特征和梯度

未来方向

  1. 扩展到架构无关的通用提示接口
  2. 探索多模态学习中的提示设计
  3. 研究更高效的可迁移性评估方法

深度评价

优点

  1. 理论创新:基于信息论的可迁移性度量提供了严格的数学基础
  2. 技术先进:梯度对齐正则化巧妙解决了多源干扰问题
  3. 实验充分:在大规模基准上的全面评估验证了方法有效性
  4. 可解释性强:权重学习过程具有明确的理论解释

不足

  1. 理论分析深度:虽然提供了凸性证明,但对收敛性和最优性的分析不够深入
  2. 超参数敏感性:λ参数的选择对性能影响较大,缺乏自适应机制
  3. 计算复杂度:未详细分析方法的计算复杂度和扩展性

影响力

  1. 学术贡献:为多源提示迁移提供了新的理论框架和实用方法
  2. 实用价值:在资源受限场景下具有重要应用价值
  3. 可复现性:作者承诺提供源代码,有利于方法推广

适用场景

  1. 资源受限环境:移动设备、边缘计算等场景
  2. 快速适应需求:需要快速适应新任务的应用
  3. 多任务学习:需要利用多个相关任务知识的场景

参考文献

论文引用了丰富的相关工作,包括:

  • 参数高效学习:Houlsby et al. (2019), Hu et al. (2021)
  • 可迁移性评估:Bao et al. (2019), You et al. (2021)
  • 多任务学习:Yu et al. (2020), Rame et al. (2022)
  • 视觉Transformer:Dosovitskiy (2020), Jia et al. (2022)

本论文在多源视觉提示迁移领域做出了重要贡献,通过理论创新和技术突破解决了现有方法的关键问题,为参数高效迁移学习提供了新的研究方向。