Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
- 论文ID: 2507.16083
- 标题: Efficient Compositional Multi-tasking for On-device Large Language Models
- 作者: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
- 机构: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
- 分类: cs.CL cs.AI cs.LG
- 发表时间: 2025年10月11日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2507.16083
适配器参数为修改机器学习模型行为提供了机制,在大语言模型(LLMs)和生成式AI领域获得了广泛关注。这些参数可以通过任务合并过程来支持多任务处理。然而,先前在LLMs中的合并工作,特别是在自然语言处理领域,仅限于每个测试样本只处理单一任务的场景。本文聚焦于设备端设置,研究基于文本的组合式多任务问题,其中每个测试样本需要同时执行多个任务。例如,生成长文本的翻译摘要需要同时解决翻译和摘要任务。为促进该领域研究,我们提出了包含四个实用组合任务的基准。我们还提出了一种针对设备端应用的高效方法(Learnable Calibration),在计算资源受限的环境中,强调需要既资源高效又高性能的解决方案。
传统的LLM多任务处理主要关注单任务场景,即每个测试样本只涉及一个任务(如仅翻译或仅摘要)。然而,实际应用中经常需要组合式多任务处理,即在单次推理中同时执行多个任务,如生成翻译后的摘要、生成特定语调的回复等。
- 实用价值:组合式多任务在实际场景中需求广泛,如跨语言场景下的智能回复、需要特定语调的摘要生成等
- 效率需求:设备端LLMs资源受限,需要在单次推理中完成多任务,避免多次推理的效率损失
- 存储约束:移动设备存储有限,不能为每个组合任务训练独立的适配器
- 传统合并策略:如TIES、DARE等方法在组合多任务场景下性能不佳
- 多步骤方案:虽然有效但需要多次推理,效率低下
- 独立训练:为每个组合任务训练专门适配器,存储开销大
- 首次提出组合式多任务问题:定义了设备端LLMs的组合式多任务处理挑战
- 构建实用基准:开发了包含14个子任务的综合基准,涵盖摘要+翻译、摘要+语调调整、回复+翻译、回复+语调调整四大类
- 提出Learnable Calibration方法:设计了两种变体的高效解决方案,在保持高性能的同时最小化存储和计算开销
- 全面实验验证:在多个设备端LLM上验证了方法的有效性和通用性
组合式多任务定义为:
TC[N](x)=TN(…T2(T1(x)))
其中输入x依次经过N个任务处理,本文主要研究N=2的情况,包括:
- 主任务T1:摘要或回复生成
- 辅助任务T2:翻译或语调调整
基于LoRA适配器机制,调整后的前向传播为:
h=W0x+ΔWx=W0x+BAx
其中B∈Rd×r,A∈Rr×k,r≪min(d,k)。
核心思想:以线性合并的单任务LoRAs为起点,通过少量额外参数进行校准。
初始合并:
B′=N1∑i=1NBi,A′=N1∑i=1NAi
变体1 - Learnable Calibration:
使用列向偏置向量p∈Rd进行校准:
ΔWc=p⊕B′A′=∑i=1dpiΔWi′
变体2 - Learnable Calibration++:
引入校准LoRA矩阵P2P1:
ΔWc=P2P1+ΔW′
- 轻量级校准:只需0.08-0.56%的额外参数,存储开销小于0.5MB
- 任务特异性:针对不同组合任务学习专门的校准参数
- 兼容性强:与现有框架(Android AI Core、Apple Intelligence)兼容
- 参数共享:支持跨任务参数共享以进一步降低存储需求
基准数据集构建:
- 摘要任务:DialogSum数据集(12,460/500/1,500训练/验证/测试)
- 回复任务:Synthetic Persona Chat数据集(225,061/1,000/1,000)
- 翻译任务:TED Talks数据集,英语到西班牙语/法语/德语
- 语调调整:Sound Natural数据集,四种语调(专业/随意/幽默/转述)
组合任务生成:
- 使用OpusMT模型进行翻译
- 使用RedPajama-INCITE-Base 3B模型进行语调调整
- 摘要类任务:ROUGE-L (R-L)
- 回复类任务:加权ROUGE (W-R) = 6ROUGE-1+3ROUGE-2+2ROUGE-3
- LLM Judge:使用Llama 3.1 70B进行二元评估
基线方法:
- Zero-shot、主任务LoRA、辅助任务LoRA
- 上下文学习、多步骤LoRA使用
- 各种合并策略:Linear、TIES、DARE、Slerp、LoraHub等
参考方法:
- 多步骤LoRA使用(效率低但性能好)
- 联合专家LoRA(为每个组合任务专门训练)
- 模型:LLaMA 3.2 1B、Qwen2.5 1.5B、StableLM2 1.6B
- LoRA配置:rank=32,α=16,dropout=0.05
- 训练:Adam优化器,学习率5×10⁻⁵(LoRA)、5×10⁻⁴(校准参数)
- 校准训练:随机选择10,000个组合任务样本
| 方法类别 | Sum.+翻译 | Sum.+语调 | 回复+翻译 | 回复+语调 | 效率 |
|---|
| 高效基线 | | | | | |
| Zero-shot | 0.44% | 6.52% | 4.11% | 33.66% | ✓ |
| 主任务LoRA | 3.49% | 4.18% | 7.17% | 36.25% | ✓ |
| Linear merge | 0.33% | 2.74% | 12.81% | 41.93% | ✓ |
| TIES merge | 0.81% | 6.06% | 8.30% | 47.87% | ✓ |
| 低效基线 | | | | | |
| 多步骤LoRA | 72.92% | 34.32% | 69.83% | 45.78% | ✗ |
| 联合专家LoRA | 49.85% | 16.14% | 65.73% | 47.06% | ✗ |
| 本文方法 | | | | | |
| Learnable Calibration | 59.23% | 28.89% | 57.46% | 44.99% | ✓ |
| Learnable Calibration++ | 65.15% | 34.34% | 63.81% | 45.40% | ✓ |
表中数值为LLM Judge评分(%)
- 传统合并策略失效:现有合并方法在组合多任务场景下性能极差(LLM Judge得分通常<10%)
- 效率-性能权衡:本文方法在单次推理的约束下,性能接近甚至超越多步骤基线
- 一致性表现:Learnable Calibration++在所有任务上都取得最佳性能
存储效率分析:
- 多步骤LoRA:0个额外参数,但需要2次推理
- 联合专家LoRA:30M参数,57.10MB存储
- Learnable Calibration:23K参数,0.05MB存储
- Learnable Calibration++:166K参数,0.32MB存储
预训练适配器作用:
移除预训练LoRAs后,性能略有下降但仍优于大多数基线,证明了利用现有适配器的价值。
- 模型规模适应性:在0.5B-3B参数的模型上都表现良好
- 域外泛化:在不同对话数据集上保持稳定性能
- 三任务扩展:支持摘要+语调+翻译的三路组合任务
- LoRA及其变体:DoRA、AdaLoRA、Delta-LoRA等扩展方法
- 其他PEFT方法:BitFit等偏置参数训练方法
- 早期工作:Model Soup等线性合并方法
- 高级技术:TIES、DARE、Slerp等冲突解决策略
- 自适应方法:LoraHub、LM-Cocktail、DAM等学习型合并
- 压缩技术:模型量化、知识蒸馏等
- 代表模型:LLaMA 3.2、Qwen2.5、StableLM2等1-3B参数模型
- 部署挑战:存储限制、计算约束、隐私要求
- 问题重要性:组合式多任务是设备端LLMs的重要需求,传统方法无法有效解决
- 方法有效性:Learnable Calibration在保持效率的同时实现了与低效基线相当的性能
- 实用价值:极小的存储开销(<0.5MB)使得方法适合实际部署
- 评估范围:主要关注1-3B参数的设备端模型,未在大型模型上验证
- 任务数量:主要研究2-3个任务的组合,更多任务的扩展性有待验证
- 数据依赖:需要组合任务数据进行校准参数训练,不如完全无数据的合并方法
- 安全性研究:探索组合多任务对模型安全机制的影响
- 扩展性优化:研究处理更多任务组合的方法
- 零样本合并:开发无需额外数据的组合多任务方法
- 问题创新性:首次系统性地研究组合式多任务问题,填补了重要研究空白
- 方法实用性:极小的存储和计算开销,适合实际部署
- 实验充分性:全面的基线对比、消融实验和扩展分析
- 基准贡献:构建的14子任务基准为后续研究提供了标准评估平台
- 理论分析不足:缺乏对为什么校准参数有效的深入理论解释
- 任务选择局限:主要关注NLP任务,在其他模态的适用性未知
- 评估指标单一:主要依赖ROUGE和LLM Judge,缺乏人工评估
- 学术价值:开辟了新的研究方向,预期会有后续工作跟进
- 工业应用:直接适用于移动设备的AI应用开发
- 可复现性:提供了详细的实现细节和基准数据
- 移动应用:智能手机、平板等资源受限设备
- 边缘计算:IoT设备、嵌入式系统
- 隐私敏感场景:需要本地处理避免数据上传的应用
论文引用了大量相关工作,主要包括:
- Hu et al. (2022): LoRA原始论文
- Wortsman et al. (2022): Model Soup模型合并方法
- Yadav et al. (2024): TIES合并策略
- Gunter et al. (2024): Apple Intelligence设备端部署经验
总体评价:这是一篇高质量的研究论文,解决了实际重要问题,提出了有效的解决方案,并进行了充分的实验验证。该工作为设备端LLMs的多任务处理提供了新的思路,具有重要的学术和实用价值。