2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

オンデバイス大規模言語モデルのための効率的な合成型マルチタスク処理

基本情報

論文ID: 2507.16083
タイトル: Efficient Compositional Multi-tasking for On-device Large Language Models
著者: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
所属機関: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
分類: cs.CL cs.AI cs.LG
発表日: 2025年10月11日 (arXiv v2)
論文リンク: https://arxiv.org/abs/2507.16083

要旨

アダプタパラメータは機械学習モデルの動作を修正するためのメカニズムを提供し、大規模言語モデル(LLM)および生成型AI分野で広く注目されている。これらのパラメータはタスク合併プロセスを通じてマルチタスク処理をサポートできる。しかし、LLMにおける先行研究、特に自然言語処理分野では、各テストサンプルが単一のタスクのみを処理するシナリオに限定されている。本論文はオンデバイス設定に焦点を当て、テキストベースの合成型マルチタスク問題を研究する。ここで各テストサンプルは複数のタスクを同時に実行する必要がある。例えば、長いテキストの翻訳要約の生成には、翻訳と要約タスクを同時に解決する必要がある。この分野の研究を促進するため、4つの実用的な合成タスクを含むベンチマークを提案する。また、オンデバイスアプリケーション向けの効率的な方法(Learnable Calibration)を提案し、計算リソースが限定された環境において、リソース効率と高性能の両立の必要性を強調する。

研究背景と動機

問題定義

従来のLLMマルチタスク処理は主に単一タスクシナリオ、すなわち各テストサンプルが1つのタスク(翻訳のみまたは要約のみなど)のみに関わるシナリオに焦点を当てている。しかし、実際のアプリケーションでは合成型マルチタスク処理、すなわち単一の推論で複数のタスクを同時に実行する必要がしばしばある。例えば、翻訳後の要約生成、特定のトーンでの返信生成などである。

重要性分析

実用的価値: 合成型マルチタスク処理は実際のシナリオで広く需要がある。例えば、多言語シナリオでのインテリジェント返信、特定のトーンの要約生成が必要な場合など
効率要件: オンデバイスLLMはリソースが限定されており、単一の推論で複数のタスクを完了する必要があり、複数回の推論による効率損失を回避する
ストレージ制約: モバイルデバイスのストレージは限定されており、各合成タスク用に独立したアダプタを訓練することはできない

既存方法の限界

従来の合併戦略: TIES、DAREなどの方法は合成マルチタスクシナリオで性能が低い
複数ステップのアプローチ: 有効だが複数回の推論が必要で、効率が低い
独立訓練: 各合成タスク用に専用アダプタを訓練すると、ストレージオーバーヘッドが大きい

核心的貢献

合成型マルチタスク問題の初提案: オンデバイスLLMの合成型マルチタスク処理の課題を定義
実用的ベンチマークの構築: 14個のサブタスクを含む包括的ベンチマークを開発。要約+翻訳、要約+トーン調整、返信+翻訳、返信+トーン調整の4つのカテゴリをカバー
Learnable Calibration方法の提案: 2つの変種の効率的なソリューションを設計。高性能を維持しながらストレージと計算オーバーヘッドを最小化
包括的な実験検証: 複数のオンデバイスLLMで方法の有効性と汎用性を検証

方法の詳細

タスク定義

合成型マルチタスクは以下のように定義される: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

ここで入力 $x$ は順次 $N$ 個のタスクを通じて処理される。本論文は主に $N=2$ の場合を研究し、以下を含む:

主タスク $T_1$ : 要約または返信生成
補助タスク $T_2$ : 翻訳またはトーン調整

モデルアーキテクチャ

LoRAの基礎

LoRAアダプタメカニズムに基づいて、調整後の前方伝播は以下の通り: $h = W_0x + \Delta Wx = W_0x + BAx$

ここで $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$

Learnable Calibration方法

核心的考え方: 線形合併された単一タスクLoRAを出発点として、少量の追加パラメータによる校正を行う。

初期合併: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

変種1 - Learnable Calibration: 列方向バイアスベクトル $p \in \mathbb{R}^d$ を使用した校正: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

変種2 - Learnable Calibration++: 校正LoRA行列 $P_2P_1$ を導入: $\Delta W^c = P_2P_1 + \Delta W'$

技術的革新点

軽量校正: わずか0.08-0.56%の追加パラメータのみが必要で、ストレージオーバーヘッドは0.5MB未満
タスク特異性: 異なる合成タスク用に専門的な校正パラメータを学習
強い互換性: 既存フレームワーク(Android AI Core、Apple Intelligence)と互換性がある
パラメータ共有: タスク間のパラメータ共有をサポートしてストレージ要件をさらに削減

実験設定

データセット

ベンチマークデータセットの構築:

要約タスク: DialogSumデータセット(12,460/500/1,500訓練/検証/テスト)
返信タスク: Synthetic Persona Chatデータセット(225,061/1,000/1,000)
翻訳タスク: TED Talksデータセット、英語からスペイン語/フランス語/ドイツ語へ
トーン調整: Sound Naturalデータセット、4つのトーン(専門的/カジュアル/ユーモア/言い換え)

合成タスク生成:

OpusMTモデルを使用した翻訳
RedPajama-INCITE-Base 3Bモデルを使用したトーン調整

評価指標

要約関連タスク: ROUGE-L (R-L)
返信関連タスク: 加重ROUGE (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
LLM Judge: Llama 3.1 70Bを使用したバイナリ評価

比較方法

ベースライン方法:

ゼロショット、主タスクLoRA、補助タスクLoRA
コンテキスト内学習、複数ステップLoRA使用
様々な合併戦略: Linear、TIES、DARE、Slerp、LoraHubなど

参照方法:

複数ステップLoRA使用(効率は低いが性能は良い)
共同専門家LoRA(各合成タスク用に専門訓練)

実装詳細

モデル: LLaMA 3.2 1B、Qwen2.5 1.5B、StableLM2 1.6B
LoRA設定: rank=32、α=16、dropout=0.05
訓練: Adamオプティマイザ、学習率5×10⁻⁵(LoRA)、5×10⁻⁴(校正パラメータ)
校正訓練: 10,000個の合成タスクサンプルをランダムに選択

実験結果

主要結果

方法カテゴリ	要約+翻訳	要約+トーン	返信+翻訳	返信+トーン	効率
効率的ベースライン
ゼロショット	0.44%	6.52%	4.11%	33.66%	✓
主タスクLoRA	3.49%	4.18%	7.17%	36.25%	✓
Linear合併	0.33%	2.74%	12.81%	41.93%	✓
TIES合併	0.81%	6.06%	8.30%	47.87%	✓
非効率ベースライン
複数ステップLoRA	72.92%	34.32%	69.83%	45.78%	✗
共同専門家LoRA	49.85%	16.14%	65.73%	47.06%	✗
本論文の方法
Learnable Calibration	59.23%	28.89%	57.46%	44.99%	✓
Learnable Calibration++	65.15%	34.34%	63.81%	45.40%	✓