2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.
Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
academic

オンデバイス大規模言語モデルのための効率的な合成型マルチタスク処理

基本情報

  • 論文ID: 2507.16083
  • タイトル: Efficient Compositional Multi-tasking for On-device Large Language Models
  • 著者: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
  • 所属機関: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
  • 分類: cs.CL cs.AI cs.LG
  • 発表日: 2025年10月11日 (arXiv v2)
  • 論文リンク: https://arxiv.org/abs/2507.16083

要旨

アダプタパラメータは機械学習モデルの動作を修正するためのメカニズムを提供し、大規模言語モデル(LLM)および生成型AI分野で広く注目されている。これらのパラメータはタスク合併プロセスを通じてマルチタスク処理をサポートできる。しかし、LLMにおける先行研究、特に自然言語処理分野では、各テストサンプルが単一のタスクのみを処理するシナリオに限定されている。本論文はオンデバイス設定に焦点を当て、テキストベースの合成型マルチタスク問題を研究する。ここで各テストサンプルは複数のタスクを同時に実行する必要がある。例えば、長いテキストの翻訳要約の生成には、翻訳と要約タスクを同時に解決する必要がある。この分野の研究を促進するため、4つの実用的な合成タスクを含むベンチマークを提案する。また、オンデバイスアプリケーション向けの効率的な方法(Learnable Calibration)を提案し、計算リソースが限定された環境において、リソース効率と高性能の両立の必要性を強調する。

研究背景と動機

問題定義

従来のLLMマルチタスク処理は主に単一タスクシナリオ、すなわち各テストサンプルが1つのタスク(翻訳のみまたは要約のみなど)のみに関わるシナリオに焦点を当てている。しかし、実際のアプリケーションでは合成型マルチタスク処理、すなわち単一の推論で複数のタスクを同時に実行する必要がしばしばある。例えば、翻訳後の要約生成、特定のトーンでの返信生成などである。

重要性分析

  1. 実用的価値: 合成型マルチタスク処理は実際のシナリオで広く需要がある。例えば、多言語シナリオでのインテリジェント返信、特定のトーンの要約生成が必要な場合など
  2. 効率要件: オンデバイスLLMはリソースが限定されており、単一の推論で複数のタスクを完了する必要があり、複数回の推論による効率損失を回避する
  3. ストレージ制約: モバイルデバイスのストレージは限定されており、各合成タスク用に独立したアダプタを訓練することはできない

既存方法の限界

  1. 従来の合併戦略: TIES、DAREなどの方法は合成マルチタスクシナリオで性能が低い
  2. 複数ステップのアプローチ: 有効だが複数回の推論が必要で、効率が低い
  3. 独立訓練: 各合成タスク用に専用アダプタを訓練すると、ストレージオーバーヘッドが大きい

核心的貢献

  1. 合成型マルチタスク問題の初提案: オンデバイスLLMの合成型マルチタスク処理の課題を定義
  2. 実用的ベンチマークの構築: 14個のサブタスクを含む包括的ベンチマークを開発。要約+翻訳、要約+トーン調整、返信+翻訳、返信+トーン調整の4つのカテゴリをカバー
  3. Learnable Calibration方法の提案: 2つの変種の効率的なソリューションを設計。高性能を維持しながらストレージと計算オーバーヘッドを最小化
  4. 包括的な実験検証: 複数のオンデバイスLLMで方法の有効性と汎用性を検証

方法の詳細

タスク定義

合成型マルチタスクは以下のように定義される: TC[N](x)=TN(T2(T1(x)))T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))

ここで入力xxは順次NN個のタスクを通じて処理される。本論文は主にN=2N=2の場合を研究し、以下を含む:

  • 主タスクT1T_1: 要約または返信生成
  • 補助タスクT2T_2: 翻訳またはトーン調整

モデルアーキテクチャ

LoRAの基礎

LoRAアダプタメカニズムに基づいて、調整後の前方伝播は以下の通り: h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

ここでBRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, rmin(d,k)r \ll \min(d,k)

Learnable Calibration方法

核心的考え方: 線形合併された単一タスクLoRAを出発点として、少量の追加パラメータによる校正を行う。

初期合併: B=1Ni=1NBi,A=1Ni=1NAiB' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i

変種1 - Learnable Calibration: 列方向バイアスベクトルpRdp \in \mathbb{R}^dを使用した校正: ΔWc=pBA=i=1dpiΔWi\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i

変種2 - Learnable Calibration++: 校正LoRA行列P2P1P_2P_1を導入: ΔWc=P2P1+ΔW\Delta W^c = P_2P_1 + \Delta W'

技術的革新点

  1. 軽量校正: わずか0.08-0.56%の追加パラメータのみが必要で、ストレージオーバーヘッドは0.5MB未満
  2. タスク特異性: 異なる合成タスク用に専門的な校正パラメータを学習
  3. 強い互換性: 既存フレームワーク(Android AI Core、Apple Intelligence)と互換性がある
  4. パラメータ共有: タスク間のパラメータ共有をサポートしてストレージ要件をさらに削減

実験設定

データセット

ベンチマークデータセットの構築:

  • 要約タスク: DialogSumデータセット(12,460/500/1,500訓練/検証/テスト)
  • 返信タスク: Synthetic Persona Chatデータセット(225,061/1,000/1,000)
  • 翻訳タスク: TED Talksデータセット、英語からスペイン語/フランス語/ドイツ語へ
  • トーン調整: Sound Naturalデータセット、4つのトーン(専門的/カジュアル/ユーモア/言い換え)

合成タスク生成:

  • OpusMTモデルを使用した翻訳
  • RedPajama-INCITE-Base 3Bモデルを使用したトーン調整

評価指標

  • 要約関連タスク: ROUGE-L (R-L)
  • 返信関連タスク: 加重ROUGE (W-R) = ROUGE-16+ROUGE-23+ROUGE-32\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}
  • LLM Judge: Llama 3.1 70Bを使用したバイナリ評価

比較方法

ベースライン方法:

  • ゼロショット、主タスクLoRA、補助タスクLoRA
  • コンテキスト内学習、複数ステップLoRA使用
  • 様々な合併戦略: Linear、TIES、DARE、Slerp、LoraHubなど

参照方法:

  • 複数ステップLoRA使用(効率は低いが性能は良い)
  • 共同専門家LoRA(各合成タスク用に専門訓練)

実装詳細

  • モデル: LLaMA 3.2 1B、Qwen2.5 1.5B、StableLM2 1.6B
  • LoRA設定: rank=32、α=16、dropout=0.05
  • 訓練: Adamオプティマイザ、学習率5×10⁻⁵(LoRA)、5×10⁻⁴(校正パラメータ)
  • 校正訓練: 10,000個の合成タスクサンプルをランダムに選択

実験結果

主要結果

方法カテゴリ要約+翻訳要約+トーン返信+翻訳返信+トーン効率
効率的ベースライン
ゼロショット0.44%6.52%4.11%33.66%
主タスクLoRA3.49%4.18%7.17%36.25%
Linear合併0.33%2.74%12.81%41.93%
TIES合併0.81%6.06%8.30%47.87%
非効率ベースライン
複数ステップLoRA72.92%34.32%69.83%45.78%
共同専門家LoRA49.85%16.14%65.73%47.06%
本論文の方法
Learnable Calibration59.23%28.89%57.46%44.99%
Learnable Calibration++65.15%34.34%63.81%45.40%

表の値はLLM Judge評価スコア(%)

主要な発見

  1. 従来の合併戦略の失効: 既存の合併方法は合成マルチタスクシナリオで極めて低い性能を示す(LLM Judge評価スコアは通常<10%)
  2. 効率-性能トレードオフ: 本論文の方法は単一推論の制約下で、複数ステップベースラインに匹敵するか上回る性能を実現
  3. 一貫した性能: Learnable Calibration++はすべてのタスクで最高の性能を達成

アブレーション実験

ストレージ効率分析:

  • 複数ステップLoRA: 追加パラメータなし、ただし2回の推論が必要
  • 共同専門家LoRA: 30Mパラメータ、57.10MBストレージ
  • Learnable Calibration: 23Kパラメータ、0.05MBストレージ
  • Learnable Calibration++: 166Kパラメータ、0.32MBストレージ

事前訓練アダプタの役割: 事前訓練LoRAを削除した後、性能はわずかに低下するが、ほとんどのベースラインより優れており、既存アダプタの活用価値を証明している。

拡張分析

  1. モデルスケール適応性: 0.5B-3Bパラメータのモデルで良好に機能
  2. ドメイン外汎化: 異なる対話データセット上で安定した性能を維持
  3. 3タスク拡張: 要約+トーン+翻訳の3方向合成タスクをサポート

関連研究

パラメータ効率的微調整(PEFT)

  • LoRAおよびその変種: DoRA、AdaLoRA、Delta-LoRAなどの拡張方法
  • その他のPEFT方法: BitFitなどのバイアスパラメータ訓練方法

モデル合併

  • 初期研究: Model Soupなどの線形合併方法
  • 高度な技術: TIES、DARE、Slerpなどの競合解決戦略
  • 適応的方法: LoraHub、LM-Cocktail、DAMなどの学習型合併

オンデバイスLLM

  • 圧縮技術: モデル量化、知識蒸留など
  • 代表的モデル: LLaMA 3.2、Qwen2.5、StableLM2などの1-3Bパラメータモデル
  • デプロイメント課題: ストレージ制限、計算制約、プライバシー要件

結論と議論

主要な結論

  1. 問題の重要性: 合成型マルチタスク処理はオンデバイスLLMの重要な要件であり、従来の方法では効果的に解決できない
  2. 方法の有効性: Learnable Calibrationは効率を維持しながら、非効率ベースラインと同等の性能を実現
  3. 実用的価値: 極めて小さいストレージオーバーヘッド(<0.5MB)により、実際のデプロイメントに適している

限界

  1. 評価範囲: 主に1-3Bパラメータのオンデバイスモデルに焦点を当てており、大規模モデルでの検証は未実施
  2. タスク数: 主に2-3個のタスク合成を研究しており、より多くのタスクへの拡張性は未検証
  3. データ依存性: 校正パラメータ訓練のために合成タスクデータが必要であり、完全にデータ不要な合併方法ほど柔軟ではない

今後の方向

  1. 安全性研究: 合成マルチタスクがモデルの安全メカニズムに与える影響を探索
  2. 拡張性最適化: より多くのタスク組み合わせを処理する方法を研究
  3. ゼロショット合併: 追加データを必要としない合成マルチタスク方法の開発

深い評価

利点

  1. 問題の革新性: 合成型マルチタスク問題を初めて体系的に研究し、重要な研究ギャップを埋める
  2. 方法の実用性: 極めて小さいストレージと計算オーバーヘッドで、実際のデプロイメントに適している
  3. 実験の充実性: 包括的なベースライン比較、アブレーション実験、拡張分析
  4. ベンチマーク貢献: 構築された14サブタスクベンチマークは後続研究の標準評価プラットフォームを提供

不足点

  1. 理論分析の不足: 校正パラメータが有効である理由についての深い理論的説明が不足
  2. タスク選択の限定: 主にNLPタスクに焦点を当てており、他のモダリティでの適用可能性は未知
  3. 評価指標の単一性: 主にROUGEとLLM Judgeに依存しており、人間による評価が不足

影響力

  1. 学術的価値: 新しい研究方向を開拓し、後続研究が予想される
  2. 産業応用: モバイルデバイスのAIアプリケーション開発に直接適用可能
  3. 再現性: 詳細な実装詳細とベンチマークデータを提供

適用シナリオ

  1. モバイルアプリケーション: スマートフォン、タブレットなどのリソース制限デバイス
  2. エッジコンピューティング: IoTデバイス、組み込みシステム
  3. プライバシー敏感なシナリオ: データアップロードを回避するためにローカル処理が必要なアプリケーション

参考文献

論文は多くの関連研究を引用しており、主に以下を含む:

  • Hu et al. (2022): LoRA原論文
  • Wortsman et al. (2022): Model Soupモデル合併方法
  • Yadav et al. (2024): TIES合併戦略
  • Gunter et al. (2024): Apple Intelligenceオンデバイスデプロイメント経験

総合評価: これは高品質な研究論文であり、実際に重要な問題を解決し、効果的なソリューションを提案し、充分な実験検証を行っている。本研究はオンデバイスLLMのマルチタスク処理に新しい視点を提供し、学術的および実用的価値が重要である。