2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

온디바이스 대규모 언어 모델을 위한 효율적인 합성 다중작업 처리

기본 정보

논문 ID: 2507.16083
제목: Efficient Compositional Multi-tasking for On-device Large Language Models
저자: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
소속: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
분류: cs.CL cs.AI cs.LG
발표일: 2025년 10월 11일 (arXiv v2)
논문 링크: https://arxiv.org/abs/2507.16083

초록

어댑터 파라미터는 기계학습 모델의 동작을 수정하기 위한 메커니즘을 제공하며, 대규모 언어 모델(LLMs) 및 생성형 AI 분야에서 광범위한 관심을 받고 있습니다. 이러한 파라미터는 작업 병합 프로세스를 통해 다중작업 처리를 지원할 수 있습니다. 그러나 LLMs의 이전 병합 작업, 특히 자연언어처리 분야에서는 각 테스트 샘플이 단일 작업만 처리하는 시나리오로 제한되었습니다. 본 논문은 온디바이스 설정에 초점을 맞추어 텍스트 기반 합성 다중작업 문제를 연구하며, 각 테스트 샘플이 여러 작업을 동시에 수행해야 하는 경우를 다룹니다. 예를 들어, 긴 텍스트의 번역 요약 생성은 번역과 요약 작업을 동시에 해결해야 합니다. 이 분야의 연구를 촉진하기 위해 4개의 실용적인 합성 작업을 포함하는 벤치마크를 제안합니다. 또한 온디바이스 애플리케이션을 위한 효율적인 방법(학습 가능한 보정)을 제안하며, 계산 자원이 제한된 환경에서 자원 효율성과 높은 성능을 모두 갖춘 솔루션의 필요성을 강조합니다.

연구 배경 및 동기

문제 정의

기존의 LLM 다중작업 처리는 주로 단일 작업 시나리오에 초점을 맞추고 있으며, 즉 각 테스트 샘플이 하나의 작업만 포함합니다(예: 번역만 또는 요약만). 그러나 실제 애플리케이션에서는 합성 다중작업 처리가 자주 필요하며, 이는 단일 추론에서 여러 작업을 동시에 실행하는 것입니다. 예를 들어 번역된 요약 생성, 특정 톤의 응답 생성 등이 있습니다.

중요성 분석

실용적 가치: 합성 다중작업은 실제 시나리오에서 광범위한 수요가 있습니다. 예: 다국어 시나리오에서의 지능형 응답, 특정 톤의 요약 생성 등
효율성 요구사항: 온디바이스 LLMs는 자원이 제한되어 있으며, 단일 추론에서 다중작업을 완료해야 하므로 여러 번의 추론으로 인한 효율성 손실을 피할 수 있습니다
저장소 제약: 모바일 디바이스의 저장소가 제한되어 있어 각 합성 작업에 대해 독립적인 어댑터를 훈련할 수 없습니다

기존 방법의 한계

전통적 병합 전략: TIES, DARE 등의 방법은 합성 다중작업 시나리오에서 성능이 좋지 않습니다
다단계 방안: 효과적이지만 여러 번의 추론이 필요하여 효율성이 낮습니다
독립적 훈련: 각 합성 작업에 대해 전문 어댑터를 훈련하면 저장소 오버헤드가 큽니다

핵심 기여

합성 다중작업 문제의 최초 제안: 온디바이스 LLMs의 합성 다중작업 처리 과제를 정의합니다
실용적 벤치마크 구축: 요약+번역, 요약+톤 조정, 응답+번역, 응답+톤 조정의 4가지 범주를 포함하는 14개 부작업의 포괄적 벤치마크를 개발합니다
학습 가능한 보정 방법 제안: 높은 성능을 유지하면서 저장소 및 계산 오버헤드를 최소화하는 2가지 변형의 효율적인 솔루션을 설계합니다
포괄적 실험 검증: 여러 온디바이스 LLM에서 방법의 효과성과 일반성을 검증합니다

방법 상세 설명

작업 정의

합성 다중작업은 다음과 같이 정의됩니다: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

여기서 입력 $x$ 는 순차적으로 $N$ 개의 작업을 거치며, 본 논문은 주로 $N=2$ 인 경우를 연구합니다:

주 작업 $T_1$ : 요약 또는 응답 생성
보조 작업 $T_2$ : 번역 또는 톤 조정

모델 아키텍처

LoRA 기반

LoRA 어댑터 메커니즘을 기반으로 조정된 순전파는 다음과 같습니다: $h = W_0x + \Delta Wx = W_0x + BAx$

여기서 $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$ 입니다.

학습 가능한 보정 방법

핵심 아이디어: 선형 병합된 단일 작업 LoRAs를 시작점으로 하여 소량의 추가 파라미터로 보정합니다.

초기 병합: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

변형 1 - 학습 가능한 보정: 열 방향 편향 벡터 $p \in \mathbb{R}^d$ 를 사용한 보정: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

변형 2 - 학습 가능한 보정++: 보정 LoRA 행렬 $P_2P_1$ 을 도입: $\Delta W^c = P_2P_1 + \Delta W'$

기술 혁신점

경량 보정: 0.08-0.56%의 추가 파라미터만 필요하며, 저장소 오버헤드는 0.5MB 미만입니다
작업 특이성: 다양한 합성 작업에 대해 전문화된 보정 파라미터를 학습합니다
강한 호환성: 기존 프레임워크(Android AI Core, Apple Intelligence)와 호환됩니다
파라미터 공유: 저장소 요구사항을 더욱 줄이기 위해 작업 간 파라미터 공유를 지원합니다

실험 설정

데이터셋

벤치마크 데이터셋 구축:

요약 작업: DialogSum 데이터셋 (12,460/500/1,500 훈련/검증/테스트)
응답 작업: Synthetic Persona Chat 데이터셋 (225,061/1,000/1,000)
번역 작업: TED Talks 데이터셋, 영어에서 스페인어/프랑스어/독일어로
톤 조정: Sound Natural 데이터셋, 4가지 톤(전문적/캐주얼/유머러스/재술)

합성 작업 생성:

OpusMT 모델을 사용한 번역
RedPajama-INCITE-Base 3B 모델을 사용한 톤 조정

평가 지표

요약 유형 작업: ROUGE-L (R-L)
응답 유형 작업: 가중 ROUGE (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
LLM Judge: Llama 3.1 70B를 사용한 이진 평가

비교 방법

기준선 방법:

Zero-shot, 주 작업 LoRA, 보조 작업 LoRA
문맥 내 학습, 다단계 LoRA 사용
다양한 병합 전략: Linear, TIES, DARE, Slerp, LoraHub 등

참고 방법:

다단계 LoRA 사용 (효율성은 낮지만 성능이 좋음)
연합 전문가 LoRA (각 합성 작업에 대해 전문적으로 훈련)

구현 세부사항

모델: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
LoRA 구성: rank=32, α=16, dropout=0.05
훈련: Adam 옵티마이저, 학습률 5×10⁻⁵ (LoRA), 5×10⁻⁴ (보정 파라미터)
보정 훈련: 10,000개의 합성 작업 샘플을 무작위로 선택

실험 결과

주요 결과

방법 범주	요약+번역	요약+톤	응답+번역	응답+톤	효율성
효율적 기준선
Zero-shot	0.44%	6.52%	4.11%	33.66%	✓
주 작업 LoRA	3.49%	4.18%	7.17%	36.25%	✓
Linear 병합	0.33%	2.74%	12.81%	41.93%	✓
TIES 병합	0.81%	6.06%	8.30%	47.87%	✓
비효율적 기준선
다단계 LoRA	72.92%	34.32%	69.83%	45.78%	✗
연합 전문가 LoRA	49.85%	16.14%	65.73%	47.06%	✗
본 논문 방법
학습 가능한 보정	59.23%	28.89%	57.46%	44.99%	✓
학습 가능한 보정++	65.15%	34.34%	63.81%	45.40%	✓

표의 값은 LLM Judge 점수(%)

주요 발견

전통적 병합 전략의 실패: 기존 병합 방법은 합성 다중작업 시나리오에서 극히 좋지 않은 성능을 보입니다 (LLM Judge 점수 일반적으로 <10%)
효율성-성능 트레이드오프: 본 논문의 방법은 단일 추론 제약 하에서 다단계 기준선에 필적하거나 이를 초과하는 성능을 달성합니다
일관된 성능: 학습 가능한 보정++은 모든 작업에서 최고의 성능을 달성합니다