2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.
Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
academic

온디바이스 대규모 언어 모델을 위한 효율적인 합성 다중작업 처리

기본 정보

  • 논문 ID: 2507.16083
  • 제목: Efficient Compositional Multi-tasking for On-device Large Language Models
  • 저자: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
  • 소속: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
  • 분류: cs.CL cs.AI cs.LG
  • 발표일: 2025년 10월 11일 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2507.16083

초록

어댑터 파라미터는 기계학습 모델의 동작을 수정하기 위한 메커니즘을 제공하며, 대규모 언어 모델(LLMs) 및 생성형 AI 분야에서 광범위한 관심을 받고 있습니다. 이러한 파라미터는 작업 병합 프로세스를 통해 다중작업 처리를 지원할 수 있습니다. 그러나 LLMs의 이전 병합 작업, 특히 자연언어처리 분야에서는 각 테스트 샘플이 단일 작업만 처리하는 시나리오로 제한되었습니다. 본 논문은 온디바이스 설정에 초점을 맞추어 텍스트 기반 합성 다중작업 문제를 연구하며, 각 테스트 샘플이 여러 작업을 동시에 수행해야 하는 경우를 다룹니다. 예를 들어, 긴 텍스트의 번역 요약 생성은 번역과 요약 작업을 동시에 해결해야 합니다. 이 분야의 연구를 촉진하기 위해 4개의 실용적인 합성 작업을 포함하는 벤치마크를 제안합니다. 또한 온디바이스 애플리케이션을 위한 효율적인 방법(학습 가능한 보정)을 제안하며, 계산 자원이 제한된 환경에서 자원 효율성과 높은 성능을 모두 갖춘 솔루션의 필요성을 강조합니다.

연구 배경 및 동기

문제 정의

기존의 LLM 다중작업 처리는 주로 단일 작업 시나리오에 초점을 맞추고 있으며, 즉 각 테스트 샘플이 하나의 작업만 포함합니다(예: 번역만 또는 요약만). 그러나 실제 애플리케이션에서는 합성 다중작업 처리가 자주 필요하며, 이는 단일 추론에서 여러 작업을 동시에 실행하는 것입니다. 예를 들어 번역된 요약 생성, 특정 톤의 응답 생성 등이 있습니다.

중요성 분석

  1. 실용적 가치: 합성 다중작업은 실제 시나리오에서 광범위한 수요가 있습니다. 예: 다국어 시나리오에서의 지능형 응답, 특정 톤의 요약 생성 등
  2. 효율성 요구사항: 온디바이스 LLMs는 자원이 제한되어 있으며, 단일 추론에서 다중작업을 완료해야 하므로 여러 번의 추론으로 인한 효율성 손실을 피할 수 있습니다
  3. 저장소 제약: 모바일 디바이스의 저장소가 제한되어 있어 각 합성 작업에 대해 독립적인 어댑터를 훈련할 수 없습니다

기존 방법의 한계

  1. 전통적 병합 전략: TIES, DARE 등의 방법은 합성 다중작업 시나리오에서 성능이 좋지 않습니다
  2. 다단계 방안: 효과적이지만 여러 번의 추론이 필요하여 효율성이 낮습니다
  3. 독립적 훈련: 각 합성 작업에 대해 전문 어댑터를 훈련하면 저장소 오버헤드가 큽니다

핵심 기여

  1. 합성 다중작업 문제의 최초 제안: 온디바이스 LLMs의 합성 다중작업 처리 과제를 정의합니다
  2. 실용적 벤치마크 구축: 요약+번역, 요약+톤 조정, 응답+번역, 응답+톤 조정의 4가지 범주를 포함하는 14개 부작업의 포괄적 벤치마크를 개발합니다
  3. 학습 가능한 보정 방법 제안: 높은 성능을 유지하면서 저장소 및 계산 오버헤드를 최소화하는 2가지 변형의 효율적인 솔루션을 설계합니다
  4. 포괄적 실험 검증: 여러 온디바이스 LLM에서 방법의 효과성과 일반성을 검증합니다

방법 상세 설명

작업 정의

합성 다중작업은 다음과 같이 정의됩니다: TC[N](x)=TN(T2(T1(x)))T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))

여기서 입력 xx는 순차적으로 NN개의 작업을 거치며, 본 논문은 주로 N=2N=2인 경우를 연구합니다:

  • 주 작업 T1T_1: 요약 또는 응답 생성
  • 보조 작업 T2T_2: 번역 또는 톤 조정

모델 아키텍처

LoRA 기반

LoRA 어댑터 메커니즘을 기반으로 조정된 순전파는 다음과 같습니다: h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

여기서 BRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, rmin(d,k)r \ll \min(d,k)입니다.

학습 가능한 보정 방법

핵심 아이디어: 선형 병합된 단일 작업 LoRAs를 시작점으로 하여 소량의 추가 파라미터로 보정합니다.

초기 병합: B=1Ni=1NBi,A=1Ni=1NAiB' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i

변형 1 - 학습 가능한 보정: 열 방향 편향 벡터 pRdp \in \mathbb{R}^d를 사용한 보정: ΔWc=pBA=i=1dpiΔWi\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i

변형 2 - 학습 가능한 보정++: 보정 LoRA 행렬 P2P1P_2P_1을 도입: ΔWc=P2P1+ΔW\Delta W^c = P_2P_1 + \Delta W'

기술 혁신점

  1. 경량 보정: 0.08-0.56%의 추가 파라미터만 필요하며, 저장소 오버헤드는 0.5MB 미만입니다
  2. 작업 특이성: 다양한 합성 작업에 대해 전문화된 보정 파라미터를 학습합니다
  3. 강한 호환성: 기존 프레임워크(Android AI Core, Apple Intelligence)와 호환됩니다
  4. 파라미터 공유: 저장소 요구사항을 더욱 줄이기 위해 작업 간 파라미터 공유를 지원합니다

실험 설정

데이터셋

벤치마크 데이터셋 구축:

  • 요약 작업: DialogSum 데이터셋 (12,460/500/1,500 훈련/검증/테스트)
  • 응답 작업: Synthetic Persona Chat 데이터셋 (225,061/1,000/1,000)
  • 번역 작업: TED Talks 데이터셋, 영어에서 스페인어/프랑스어/독일어로
  • 톤 조정: Sound Natural 데이터셋, 4가지 톤(전문적/캐주얼/유머러스/재술)

합성 작업 생성:

  • OpusMT 모델을 사용한 번역
  • RedPajama-INCITE-Base 3B 모델을 사용한 톤 조정

평가 지표

  • 요약 유형 작업: ROUGE-L (R-L)
  • 응답 유형 작업: 가중 ROUGE (W-R) = ROUGE-16+ROUGE-23+ROUGE-32\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}
  • LLM Judge: Llama 3.1 70B를 사용한 이진 평가

비교 방법

기준선 방법:

  • Zero-shot, 주 작업 LoRA, 보조 작업 LoRA
  • 문맥 내 학습, 다단계 LoRA 사용
  • 다양한 병합 전략: Linear, TIES, DARE, Slerp, LoraHub 등

참고 방법:

  • 다단계 LoRA 사용 (효율성은 낮지만 성능이 좋음)
  • 연합 전문가 LoRA (각 합성 작업에 대해 전문적으로 훈련)

구현 세부사항

  • 모델: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
  • LoRA 구성: rank=32, α=16, dropout=0.05
  • 훈련: Adam 옵티마이저, 학습률 5×10⁻⁵ (LoRA), 5×10⁻⁴ (보정 파라미터)
  • 보정 훈련: 10,000개의 합성 작업 샘플을 무작위로 선택

실험 결과

주요 결과

방법 범주요약+번역요약+톤응답+번역응답+톤효율성
효율적 기준선
Zero-shot0.44%6.52%4.11%33.66%
주 작업 LoRA3.49%4.18%7.17%36.25%
Linear 병합0.33%2.74%12.81%41.93%
TIES 병합0.81%6.06%8.30%47.87%
비효율적 기준선
다단계 LoRA72.92%34.32%69.83%45.78%
연합 전문가 LoRA49.85%16.14%65.73%47.06%
본 논문 방법
학습 가능한 보정59.23%28.89%57.46%44.99%
학습 가능한 보정++65.15%34.34%63.81%45.40%

표의 값은 LLM Judge 점수(%)

주요 발견

  1. 전통적 병합 전략의 실패: 기존 병합 방법은 합성 다중작업 시나리오에서 극히 좋지 않은 성능을 보입니다 (LLM Judge 점수 일반적으로 <10%)
  2. 효율성-성능 트레이드오프: 본 논문의 방법은 단일 추론 제약 하에서 다단계 기준선에 필적하거나 이를 초과하는 성능을 달성합니다
  3. 일관된 성능: 학습 가능한 보정++은 모든 작업에서 최고의 성능을 달성합니다

소거 실험

저장소 효율성 분석:

  • 다단계 LoRA: 0개 추가 파라미터, 하지만 2번의 추론 필요
  • 연합 전문가 LoRA: 30M 파라미터, 57.10MB 저장소
  • 학습 가능한 보정: 23K 파라미터, 0.05MB 저장소
  • 학습 가능한 보정++: 166K 파라미터, 0.32MB 저장소

사전훈련된 어댑터의 역할: 사전훈련된 LoRAs를 제거한 후 성능이 약간 감소하지만 대부분의 기준선보다 여전히 우수하며, 기존 어댑터 활용의 가치를 입증합니다.

확장 분석

  1. 모델 규모 적응성: 0.5B-3B 파라미터의 모델에서 모두 좋은 성능을 보입니다
  2. 도메인 외 일반화: 다양한 대화 데이터셋에서 안정적인 성능을 유지합니다
  3. 3중 작업 확장: 요약+톤+번역의 3방향 합성 작업을 지원합니다

관련 연구

파라미터 효율적 미세조정(PEFT)

  • LoRA 및 변형: DoRA, AdaLoRA, Delta-LoRA 등 확장 방법
  • 기타 PEFT 방법: BitFit 등 편향 파라미터 훈련 방법

모델 병합

  • 초기 작업: Model Soup 등 선형 병합 방법
  • 고급 기술: TIES, DARE, Slerp 등 충돌 해결 전략
  • 적응형 방법: LoraHub, LM-Cocktail, DAM 등 학습형 병합

온디바이스 LLMs

  • 압축 기술: 모델 양자화, 지식 증류 등
  • 대표 모델: LLaMA 3.2, Qwen2.5, StableLM2 등 1-3B 파라미터 모델
  • 배포 과제: 저장소 제한, 계산 제약, 개인정보 보호 요구사항

결론 및 논의

주요 결론

  1. 문제의 중요성: 합성 다중작업은 온디바이스 LLMs의 중요한 요구사항이며, 전통적 방법은 이를 효과적으로 해결할 수 없습니다
  2. 방법의 효과성: 학습 가능한 보정은 효율성을 유지하면서 비효율적 기준선과 동등한 성능을 달성합니다
  3. 실용적 가치: 극히 작은 저장소 오버헤드 (<0.5MB)로 인해 실제 배포에 적합합니다

한계

  1. 평가 범위: 주로 1-3B 파라미터의 온디바이스 모델에 초점을 맞추고 있으며, 대규모 모델에서의 검증이 부족합니다
  2. 작업 수량: 주로 2-3개 작업의 조합을 연구하며, 더 많은 작업의 확장성은 검증이 필요합니다
  3. 데이터 의존성: 보정 파라미터 훈련을 위해 합성 작업 데이터가 필요하며, 완전히 데이터 없는 병합 방법만큼 유연하지 않습니다

향후 방향

  1. 안전성 연구: 합성 다중작업이 모델 안전 메커니즘에 미치는 영향 탐색
  2. 확장성 최적화: 더 많은 작업 조합을 처리하는 방법 연구
  3. 제로샷 병합: 추가 데이터 없이 합성 다중작업을 수행하는 방법 개발

심층 평가

장점

  1. 문제의 혁신성: 합성 다중작업 문제를 최초로 체계적으로 연구하여 중요한 연구 공백을 채웁니다
  2. 방법의 실용성: 극히 작은 저장소 및 계산 오버헤드로 실제 배포에 적합합니다
  3. 실험의 충분성: 포괄적인 기준선 비교, 소거 실험 및 확장 분석
  4. 벤치마크 기여: 구축된 14개 부작업 벤치마크는 후속 연구를 위한 표준 평가 플랫폼을 제공합니다

부족한 점

  1. 이론적 분석 부족: 보정 파라미터가 왜 효과적인지에 대한 심층적 이론적 설명이 부족합니다
  2. 작업 선택의 한계: 주로 NLP 작업에 초점을 맞추고 있으며, 다른 모달리티에서의 적용 가능성은 미지수입니다
  3. 평가 지표의 단일성: 주로 ROUGE와 LLM Judge에 의존하며, 인간 평가가 부족합니다

영향력

  1. 학술적 가치: 새로운 연구 방향을 개척하며 후속 연구가 예상됩니다
  2. 산업 응용: 모바일 디바이스의 AI 애플리케이션 개발에 직접 적용 가능합니다
  3. 재현성: 상세한 구현 세부사항과 벤치마크 데이터를 제공합니다

적용 시나리오

  1. 모바일 애플리케이션: 스마트폰, 태블릿 등 자원이 제한된 디바이스
  2. 엣지 컴퓨팅: IoT 디바이스, 임베디드 시스템
  3. 개인정보 보호 민감 시나리오: 데이터 업로드를 피하기 위해 로컬 처리가 필요한 애플리케이션

참고문헌

논문은 많은 관련 연구를 인용하며, 주요 내용은 다음을 포함합니다:

  • Hu et al. (2022): LoRA 원본 논문
  • Wortsman et al. (2022): Model Soup 모델 병합 방법
  • Yadav et al. (2024): TIES 병합 전략
  • Gunter et al. (2024): Apple Intelligence 온디바이스 배포 경험

전체 평가: 이는 실제로 중요한 문제를 해결하고 효과적인 솔루션을 제안하며 충분한 실험 검증을 수행한 고품질 연구 논문입니다. 본 연구는 온디바이스 LLMs의 다중작업 처리에 새로운 사고방식을 제공하며 중요한 학술적 및 실용적 가치를 가집니다.