2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.
Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.
academic

Multitarea Composicional Eficiente para Modelos de Lenguaje Grande en Dispositivo

Información Básica

  • ID del Artículo: 2507.16083
  • Título: Efficient Compositional Multi-tasking for On-device Large Language Models
  • Autores: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
  • Instituciones: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
  • Clasificación: cs.CL cs.AI cs.LG
  • Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2507.16083

Resumen

Los parámetros adaptadores proporcionan un mecanismo para modificar el comportamiento de los modelos de aprendizaje automático, habiendo ganado amplia atención en el campo de los modelos de lenguaje grande (LLMs) e IA generativa. Estos parámetros pueden respaldar el procesamiento multitarea a través de procesos de fusión de tareas. Sin embargo, trabajos previos sobre fusión en LLMs, particularmente en el procesamiento del lenguaje natural, se han limitado a escenarios donde cada muestra de prueba procesa una única tarea. Este artículo se enfoca en configuraciones en dispositivo, investigando problemas de multitarea composicional basados en texto, donde cada muestra de prueba requiere ejecutar múltiples tareas simultáneamente. Por ejemplo, generar un resumen traducido de un texto largo requiere resolver simultáneamente las tareas de traducción y resumen. Para promover la investigación en este campo, proponemos un conjunto de datos de referencia que contiene cuatro tareas composicionales prácticas. También proponemos un método eficiente para aplicaciones en dispositivo (Calibración Aprendible), enfatizando la necesidad de soluciones que sean tanto eficientes en recursos como de alto rendimiento en entornos con recursos computacionales limitados.

Antecedentes de Investigación y Motivación

Definición del Problema

El procesamiento multitarea tradicional de LLMs se enfoca principalmente en escenarios de una única tarea, es decir, donde cada muestra de prueba involucra una sola tarea (como solo traducción o solo resumen). Sin embargo, las aplicaciones prácticas frecuentemente requieren procesamiento multitarea composicional, es decir, ejecutar múltiples tareas simultáneamente en una única inferencia, como generar resúmenes traducidos, generar respuestas con tonos específicos, etc.

Análisis de Importancia

  1. Valor Práctico: El procesamiento multitarea composicional tiene una demanda generalizada en escenarios reales, como respuestas inteligentes en contextos multilingües, generación de resúmenes con tonos específicos, etc.
  2. Requisitos de Eficiencia: Los LLMs en dispositivo tienen recursos limitados, requiriendo completar múltiples tareas en una única inferencia, evitando pérdidas de eficiencia de múltiples inferencias
  3. Restricciones de Almacenamiento: Los dispositivos móviles tienen almacenamiento limitado, no pudiendo entrenar adaptadores independientes para cada tarea composicional

Limitaciones de Métodos Existentes

  1. Estrategias de Fusión Tradicionales: Métodos como TIES, DARE tienen mal rendimiento en escenarios de multitarea composicional
  2. Soluciones Multietapa: Aunque efectivas, requieren múltiples inferencias, siendo ineficientes
  3. Entrenamiento Independiente: Entrenar adaptadores especializados para cada tarea composicional incurre en grandes gastos de almacenamiento

Contribuciones Principales

  1. Primera Propuesta del Problema de Multitarea Composicional: Define el desafío de procesamiento multitarea composicional para LLMs en dispositivo
  2. Construcción de Conjunto de Datos de Referencia Práctico: Desarrolla un conjunto de datos integral que contiene 14 subtareas, cubriendo cuatro categorías principales: resumen + traducción, resumen + ajuste de tono, respuesta + traducción, respuesta + ajuste de tono
  3. Propuesta del Método de Calibración Aprendible: Diseña dos variantes de soluciones eficientes, minimizando gastos de almacenamiento y computación mientras se mantiene alto rendimiento
  4. Verificación Experimental Integral: Verifica la efectividad y generalidad del método en múltiples LLMs en dispositivo

Explicación Detallada del Método

Definición de Tareas

La multitarea composicional se define como: TC[N](x)=TN(T2(T1(x)))T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))

donde la entrada xx se procesa secuencialmente a través de NN tareas, siendo este artículo principalmente enfocado en el caso N=2N=2, incluyendo:

  • Tarea Principal T1T_1: Generación de resumen o respuesta
  • Tarea Auxiliar T2T_2: Traducción o ajuste de tono

Arquitectura del Modelo

Base de LoRA

Basado en el mecanismo adaptador LoRA, la propagación hacia adelante ajustada es: h=W0x+ΔWx=W0x+BAxh = W_0x + \Delta Wx = W_0x + BAx

donde BRd×rB \in \mathbb{R}^{d \times r}, ARr×kA \in \mathbb{R}^{r \times k}, rmin(d,k)r \ll \min(d,k).

Método de Calibración Aprendible

Idea Central: Comenzando con LoRAs de tarea única fusionadas linealmente, calibrar a través de parámetros adicionales mínimos.

Fusión Inicial: B=1Ni=1NBi,A=1Ni=1NAiB' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i

Variante 1 - Calibración Aprendible: Usar vector de sesgo de columna pRdp \in \mathbb{R}^d para calibración: ΔWc=pBA=i=1dpiΔWi\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i

Variante 2 - Calibración Aprendible++: Introducir matriz LoRA de calibración P2P1P_2P_1: ΔWc=P2P1+ΔW\Delta W^c = P_2P_1 + \Delta W'

Puntos de Innovación Técnica

  1. Calibración Ligera: Requiere solo 0.08-0.56% de parámetros adicionales, con gastos de almacenamiento menores a 0.5MB
  2. Especificidad de Tarea: Aprender parámetros de calibración especializados para diferentes tareas composicionales
  3. Compatibilidad Fuerte: Compatible con marcos existentes (Android AI Core, Apple Intelligence)
  4. Compartición de Parámetros: Soporta compartición de parámetros entre tareas para reducir aún más requisitos de almacenamiento

Configuración Experimental

Conjuntos de Datos

Construcción del Conjunto de Datos de Referencia:

  • Tarea de Resumen: Conjunto de datos DialogSum (12,460/500/1,500 entrenamiento/validación/prueba)
  • Tarea de Respuesta: Conjunto de datos Synthetic Persona Chat (225,061/1,000/1,000)
  • Tarea de Traducción: Conjunto de datos TED Talks, inglés a español/francés/alemán
  • Ajuste de Tono: Conjunto de datos Sound Natural, cuatro tonos (profesional/casual/humorístico/narrativo)

Generación de Tareas Composicionales:

  • Usar modelo OpusMT para traducción
  • Usar modelo RedPajama-INCITE-Base 3B para ajuste de tono

Métricas de Evaluación

  • Tareas de Resumen: ROUGE-L (R-L)
  • Tareas de Respuesta: ROUGE Ponderado (W-R) = ROUGE-16+ROUGE-23+ROUGE-32\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}
  • Juez LLM: Usar Llama 3.1 70B para evaluación binaria

Métodos de Comparación

Métodos Base:

  • Zero-shot, LoRA de tarea principal, LoRA de tarea auxiliar
  • Aprendizaje en contexto, uso de LoRA multietapa
  • Varias estrategias de fusión: Linear, TIES, DARE, Slerp, LoraHub, etc.

Métodos de Referencia:

  • Uso de LoRA multietapa (ineficiente pero de alto rendimiento)
  • LoRA de expertos conjuntos (entrenado especialmente para cada tarea composicional)

Detalles de Implementación

  • Modelos: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
  • Configuración LoRA: rank=32, α=16, dropout=0.05
  • Entrenamiento: Optimizador Adam, tasa de aprendizaje 5×10⁻⁵ (LoRA), 5×10⁻⁴ (parámetros de calibración)
  • Entrenamiento de Calibración: Seleccionar aleatoriamente 10,000 muestras de tareas composicionales

Resultados Experimentales

Resultados Principales

Categoría de MétodoRes.+Trad.Res.+TonoResp.+Trad.Resp.+TonoEficiencia
Líneas Base Eficientes
Zero-shot0.44%6.52%4.11%33.66%
LoRA de Tarea Principal3.49%4.18%7.17%36.25%
Fusión Lineal0.33%2.74%12.81%41.93%
Fusión TIES0.81%6.06%8.30%47.87%
Líneas Base Ineficientes
LoRA Multietapa72.92%34.32%69.83%45.78%
LoRA de Expertos Conjuntos49.85%16.14%65.73%47.06%
Método Propuesto
Calibración Aprendible59.23%28.89%57.46%44.99%
Calibración Aprendible++65.15%34.34%63.81%45.40%

Los valores en la tabla son puntuaciones del Juez LLM (%)

Hallazgos Clave

  1. Fracaso de Estrategias de Fusión Tradicionales: Los métodos de fusión existentes tienen rendimiento extremadamente pobre en escenarios de multitarea composicional (puntuaciones del Juez LLM típicamente <10%)
  2. Compensación Eficiencia-Rendimiento: El método propuesto logra rendimiento cercano o incluso superior a líneas base ineficientes bajo la restricción de inferencia única
  3. Rendimiento Consistente: Calibración Aprendible++ logra el mejor rendimiento en todas las tareas

Experimentos de Ablación

Análisis de Eficiencia de Almacenamiento:

  • LoRA Multietapa: 0 parámetros adicionales, pero requiere 2 inferencias
  • LoRA de Expertos Conjuntos: 30M parámetros, 57.10MB de almacenamiento
  • Calibración Aprendible: 23K parámetros, 0.05MB de almacenamiento
  • Calibración Aprendible++: 166K parámetros, 0.32MB de almacenamiento

Rol de Adaptadores Preentrenados: Después de remover LoRAs preentrenadas, el rendimiento disminuye ligeramente pero sigue siendo superior a la mayoría de líneas base, probando el valor de aprovechar adaptadores existentes.

Análisis Extendido

  1. Adaptabilidad de Escala de Modelo: Rendimiento consistente en modelos de 0.5B-3B parámetros
  2. Generalización Fuera de Dominio: Mantiene rendimiento estable en diferentes conjuntos de datos de conversación
  3. Extensión de Tres Tareas: Soporta tareas composicionales de tres vías de resumen + tono + traducción

Trabajo Relacionado

Ajuste Fino Eficiente en Parámetros (PEFT)

  • LoRA y Variantes: Métodos de extensión como DoRA, AdaLoRA, Delta-LoRA
  • Otros Métodos PEFT: Métodos de entrenamiento de parámetros de sesgo como BitFit

Fusión de Modelos

  • Trabajos Tempranos: Métodos de fusión lineal como Model Soup
  • Técnicas Avanzadas: Estrategias de resolución de conflictos como TIES, DARE, Slerp
  • Métodos Adaptativos: Fusión de aprendizaje como LoraHub, LM-Cocktail, DAM

LLMs en Dispositivo

  • Técnicas de Compresión: Cuantización de modelos, destilación de conocimiento, etc.
  • Modelos Representativos: LLaMA 3.2, Qwen2.5, StableLM2 y otros modelos de 1-3B parámetros
  • Desafíos de Despliegue: Limitaciones de almacenamiento, restricciones computacionales, requisitos de privacidad

Conclusiones y Discusión

Conclusiones Principales

  1. Importancia del Problema: La multitarea composicional es una necesidad importante para LLMs en dispositivo, siendo imposible de resolver efectivamente con métodos tradicionales
  2. Efectividad del Método: Calibración Aprendible logra rendimiento comparable a líneas base ineficientes mientras mantiene eficiencia
  3. Valor Práctico: Gastos de almacenamiento extremadamente pequeños (<0.5MB) hacen que el método sea adecuado para despliegue real

Limitaciones

  1. Alcance de Evaluación: Se enfoca principalmente en modelos en dispositivo de 1-3B parámetros, sin verificación en modelos más grandes
  2. Cantidad de Tareas: Se investiga principalmente la combinación de 2-3 tareas, siendo la escalabilidad a más tareas un tema pendiente
  3. Dependencia de Datos: Requiere datos de tareas composicionales para entrenar parámetros de calibración, siendo menos flexible que métodos de fusión completamente sin datos

Direcciones Futuras

  1. Investigación de Seguridad: Explorar el impacto de multitarea composicional en mecanismos de seguridad del modelo
  2. Optimización de Escalabilidad: Investigar métodos para manejar combinaciones de más tareas
  3. Fusión Sin Muestras: Desarrollar métodos de multitarea composicional sin requerir datos adicionales

Evaluación Profunda

Fortalezas

  1. Innovación del Problema: Primera investigación sistemática del problema de multitarea composicional, llenando un vacío de investigación importante
  2. Practicidad del Método: Gastos de almacenamiento y computación extremadamente pequeños, adecuados para despliegue real
  3. Suficiencia Experimental: Comparaciones exhaustivas de líneas base, experimentos de ablación y análisis extendidos
  4. Contribución del Conjunto de Datos: El conjunto de datos de referencia de 14 subtareas proporciona una plataforma de evaluación estándar para investigación posterior

Insuficiencias

  1. Análisis Teórico Limitado: Falta explicación teórica profunda sobre por qué los parámetros de calibración son efectivos
  2. Limitaciones en Selección de Tareas: Se enfoca principalmente en tareas NLP, siendo desconocida la aplicabilidad en otras modalidades
  3. Métricas de Evaluación Únicas: Se depende principalmente de ROUGE y Juez LLM, careciendo de evaluación humana

Impacto

  1. Valor Académico: Abre una nueva dirección de investigación, esperándose trabajos posteriores
  2. Aplicación Industrial: Directamente aplicable al desarrollo de aplicaciones de IA en dispositivos móviles
  3. Reproducibilidad: Proporciona detalles de implementación detallados y datos de referencia

Escenarios Aplicables

  1. Aplicaciones Móviles: Teléfonos inteligentes, tabletas y otros dispositivos con recursos limitados
  2. Computación de Borde: Dispositivos IoT, sistemas embebidos
  3. Escenarios Sensibles a Privacidad: Aplicaciones que requieren procesamiento local evitando carga de datos

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

  • Hu et al. (2022): Artículo original de LoRA
  • Wortsman et al. (2022): Método de fusión de modelos Model Soup
  • Yadav et al. (2024): Estrategia de fusión TIES
  • Gunter et al. (2024): Experiencia de despliegue en dispositivo de Apple Intelligence

Evaluación General: Este es un artículo de investigación de alta calidad que resuelve un problema prácticamente importante, propone una solución efectiva y realiza verificación experimental suficiente. Este trabajo proporciona nuevas perspectivas para el procesamiento multitarea de LLMs en dispositivo, teniendo importante valor académico y práctico.