2025-11-20T14:40:15.388685

Efficient Compositional Multi-tasking for On-device Large Language Models

Bohdal, Ozay, Moon et al.

Adapter parameters provide a mechanism to modify the behavior of machine learning models and have gained significant popularity in the context of large language models (LLMs) and generative AI. These parameters can be merged to support multiple tasks via a process known as task merging. However, prior work on merging in LLMs, particularly in natural language processing, has been limited to scenarios where each test example addresses only a single task. In this paper, we focus on on-device settings and study the problem of text-based compositional multi-tasking, where each test example involves the simultaneous execution of multiple tasks. For instance, generating a translated summary of a long text requires solving both translation and summarization tasks concurrently. To facilitate research in this setting, we propose a benchmark comprising four practically relevant compositional tasks. We also present an efficient method (Learnable Calibration) tailored for on-device applications, where computational resources are limited, emphasizing the need for solutions that are both resource-efficient and high-performing. Our contributions lay the groundwork for advancing the capabilities of LLMs in real-world multi-tasking scenarios, expanding their applicability to complex, resource-constrained use cases.

academic

Multitarea Composicional Eficiente para Modelos de Lenguaje Grande en Dispositivo

Información Básica

ID del Artículo: 2507.16083
Título: Efficient Compositional Multi-tasking for On-device Large Language Models
Autores: Ondrej Bohdal¹, Mete Ozay¹, Jijoong Moon², Kyeng-Hun Lee², Hyeonmok Ko², Umberto Michieli¹
Instituciones: ¹Samsung R&D Institute UK, ²Samsung Research, South Korea
Clasificación: cs.CL cs.AI cs.LG
Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2507.16083

Resumen

Los parámetros adaptadores proporcionan un mecanismo para modificar el comportamiento de los modelos de aprendizaje automático, habiendo ganado amplia atención en el campo de los modelos de lenguaje grande (LLMs) e IA generativa. Estos parámetros pueden respaldar el procesamiento multitarea a través de procesos de fusión de tareas. Sin embargo, trabajos previos sobre fusión en LLMs, particularmente en el procesamiento del lenguaje natural, se han limitado a escenarios donde cada muestra de prueba procesa una única tarea. Este artículo se enfoca en configuraciones en dispositivo, investigando problemas de multitarea composicional basados en texto, donde cada muestra de prueba requiere ejecutar múltiples tareas simultáneamente. Por ejemplo, generar un resumen traducido de un texto largo requiere resolver simultáneamente las tareas de traducción y resumen. Para promover la investigación en este campo, proponemos un conjunto de datos de referencia que contiene cuatro tareas composicionales prácticas. También proponemos un método eficiente para aplicaciones en dispositivo (Calibración Aprendible), enfatizando la necesidad de soluciones que sean tanto eficientes en recursos como de alto rendimiento en entornos con recursos computacionales limitados.

Antecedentes de Investigación y Motivación

Definición del Problema

El procesamiento multitarea tradicional de LLMs se enfoca principalmente en escenarios de una única tarea, es decir, donde cada muestra de prueba involucra una sola tarea (como solo traducción o solo resumen). Sin embargo, las aplicaciones prácticas frecuentemente requieren procesamiento multitarea composicional, es decir, ejecutar múltiples tareas simultáneamente en una única inferencia, como generar resúmenes traducidos, generar respuestas con tonos específicos, etc.

Análisis de Importancia

Valor Práctico: El procesamiento multitarea composicional tiene una demanda generalizada en escenarios reales, como respuestas inteligentes en contextos multilingües, generación de resúmenes con tonos específicos, etc.
Requisitos de Eficiencia: Los LLMs en dispositivo tienen recursos limitados, requiriendo completar múltiples tareas en una única inferencia, evitando pérdidas de eficiencia de múltiples inferencias
Restricciones de Almacenamiento: Los dispositivos móviles tienen almacenamiento limitado, no pudiendo entrenar adaptadores independientes para cada tarea composicional

Limitaciones de Métodos Existentes

Estrategias de Fusión Tradicionales: Métodos como TIES, DARE tienen mal rendimiento en escenarios de multitarea composicional
Soluciones Multietapa: Aunque efectivas, requieren múltiples inferencias, siendo ineficientes
Entrenamiento Independiente: Entrenar adaptadores especializados para cada tarea composicional incurre en grandes gastos de almacenamiento

Contribuciones Principales

Primera Propuesta del Problema de Multitarea Composicional: Define el desafío de procesamiento multitarea composicional para LLMs en dispositivo
Construcción de Conjunto de Datos de Referencia Práctico: Desarrolla un conjunto de datos integral que contiene 14 subtareas, cubriendo cuatro categorías principales: resumen + traducción, resumen + ajuste de tono, respuesta + traducción, respuesta + ajuste de tono
Propuesta del Método de Calibración Aprendible: Diseña dos variantes de soluciones eficientes, minimizando gastos de almacenamiento y computación mientras se mantiene alto rendimiento
Verificación Experimental Integral: Verifica la efectividad y generalidad del método en múltiples LLMs en dispositivo

Explicación Detallada del Método

Definición de Tareas

La multitarea composicional se define como: $T_C^{[N]}(x) = T_N(\ldots T_2(T_1(x)))$

donde la entrada $x$ se procesa secuencialmente a través de $N$ tareas, siendo este artículo principalmente enfocado en el caso $N=2$ , incluyendo:

Tarea Principal $T_1$ : Generación de resumen o respuesta
Tarea Auxiliar $T_2$ : Traducción o ajuste de tono

Arquitectura del Modelo

Base de LoRA

Basado en el mecanismo adaptador LoRA, la propagación hacia adelante ajustada es: $h = W_0x + \Delta Wx = W_0x + BAx$

donde $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , $r \ll \min(d,k)$ .

Método de Calibración Aprendible

Idea Central: Comenzando con LoRAs de tarea única fusionadas linealmente, calibrar a través de parámetros adicionales mínimos.

Fusión Inicial: $B' = \frac{1}{N}\sum_{i=1}^N B_i, \quad A' = \frac{1}{N}\sum_{i=1}^N A_i$

Variante 1 - Calibración Aprendible: Usar vector de sesgo de columna $p \in \mathbb{R}^d$ para calibración: $\Delta W^c = p \oplus B'A' = \sum_{i=1}^d p_i \Delta W'_i$

Variante 2 - Calibración Aprendible++: Introducir matriz LoRA de calibración $P_2P_1$ : $\Delta W^c = P_2P_1 + \Delta W'$

Puntos de Innovación Técnica

Calibración Ligera: Requiere solo 0.08-0.56% de parámetros adicionales, con gastos de almacenamiento menores a 0.5MB
Especificidad de Tarea: Aprender parámetros de calibración especializados para diferentes tareas composicionales
Compatibilidad Fuerte: Compatible con marcos existentes (Android AI Core, Apple Intelligence)
Compartición de Parámetros: Soporta compartición de parámetros entre tareas para reducir aún más requisitos de almacenamiento

Configuración Experimental

Conjuntos de Datos

Construcción del Conjunto de Datos de Referencia:

Tarea de Resumen: Conjunto de datos DialogSum (12,460/500/1,500 entrenamiento/validación/prueba)
Tarea de Respuesta: Conjunto de datos Synthetic Persona Chat (225,061/1,000/1,000)
Tarea de Traducción: Conjunto de datos TED Talks, inglés a español/francés/alemán
Ajuste de Tono: Conjunto de datos Sound Natural, cuatro tonos (profesional/casual/humorístico/narrativo)

Generación de Tareas Composicionales:

Usar modelo OpusMT para traducción
Usar modelo RedPajama-INCITE-Base 3B para ajuste de tono

Métricas de Evaluación

Tareas de Resumen: ROUGE-L (R-L)
Tareas de Respuesta: ROUGE Ponderado (W-R) = $\frac{\text{ROUGE-1}}{6} + \frac{\text{ROUGE-2}}{3} + \frac{\text{ROUGE-3}}{2}$
Juez LLM: Usar Llama 3.1 70B para evaluación binaria

Métodos de Comparación

Métodos Base:

Zero-shot, LoRA de tarea principal, LoRA de tarea auxiliar
Aprendizaje en contexto, uso de LoRA multietapa
Varias estrategias de fusión: Linear, TIES, DARE, Slerp, LoraHub, etc.

Métodos de Referencia:

Uso de LoRA multietapa (ineficiente pero de alto rendimiento)
LoRA de expertos conjuntos (entrenado especialmente para cada tarea composicional)

Detalles de Implementación

Modelos: LLaMA 3.2 1B, Qwen2.5 1.5B, StableLM2 1.6B
Configuración LoRA: rank=32, α=16, dropout=0.05
Entrenamiento: Optimizador Adam, tasa de aprendizaje 5×10⁻⁵ (LoRA), 5×10⁻⁴ (parámetros de calibración)
Entrenamiento de Calibración: Seleccionar aleatoriamente 10,000 muestras de tareas composicionales

Resultados Experimentales

Resultados Principales

Categoría de Método	Res.+Trad.	Res.+Tono	Resp.+Trad.	Resp.+Tono	Eficiencia
Líneas Base Eficientes
Zero-shot	0.44%	6.52%	4.11%	33.66%	✓
LoRA de Tarea Principal	3.49%	4.18%	7.17%	36.25%	✓
Fusión Lineal	0.33%	2.74%	12.81%	41.93%	✓
Fusión TIES	0.81%	6.06%	8.30%	47.87%	✓
Líneas Base Ineficientes
LoRA Multietapa	72.92%	34.32%	69.83%	45.78%	✗
LoRA de Expertos Conjuntos	49.85%	16.14%	65.73%	47.06%	✗
Método Propuesto
Calibración Aprendible	59.23%	28.89%	57.46%	44.99%	✓
Calibración Aprendible++	65.15%	34.34%	63.81%	45.40%	✓

Los valores en la tabla son puntuaciones del Juez LLM (%)

Hallazgos Clave

Fracaso de Estrategias de Fusión Tradicionales: Los métodos de fusión existentes tienen rendimiento extremadamente pobre en escenarios de multitarea composicional (puntuaciones del Juez LLM típicamente <10%)
Compensación Eficiencia-Rendimiento: El método propuesto logra rendimiento cercano o incluso superior a líneas base ineficientes bajo la restricción de inferencia única
Rendimiento Consistente: Calibración Aprendible++ logra el mejor rendimiento en todas las tareas

Experimentos de Ablación

Análisis de Eficiencia de Almacenamiento:

LoRA Multietapa: 0 parámetros adicionales, pero requiere 2 inferencias
LoRA de Expertos Conjuntos: 30M parámetros, 57.10MB de almacenamiento
Calibración Aprendible: 23K parámetros, 0.05MB de almacenamiento
Calibración Aprendible++: 166K parámetros, 0.32MB de almacenamiento

Rol de Adaptadores Preentrenados: Después de remover LoRAs preentrenadas, el rendimiento disminuye ligeramente pero sigue siendo superior a la mayoría de líneas base, probando el valor de aprovechar adaptadores existentes.

Análisis Extendido

Adaptabilidad de Escala de Modelo: Rendimiento consistente en modelos de 0.5B-3B parámetros
Generalización Fuera de Dominio: Mantiene rendimiento estable en diferentes conjuntos de datos de conversación
Extensión de Tres Tareas: Soporta tareas composicionales de tres vías de resumen + tono + traducción

Trabajo Relacionado

Ajuste Fino Eficiente en Parámetros (PEFT)

LoRA y Variantes: Métodos de extensión como DoRA, AdaLoRA, Delta-LoRA
Otros Métodos PEFT: Métodos de entrenamiento de parámetros de sesgo como BitFit

Fusión de Modelos

Trabajos Tempranos: Métodos de fusión lineal como Model Soup
Técnicas Avanzadas: Estrategias de resolución de conflictos como TIES, DARE, Slerp
Métodos Adaptativos: Fusión de aprendizaje como LoraHub, LM-Cocktail, DAM

LLMs en Dispositivo

Técnicas de Compresión: Cuantización de modelos, destilación de conocimiento, etc.
Modelos Representativos: LLaMA 3.2, Qwen2.5, StableLM2 y otros modelos de 1-3B parámetros
Desafíos de Despliegue: Limitaciones de almacenamiento, restricciones computacionales, requisitos de privacidad

Conclusiones y Discusión

Conclusiones Principales

Importancia del Problema: La multitarea composicional es una necesidad importante para LLMs en dispositivo, siendo imposible de resolver efectivamente con métodos tradicionales
Efectividad del Método: Calibración Aprendible logra rendimiento comparable a líneas base ineficientes mientras mantiene eficiencia
Valor Práctico: Gastos de almacenamiento extremadamente pequeños (<0.5MB) hacen que el método sea adecuado para despliegue real

Limitaciones

Alcance de Evaluación: Se enfoca principalmente en modelos en dispositivo de 1-3B parámetros, sin verificación en modelos más grandes
Cantidad de Tareas: Se investiga principalmente la combinación de 2-3 tareas, siendo la escalabilidad a más tareas un tema pendiente
Dependencia de Datos: Requiere datos de tareas composicionales para entrenar parámetros de calibración, siendo menos flexible que métodos de fusión completamente sin datos

Direcciones Futuras

Investigación de Seguridad: Explorar el impacto de multitarea composicional en mecanismos de seguridad del modelo
Optimización de Escalabilidad: Investigar métodos para manejar combinaciones de más tareas
Fusión Sin Muestras: Desarrollar métodos de multitarea composicional sin requerir datos adicionales

Evaluación Profunda

Fortalezas

Innovación del Problema: Primera investigación sistemática del problema de multitarea composicional, llenando un vacío de investigación importante
Practicidad del Método: Gastos de almacenamiento y computación extremadamente pequeños, adecuados para despliegue real
Suficiencia Experimental: Comparaciones exhaustivas de líneas base, experimentos de ablación y análisis extendidos
Contribución del Conjunto de Datos: El conjunto de datos de referencia de 14 subtareas proporciona una plataforma de evaluación estándar para investigación posterior

Insuficiencias

Análisis Teórico Limitado: Falta explicación teórica profunda sobre por qué los parámetros de calibración son efectivos
Limitaciones en Selección de Tareas: Se enfoca principalmente en tareas NLP, siendo desconocida la aplicabilidad en otras modalidades
Métricas de Evaluación Únicas: Se depende principalmente de ROUGE y Juez LLM, careciendo de evaluación humana

Impacto

Valor Académico: Abre una nueva dirección de investigación, esperándose trabajos posteriores
Aplicación Industrial: Directamente aplicable al desarrollo de aplicaciones de IA en dispositivos móviles
Reproducibilidad: Proporciona detalles de implementación detallados y datos de referencia

Escenarios Aplicables

Aplicaciones Móviles: Teléfonos inteligentes, tabletas y otros dispositivos con recursos limitados
Computación de Borde: Dispositivos IoT, sistemas embebidos
Escenarios Sensibles a Privacidad: Aplicaciones que requieren procesamiento local evitando carga de datos

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

Hu et al. (2022): Artículo original de LoRA
Wortsman et al. (2022): Método de fusión de modelos Model Soup
Yadav et al. (2024): Estrategia de fusión TIES
Gunter et al. (2024): Experiencia de despliegue en dispositivo de Apple Intelligence

Evaluación General: Este es un artículo de investigación de alta calidad que resuelve un problema prácticamente importante, propone una solución efectiva y realiza verificación experimental suficiente. Este trabajo proporciona nuevas perspectivas para el procesamiento multitarea de LLMs en dispositivo, teniendo importante valor académico y práctico.