Low-Rank Adaptation (LoRA) has emerged as a parameter-efficient approach for fine-tuning large language models.However, conventional LoRA adapters are typically trained for a single task, limiting their applicability in real-world settings where inputs may span diverse and unpredictable domains. At inference time, existing approaches combine multiple LoRAs for improving performance on diverse tasks, while usually requiring labeled data or additional task-specific training, which is expensive at scale. In this work, we introduce LoRA on the Go (LoGo), a training-free framework that dynamically selects and merges adapters at the instance level without any additional requirements. LoGo leverages signals extracted from a single forward pass through LoRA adapters, to identify the most relevant adapters and determine their contributions on-the-fly. Across 5 NLP benchmarks, 27 datasets, and 3 model families, LoGo outperforms training-based baselines on some tasks upto a margin of 3.6% while remaining competitive on other tasks and maintaining inference throughput, highlighting its effectiveness and practicality.
- ID del Artículo: 2511.07129
- Título: LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging
- Autores: Seungeon Lee (MPI-SWS), Soumi Das (MPI-SWS), Manish Gupta (Microsoft, Hyderabad), Krishna P. Gummadi (MPI-SWS)
- Clasificación: cs.CL, cs.AI, cs.LG
- Fecha de Publicación: arXiv preprint, 20 de noviembre de 2025 (v2)
- Enlace del Artículo: https://arxiv.org/abs/2511.07129v2
La Adaptación de Bajo Rango (LoRA) se ha adoptado ampliamente como método de ajuste fino eficiente en parámetros para grandes modelos de lenguaje. Sin embargo, los adaptadores LoRA tradicionales generalmente se entrenan solo para una única tarea, lo que limita su aplicabilidad en escenarios reales donde las entradas abarcan dominios diversos e impredecibles. En tiempo de inferencia, los métodos existentes mejoran el rendimiento en tareas diversas combinando múltiples LoRAs, pero generalmente requieren datos anotados o entrenamiento adicional específico de la tarea, lo que resulta costoso en aplicaciones a gran escala. Este artículo propone LoRA on the Go (LoGo), un marco sin entrenamiento que puede seleccionar y fusionar dinámicamente adaptadores a nivel de instancia sin requisitos adicionales. LoGo aprovecha señales extraídas mediante una única propagación hacia adelante a través de adaptadores LoRA para identificar dinámicamente los adaptadores más relevantes y determinar sus contribuciones. En 5 puntos de referencia de PNL, 27 conjuntos de datos y 3 familias de modelos, LoGo supera a los métodos de línea base basados en entrenamiento en un 3.6% en algunas tareas, mientras mantiene competitividad en otras tareas y preserva el rendimiento de inferencia, destacando su efectividad y practicidad.
- Limitaciones de LoRA de una sola tarea: Aunque LoRA proporciona un mecanismo eficiente de adaptación de modelos, los adaptadores generalmente se optimizan para un único dominio o tarea. En aplicaciones reales, los sistemas necesitan generalizar a tareas no vistas o requieren especialización en múltiples dominios.
- Dependencia de métodos multi-LoRA existentes:
- LoRAHub: Utiliza un conjunto de anotaciones pequeño para aprender pesos de combinación fijos
- LoRARetriever: Entrena un modelo de recuperación pero aún depende de muestras anotadas para calcular incrustaciones de recuperación
- MoA/MoLE: Requiere entrenar enrutadores o aprender pesos de fusión
- Desafíos en escenarios reales:
- En sistemas de conversación general (como asistentes de IA), las consultas de usuarios son altamente heterogéneas, pudiendo abarcar tareas no relacionadas (resumen, razonamiento, traducción, programación)
- El conjunto de LoRA evoluciona dinámicamente, con nuevos adaptadores siendo introducidos o descartados constantemente
- La recopilación de datos anotados y el reentrenamiento específico de tareas son costosos e impracticables
- Las consultas de usuarios pueden contener información sensible de privacidad
¿Cómo seleccionar dinámicamente LoRAs apropiadas para cada entrada en un conjunto de LoRA dinámicamente evolutivo y un entorno de tareas heterogéneas, sin requerir datos anotados o reentrenamiento?
La idea central de este artículo es: Las activaciones de LoRA en sí mismas ya codifican señales de relevancia. Cuando una LoRA es apropiada para una entrada, su actualización ejerce un impacto más fuerte en la salida del modelo (por ejemplo, el razonamiento WNLI se beneficia de LoRAs entrenadas en SNLI y MNLI).
- Identificación de limitaciones de métodos existentes: Señala explícitamente que los métodos multi-LoRA existentes dependen de datos anotados y entrenamiento adicional, haciéndolos costosos en despliegue real
- Propuesta del marco LoGo: Un marco sin entrenamiento específico de instancia que selecciona y fusiona dinámicamente LoRAs a través de señales de activación extraídas mediante una única propagación hacia adelante
- Validación experimental exhaustiva: Evaluación en 5 puntos de referencia estándar (BBH, traducción, generación de texto estructurado, preguntas cerradas, inferencia de lenguaje natural), 27 conjuntos de datos y 3 familias de modelos (LLaMA-3.1-8B, Qwen-2.5-7B, DeepSeek-LLM-7B-Base)
- Doble optimización de rendimiento y eficiencia: No solo supera a los métodos de línea base basados en entrenamiento en rendimiento (mejora del 3.6% en algunas tareas), sino que también mantiene rendimiento de inferencia comparable
- Compromiso de código abierto: Promete publicar código y 260 adaptadores LoRA entrenados en todos los modelos preentrenados
Dado:
- Modelo preentrenado fθ
- Conjunto de N adaptadores LoRA L={Li}i=1N, cada uno ajustado en una tarea diferente Ti
- Secuencia de entrada x=(x1,...,xP)
Objetivo:
- Seleccionar y fusionar dinámicamente adaptadores relevantes
- Generar secuencia de salida y=(yP+1,...,yP+t)
El flujo de trabajo de LoGo se divide en dos fases principales:
Extracción de Señal:
- Adjuntar todos los adaptadores al modelo base, realizar una única propagación hacia adelante
- Extraer salidas proyectadas del bloque Transformer objetivo BT
- Para cada adaptador Li en la matriz de proyección de consulta WT(Q):
oi,T=ΔWi,T(Q)hT
donde ΔWi,T(Q)=αi,TAi,TBi,T es la actualización de bajo rango.
Puntuación de Señal:
Calcular puntuación de señal escalar si de dos formas:
- Método de Norma:
si=∥oi,T∥2
- Método de Entropía:
pi(j)=∑kexp(oi,T(k))exp(oi,T(j))si=(−∑jpi(j)logpi(j))−1
Interpretación Intuitiva:
- Una norma de proyección más grande indica activación más fuerte e impacto mayor
- Una entropía más baja significa respuesta más confiada y enfocada
- Tomar la inversa de la entropía hace que los adaptadores de baja entropía (alta confianza) obtengan mayor peso
Selección Top-K:
S=TopK({(Li,si)}i=1N,k)
Seleccionar los k adaptadores con puntuaciones más altas como conjunto de candidatos.
Normalización de Pesos:
w~i=∑j∈Ssjsi,i∈S
Fusión a Nivel de Salida (Mixture):
omerge=∑i∈Sw~i⋅oi,T
Ventajas de Implementación:
- Combinar directamente a nivel de salida, evitando operaciones a nivel de parámetros
- No requiere recalcular y readjuntar matrices de pesos fusionados
- Puede implementarse eficientemente ajustando factores de escala de adaptadores seleccionados
- Diseño sin entrenamiento:
- Evita completamente el entrenamiento específico de tareas o dependencia de datos anotados
- Utiliza las activaciones del adaptador en sí como indicador de relevancia
- Adaptación a nivel de instancia:
- Selecciona y fusiona dinámicamente adaptadores para cada entrada
- No asume homogeneidad de tareas ni límites de tareas predefinidos
- Selección impulsada por señales:
- Extrae señales ligeras mediante una única propagación hacia adelante
- La norma y entropía capturan diferentes dimensiones de relevancia
- Estrategia de fusión eficiente:
- Adopta fusión a nivel de salida en lugar de fusión a nivel de parámetros
- Amortiza el costo de selección en tareas de salida larga
- Adaptación a conjunto dinámico:
- Integra sin problemas nuevas LoRAs agregadas
- No requiere reentrenamiento o recálculo de incrustaciones
Entrenamiento de LoRA:
- Entrenar adaptadores LoRA utilizando 260 tareas Flan-v2
- Cada conjunto de datos dividido en 8:1:1 para conjuntos de entrenamiento/validación/prueba
- Abarca 7 categorías principales: preguntas y respuestas, inferencia de lenguaje natural, clasificación/análisis de sentimientos, razonamiento de sentido común, resumen, datos a texto, traducción
Puntos de Referencia de Evaluación (5 puntos de referencia, 27 conjuntos de datos):
- BIG-Bench Hard (BBH):
- Boolean Expressions, Causal Judgement, Formal Fallacies, Navigate, Object Counting, Sports Understanding, Web of Lies, Word Sorting
- Traducción Automática:
- WMT'14: FR↔EN
- WMT'16: DE↔EN, RO↔EN
- Generación de Texto Estructurado (GEM):
- CommonGen, DART, E2ENLG, WebNLG
- Preguntas Cerradas:
- ARC-c, ARC-e, Natural Questions, TriviaQA
- Inferencia de Lenguaje Natural:
- ANLI-R1, ANLI-R2, ANLI-R3, QNLI
Escenarios de Conjuntos de Datos Mixtos:
- CodeXGLUE: 5 tareas de programación (refinamiento de código, traducción de código, código a texto)
- Utilizado para evaluar capacidad de generalización a dominios no vistos
- Tareas de traducción: BLEU
- Generación de texto estructurado: ROUGE-1, ROUGE-2, ROUGE-L
- Otras tareas: Exact Match (EM)
- Base: Modelo preentrenado base sin LoRA
- LoRAHub: Aprende pesos de combinación fijos, requiere conjunto de anotaciones pequeño
- LoRARetriever:
- Entrena modelo de lenguaje auxiliar para recuperación
- Reporta dos formas de fusión: Mixture y Fusion
- Variantes de LoGo:
- LoGo (Norm): Utiliza norma como señal
- LoGo (Entropy): Utiliza entropía como señal
Entrenamiento de LoRA:
- Tamaño de lote por dispositivo: 4
- Acumulación de gradientes: 16 (tamaño de lote efectivo 64)
- Tasa de aprendizaje: 2×10⁻⁴
- Épocas de entrenamiento: 20
- Seleccionar mejor punto de control según pérdida de validación
Configuración de LoGo:
- Número de LoRAs seleccionadas: k=20
- Bloque objetivo: último bloque Transformer
- Posición de extracción de señal: último token de la secuencia de entrada
- Implementación basada en: PyTorch, HuggingFace, biblioteca PEFT (clase PeftMixedModel)
Hardware:
- GPU NVIDIA H100 individual (pruebas de tiempo de inferencia)
- GPU NVIDIA H200 (análisis de generación de texto largo)
Hallazgos Centrales Mostrados en Tabla 1:
- LLaMA-3.1-8B:
- Promedio BBH: LoGo (Entropy) 40.0% vs LoRARetriever 40.4% (competitivo)
- Promedio Traducción: LoGo (Entropy) 26.0% vs LoRARetriever 25.9% (ligeramente superior)
- Promedio Texto Estructurado: LoGo (Entropy) 50.7% vs LoRARetriever 47.6% (mejora +3.1%)
- Promedio Preguntas Cerradas: LoGo (Entropy) 44.3% vs LoRARetriever 43.7% (ligeramente superior)
- Promedio NLI: LoGo (Entropy) 37.2% vs LoRARetriever 32.6% (mejora +4.6%)
- Qwen-2.5-7B:
- Promedio BBH: LoGo (Norm) 53.3% vs LoRARetriever 53.6% (competitivo)
- Promedio Traducción: LoGo (Norm) 25.9% vs LoRARetriever 26.0% (equivalente)
- Promedio Texto Estructurado: LoGo (Entropy) 53.0% vs LoRARetriever 53.1% (competitivo)
- Promedio Preguntas Cerradas: LoGo (Norm) 50.7% vs LoRARetriever 50.7% (equivalente)
- Promedio NLI: LoGo (Entropy) 63.8% vs LoRARetriever 63.7% (ligeramente superior)
- DeepSeek-LLM-7B-Base:
- Promedio Texto Estructurado: LoGo (Norm) 48.2% vs LoRARetriever 44.6% (mejora +3.6%)
- Rendimiento general más bajo, pero LoGo mantiene ventaja relativa
Observaciones Clave:
- LoGo logra rendimiento comparable o superior a líneas base que requieren entrenamiento sin necesidad de entrenamiento
- Desempeño particularmente destacado en tareas de generación de texto estructurado e inferencia de lenguaje natural
- Rendimiento consistente en diferentes familias de modelos, demostrando buena capacidad de generalización
Resultados en Tabla 2:
- Code Refinement: LoGo (Norm) 46.3 vs LoRARetriever (Fusion) 42.1
- Code Translation (Java→C#): LoGo (Norm) 11.2 vs LoRARetriever (Fusion) 6.3
- Promedio: LoGo (Norm) 14.4% vs mejor línea base 13.3%
Significado Importante:
- En dominio de programación completamente no visto, LoGo aún selecciona efectivamente adaptadores relevantes
- Demuestra capacidad de adaptación cross-dominio del mecanismo impulsado por señales
- No requiere reentrenamiento o recopilación de datos para nuevos dominios
Tabla 3: Tiempo de Inferencia (segundos/muestra):
- Modelo Base: 0.47s (más rápido, sin adaptadores)
- LoRAHub: 1.15s (inferencia) + 24.28s (costo de entrenamiento)
- LoRARetriever: ~2.03-2.19s
- LoGo: ~1.87-2.08s (comparable a LoRARetriever)
Hallazgos Clave:
- El tiempo de inferencia de LoGo es comparable al de LoRARetriever
- Pero LoRARetriever requiere mantener conjuntos de datos de tareas y entrenar modelos de incrustación auxiliares
- Aunque LoRAHub es ligeramente más rápido en inferencia, requiere 24 segundos de tiempo de entrenamiento por cada nueva tarea
Ventaja en Generación de Texto Largo (Figura 6):
- En conjunto de datos CNN-DailyMail, el tiempo de inferencia por token disminuye rápidamente con el aumento de tokens generados
- Se estabiliza después de aproximadamente 100 tokens
- El costo único de extracción de señal se amortiza en secuencias largas
Prueba tres ubicaciones de extracción de señal:
- First token: Primer token
- Average: Promedio de todos los tokens
- Last token (predeterminado): Último token
Resultado: Diferencias de rendimiento muy pequeñas, con último token ligeramente superior, indicando que LoGo es insensible a la selección de token.
Prueba k ∈ {3, 5, 10, 20}:
- El rendimiento mejora con aumento de k, pero ganancia moderada
- Incluso con k=3, se logra rendimiento cercano a k=20
- Demuestra robustez de LoGo, permitiendo operación eficiente con pocos módulos
Prueba capas 0, 7, 15, 23, 31:
- Cambios de rendimiento pequeños entre diferentes capas
- Indica que patrones de activación relacionados con tareas se distribuyen en múltiples capas
- LoGo puede estimar robustamente relevancia de adaptadores desde diferentes profundidades
Comparación de Mixture (nivel de salida) y Fusion (nivel de parámetros):
- Rendimiento comparable entre ambas
- Pero Fusion requiere recálculo y readjunción de parámetros, con mayor costo computacional
- Mixture es más práctica, siendo la opción predeterminada de LoGo
- Muestra intensidad de señal de diferentes LoRAs en diferentes conjuntos de datos
- Aparece estructura clara de bloque diagonal (marcada con cuadros rojos)
- Tareas similares activan LoRAs similares, validando relevancia semántica de la señal
- Pesos de fusión correlacionan positivamente con similitud de tareas
- LoRAs con pesos mayores corresponden a tareas con similitud más alta
- Demuestra que pesos impulsados por señales de LoGo capturan relaciones semánticas
Ejemplo BBH Word Sorting:
- Ciertas LoRAs generales (como familia wiki_bio) se seleccionan consistentemente
- Diferentes muestras seleccionan LoRAs específicas según necesidades:
- Muestra A: Prefiere relacionadas con resumen (ag_news)
- Muestra B: Prefiere generación de texto largo (familia duorc)
Ejemplo E2ENLG:
- Dos muestras seleccionan los mismos 5 módulos de comprensión general
- Porque tarea de generación de historias no requiere conocimiento específico de dominio
- Mixture of LoRAs (MoA):
- Entrena enrutador para seleccionar LoRA individual del conjunto de candidatos
- Requiere muestras anotadas
- LoRAHub:
- Aprende pesos específicos de tarea mediante suma ponderada de fusión de parámetros
- Requiere conjunto de anotaciones pequeño
- Mixture of LoRA Experts (MoLE):
- Aprende pesos aplicados a salida de LoRA en lugar de parámetros
- Aún requiere entrenamiento específico de tarea
- LoRARetriever:
- Entrena modelo de lenguaje auxiliar para recuperar LoRAs relevantes
- Requiere muestras de conjunto de datos de distribución mixta
- Nuevas LoRAs requieren recálculo de puntos de incrustación
- Posible degradación de rendimiento en escenarios OOD
| Característica | LoRAHub/MoLE | LoRARetriever | LoGo |
|---|
| Requisito de Entrenamiento | Requerido (específico de tarea) | Requerido (modelo de incrustación) | No requerido |
| Datos Anotados | Requerido | Requerido | No requerido |
| Adaptación a Nivel de Instancia | No | Sí | Sí |
| Integración de Nueva LoRA | Requiere reentrenamiento | Requiere recálculo de incrustación | Integración sin problemas |
| Generalización OOD | Pobre | Media | Fuerte |
- Efectividad de LoGo: Sin requerir entrenamiento, LoGo logra rendimiento comparable o superior a líneas base basadas en entrenamiento en múltiples puntos de referencia de PNL, con mejoras de hasta 3.6% en algunas tareas
- Practicidad: Mantiene rendimiento de inferencia comparable a líneas base, con costo amortizado en tareas de salida larga
- Generalización: Desempeño excelente en dominios no vistos (CodeXGLUE), demostrando capacidad de adaptación cross-dominio
- Robustez: Insensible a hiperparámetros (posición de token, número de módulos, capa objetivo)
- Interpretabilidad: Pesos impulsados por señales se alinean con similitud de tareas, proporcionando mecanismo de selección interpretable
Limitaciones Reconocidas por el Artículo:
- Confiabilidad de Señal:
- Basada en señal de proyección de propagación única hacia adelante
- No garantiza alineación con relevancia de tarea en escenarios altamente OOD
- Alcance de Evaluación:
- Principalmente adaptadores entrenados en conjunto de datos Flan-v2
- Evaluación adicional necesaria para extensión a multimodal, recursos bajos y otros dominios diversos
- Memoria e Inferencia:
- Adjuntar múltiples adaptadores simultáneamente aumenta uso de memoria
- Puede ralentizar velocidad de inferencia
- Requiere optimización de gestión de adaptadores (como poda, carga selectiva)
- Sensibilidad de Parámetros:
- Aunque relativamente insensible a parámetros como k, configuración óptima puede variar según tarea
- Gestión de Conjunto de Adaptadores:
- Desarrollar estrategias eficientes de poda de adaptadores y carga selectiva
- Reducir ocupación de memoria e inferencia latente
- Extensión Multimodal:
- Extender LoGo a modelos visión-lenguaje
- Explorar mecanismos de extracción de señal cross-modal
- Análisis Teórico:
- Proporcionar garantías teóricas para relación entre señal y relevancia de tarea
- Analizar robustez bajo diferentes cambios de distribución
- Selección de Señal Adaptativa:
- Seleccionar dinámicamente tipo de señal (norma/entropía) según características de entrada
- Explorar representaciones de señal más ricas
- Aprendizaje En Línea:
- Combinar retroalimentación en línea para ajuste continuo de estrategia de selección
- Sin requerir reentrenamiento completo
- Innovación Fuerte:
- Primer marco completamente sin entrenamiento para selección y fusión de LoRA a nivel de instancia
- Diseño impulsado por señales novedoso e intuitivo
- Resuelve puntos de dolor críticos en despliegue real
- Experimentación Exhaustiva:
- 5 puntos de referencia, 27 conjuntos de datos, 3 familias de modelos
- Incluye escenarios de conjuntos de datos mixtos (CodeXGLUE)
- Experimentos de ablación detallados y análisis de casos
- Apéndice proporciona lista completa de 260 tareas Flan-v2
- Resultados Convincentes:
- Rendimiento comparable o superior a líneas base que requieren entrenamiento en mayoría de tareas
- Análisis de eficiencia computacional suficiente
- Visualizaciones (mapas de calor, gráficos de alineación) demuestran mecanismo intuitivamente
- Valor Práctico Alto:
- Sin requerir datos anotados y reentrenamiento
- Integración sin problemas de nuevas LoRAs
- Adecuado para sistemas dinámicos en evolución
- Escritura Clara:
- Motivación de problema suficientemente articulada
- Descripción de método detallada (incluye pseudocódigo de algoritmo)
- Configuración experimental transparente, compromiso de código abierto
- Fundamento Teórico Débil:
- Falta análisis teórico de relación entre señal y relevancia de tarea
- Por qué norma/entropía capturan relevancia sin prueba rigurosa
- Condiciones bajo las cuales método puede fallar no claramente especificadas
- Mejora de Rendimiento Limitada:
- Mejora significativa en algunas tareas (3.6%), pero solo equivalencia en otras
- Sin ventaja abrumadora comparado con LoRARetriever
- Rendimiento general más bajo en modelo DeepSeek
- Problemas de Diseño Experimental:
- Todos métodos fijan k=20, pero diferentes tareas pueden requerir números diferentes
- Falta comparación con más líneas base recientes (como métodos MoE más nuevos)
- Ausencia de pruebas de significancia estadística (solo reporta resultados de ejecución única)
- Limitaciones de Aplicabilidad:
- Depende de conjunto grande de LoRAs preentrenadas (260)
- Rendimiento con número pequeño de LoRAs desconocido
- Dependencia de calidad de LoRA no discutida
- Profundidad de Análisis Insuficiente:
- Falta análisis de casos de fallo
- Por qué algunas tareas muestran mejora grande mientras otras se mantienen sin exploración profunda
- Análisis insuficiente de escenarios de aplicabilidad de diferentes señales (norma vs entropía)
- Costo Computacional:
- Aunque tiempo de inferencia comparable, requiere propagación única hacia adelante de todas LoRAs
- Costo crece linealmente con número de LoRAs
- Sin discusión de escalabilidad a miles de LoRAs
- Contribución Académica:
- Proporciona nuevo paradigma sin entrenamiento para combinación multi-LoRA
- Inspira investigación posterior explorando más tipos de señales y estrategias de selección
- Puede influir en prácticas de despliegue de métodos PEFT
- Valor Práctico:
- Directamente aplicable a sistemas de producción manejando tareas heterogéneas
- Reduce costo de despliegue de adaptación multi-tarea
- Particularmente adecuado para escenarios sensibles a privacidad o difíciles de anotar
- Reproducibilidad:
- Detalles de implementación suficientes
- Compromiso de código abierto y 260 LoRAs
- Basado en bibliotecas populares (HuggingFace, PEFT)
- Impacto Limitado Por:
- Dependencia de conjunto grande de LoRAs de alta calidad puede limitar aplicación por equipos pequeños
- Fundamento teórico débil puede impactar desarrollo posterior de método
Escenarios Más Apropiados:
- Sistemas de Conversación Multi-Dominio: Consultas de usuario abarcan múltiples tareas no relacionadas
- Aplicaciones Sensibles a Privacidad: Imposibilidad de recopilar datos anotados
- Desarrollo Rápido de Prototipos: Necesidad de integración rápida de capacidades multi-tarea
- Entorno de Tareas Dinámicas: Requisitos de tarea cambian frecuentemente
- Generación de Texto Largo: Amortización de costo de selección
Escenarios Menos Apropiados:
- Despliegue de Tarea Única: Uso directo de LoRA especializada más simple
- Conjunto de LoRA Muy Pequeño: Ventaja no evidente
- Requisitos de Tiempo Real Extremo: Costo de propagación única hacia adelante aún puede ser excesivo
- Escenarios Altamente OOD: Señal puede fallar
Citas Clave:
- Hu et al. (2022): LoRA: Low-rank adaptation of large language models (ICLR) - Método LoRA original
- Huang et al. (2024): LoRAHub: Efficient cross-task generalization via dynamic lora composition (ICLR) - Línea base principal
- Zhao et al. (2024): LoRARetriever: Input-aware lora retrieval and composition for mixed tasks in the wild (ACL) - Línea base principal
- Wei et al. (2022): Finetuned language models are zero-shot learners (ICLR) - Modelos y conjuntos de datos Flan
- Feng et al. (2024): Mixture-of-loras: An efficient multitask tuning for large language models (COLING) - Método MoA
Evaluación General: Este es un artículo con innovación fuerte y alto valor práctico que propone el primer marco completamente sin entrenamiento para composición de LoRA a nivel de instancia. La experimentación es exhaustiva, los resultados convincentes, y resuelve puntos de dolor críticos en despliegue real. Las principales deficiencias radican en fundamento teórico débil y mejora de rendimiento limitada en algunas tareas. Sin embargo, considerando la ventaja enorme de no requerir entrenamiento, este trabajo tiene significado importante para despliegue de LLM multi-tarea, con impacto esperado considerable. Se recomienda prestar atención a análisis teórico posterior y trabajo de extensión.