Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
MiSS: Revisitando el Compromiso en LoRA con una Estructura Eficiente de Compartición de Fragmentos
- ID del Artículo: 2409.15371
- Título: MiSS: Revisitando el Compromiso en LoRA con una Estructura Eficiente de Compartición de Fragmentos
- Autores: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2409.15371v11
La Adaptación de Bajo Rango (LoRA) es una técnica ampliamente adoptada para el ajuste fino eficiente en parámetros, pero su problema de convergencia lenta ha generado el desarrollo de numerosas variantes. Sin embargo, los métodos existentes a menudo no pueden mejorar simultáneamente el rendimiento, el consumo de memoria y la eficiencia computacional. Para abordar este desafío, este artículo revisa las causas fundamentales de la convergencia lenta de LoRA. Basándose en estos conocimientos, los autores proponen el método Matrix Shard Sharing (MiSS), que utiliza una única matriz entrenable compartida D (inicializada en cero) para actualizar fragmentos de la matriz de pesos original. Para garantizar simultáneamente la eficiencia computacional, el bajo consumo de memoria y el servicio escalable, los autores introducen MiSSe. Tanto el análisis teórico como los resultados experimentales demuestran que el método reduce la complejidad de optimización sin comprometer el rendimiento, logrando así un compromiso más favorable entre rendimiento, memoria y eficiencia.
El ajuste fino de parámetros completos en modelos de lenguaje grande (LLMs) es computacionalmente prohibitivo, por lo que surgieron las técnicas de ajuste fino eficiente en parámetros (PEFT). LoRA, como uno de los métodos PEFT más destacados, aproxima las actualizaciones de pesos mediante descomposición de bajo rango: ΔW≈BA, donde B∈Rd×r, A∈Rr×k, y r≪min(d,k).
- Convergencia Lenta: LoRA converge significativamente más lentamente que el ajuste fino de parámetros completos
- Complejidad de Optimización: Requiere actualizar simultáneamente las matrices A y B, aumentando la complejidad de optimización
- Dificultad en Compromisos: Las variantes existentes de LoRA tienen dificultades para lograr un equilibrio entre rendimiento, memoria y eficiencia
Mediante el análisis de métodos como S2FT y LoRA+, los autores descubren que la razón clave de la convergencia lenta de LoRA es la necesidad de optimizar simultáneamente dos matrices. Basándose en la hipótesis de que "entrenar una única matriz puede simplificar la optimización sin sacrificar la capacidad expresiva", los autores proponen el método MiSS.
- Propuesta del Método MiSS: Una estructura eficiente y adaptable con mecanismo de compartición de fragmentos que logra un equilibrio efectivo entre tres atributos clave: rendimiento, eficiencia de memoria y eficiencia computacional
- Verificación Teórica y Experimental: Valida la superioridad de MiSS en conjuntos de datos diversos y arquitecturas de modelos mediante experimentos a gran escala
- Comparación Integral de Métodos PEFT: Proporciona una evaluación exhaustiva de múltiples métodos PEFT en términos de uso de memoria, gastos generales de inicialización y eficiencia computacional
- Análisis de Frontera de Pareto: Al mapear la frontera de Pareto de estas dimensiones, demuestra que MiSS ocupa una posición favorable
Dado una matriz de pesos preentrenados W0∈Rd×k, el objetivo es aprender una actualización ΔW eficiente en parámetros, de modo que el modelo ajustado funcione bien en tareas posteriores, minimizando simultáneamente el número de parámetros entrenables y los gastos computacionales.
MiSS define la actualización de pesos como una matriz grande generada a partir de una pequeña matriz entrenable D mediante una operación de expansión:
W=W0+ΔW=W0+expand(D)y=W0x+expand(D)x
donde D∈Rr1×r2, (r1,r2)≪min(d,k).
Se divide la dimensión de salida d en N fragmentos, con tamaños {s1,s2,…,sN}, donde ∑i=1Nsi=d. Para cada fragmento i, su actualización se determina por la fila i-ésima de D, Di, repetida si veces:
(expand(D))T=[(1s1D1)T(1s2D2)T…(1sNDN)T]
Para evitar formar explícitamente matrices grandes, MiSSe redefine D∈Rr×d, dividiendo la dimensión de entrada k en r bloques:
x=[x(1),x(2),…,x(r)],x(i)∈Rb×l×g
S=[∑j=1gx[:,:,j](1),∑j=1gx[:,:,j](2),…,∑j=1gx[:,:,j](r)]∈Rb×l×r
ΔWx=DTS,y=W0x+DTS
- Optimización de Matriz Única: En comparación con LoRA que requiere optimizar simultáneamente dos matrices A y B, MiSS solo necesita optimizar una única matriz D, reduciendo la complejidad de optimización
- Mecanismo de Compartición de Fragmentos: Logra características de bajo rango mediante estructura de matriz repetida, manteniendo simultáneamente la capacidad expresiva
- Implementación Eficiente: MiSSe evita el almacenamiento explícito de matrices grandes mediante agregación de entrada a nivel de bloque, reduciendo significativamente el uso de memoria
- Comprensión del Lenguaje Natural (NLU): Subconjunto del punto de referencia GLUE, incluyendo MNLI, SST-2, CoLA, QNLI, MRPC
- Generación del Lenguaje Natural (NLG):
- Tareas Matemáticas: Conjunto de datos MetaMathQA (subconjunto de 395k), evaluando GSM8K y MATH
- Tareas de Código: Conjunto de datos CodeFeedback (subconjunto de 100k), evaluando HumanEval y Mbpp
- Tareas NLU: Precisión
- Tareas Matemáticas: Precisión en puntos de referencia GSM8K y MATH
- Tareas de Código: Tasa de aprobación en HumanEval y Mbpp
- Métricas de Eficiencia: Tiempo de entrenamiento, uso de memoria, tiempo de inicialización
LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS y otros múltiples métodos PEFT
- Optimizador: AdamW
- Tasa de aprendizaje: 2e-5
- Tamaño de lote: 64-128
- Programación de tasa de aprendizaje: Decaimiento coseno
- Configuración de rango MiSS: 16-128 (ajustado según la tarea)
En la prueba de referencia GLUE en RoBERTa-base, MiSS destaca especialmente en el conjunto de datos CoLA, alcanzando una puntuación de 72.86, superando significativamente a LoRA (62.40) y PiSSA (67.28).
Los resultados experimentales en múltiples modelos de lenguaje grande muestran:
LLaMA2-7B:
- GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
- Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
- HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)
Qwen3-4B:
- Math: MiSS(34.82) supera ampliamente otros métodos, PiSSA(26.00), DoRA(21.73), LoRA(15.20)
El análisis de norma de gradiente inicial valida la filosofía de diseño de MiSS. Los experimentos demuestran que MiSS, como otras variantes mejoradas de LoRA, tiene una norma de gradiente inicial más grande que LoRA estándar, lo que se correlaciona con una convergencia más rápida en las primeras etapas.
| Método | Complejidad Espacial | Complejidad Temporal |
|---|
| Full | O(dk) | O(bld(d+k)) |
| LoRA | O(dr+rk) | O(blr(d+k)) |
| MiSS | O(dr) | O(bldk) |
| MiSSe | O(dr) | O(blr(d+k/r)) |
La evaluación integral en LLaMA-3.2-3B muestra que MiSS ocupa la posición óptima en el compromiso rendimiento-eficiencia, logrando la mejor precisión de prueba (0.5080) mientras mantiene un bajo uso de memoria y tiempo de entrenamiento.
Prueba del impacto de diferentes valores de rango en LLaMA2-7B:
- rank=16: GSM8K(45.90), Math(3.77), Parámetros 21.7M
- rank=32: GSM8K(46.18), Math(7.43), Parámetros 43.5M
- rank=64: GSM8K(48.16), Math(8.58), Parámetros 87.0M
- rank=128: GSM8K(53.49), Math(10.08), Parámetros 174.0M
Los resultados muestran que el rendimiento aumenta monótonamente con el rango, siendo rank=64 un buen equilibrio entre rendimiento y parámetros.
- Mejoras Adaptables: PiSSA, LoRA-GA, LoRA+, etc., principalmente aceleran la convergencia mediante cambios en estrategias de inicialización
- Optimización de Eficiencia: VeRA, ProLoRA, MoS, etc., enfocados en reducir gastos computacionales y de memoria
En comparación con métodos existentes, MiSS mejora significativamente la eficiencia manteniendo el rendimiento mediante una estrategia de optimización de matriz única, evitando el costoso proceso de inicialización de métodos como PiSSA, y tampoco requiere requisitos especiales del optimizador como métodos como LoRA-GA.
- Optimización de Matriz Única: Demuestra que la optimización de matriz única en comparación con optimización de matriz dual puede reducir la complejidad de optimización y acelerar la convergencia
- Compromiso Efectivo: MiSS logra un mejor equilibrio entre rendimiento, memoria y eficiencia computacional en tres dimensiones
- Aplicabilidad Amplia: Demuestra superioridad consistente en múltiples arquitecturas de modelos y tipos de tareas
- Profundidad del Análisis Teórico: Aunque proporciona análisis de complejidad, la explicación teórica de por qué la optimización de matriz única es más efectiva aún no es lo suficientemente profunda
- Sensibilidad de Hiperparámetros: Para diferentes tareas y modelos, la selección óptima del parámetro de rango puede requerir ajuste adicional
- Generalidad del Mecanismo de Expansión: La estrategia actual de expansión de fragmentos puede no ser óptima, dejando espacio para mejoras
- Fundamentos Teóricos: Investigar más profundamente los fundamentos teóricos de la optimización de matriz única
- Selección Adaptable de Rango: Desarrollar métodos para seleccionar automáticamente el rango óptimo
- Extensión Multimodal: Extender MiSS a tareas multimodales
- Innovación Fuerte: El mecanismo de compartición de fragmentos propuesto es un enfoque novedoso y efectivo
- Experimentos Exhaustivos: Abarca múltiples modelos, conjuntos de datos y dimensiones de evaluación, con diseño experimental razonable
- Alto Valor Práctico: Mejora significativamente la eficiencia manteniendo el rendimiento, con fuerte practicidad
- Análisis Integral: Proporciona análisis profundo desde múltiples ángulos incluyendo norma de gradiente, complejidad y frontera de Pareto
- Explicación Teórica: La explicación teórica de por qué MiSS puede mantener la capacidad expresiva bajo optimización de matriz única no es lo suficientemente profunda
- Comparación de Referencia: Carece de comparación con algunos métodos PEFT más recientes
- Rendimiento en Secuencias Largas: No ha probado suficientemente el rendimiento en tareas de secuencias largas
- Contribución Académica: Proporciona nuevas ideas de diseño para el campo PEFT, potencialmente inspirando más investigación relacionada
- Valor Práctico: El método es simple y efectivo, fácil de implementar y desplegar
- Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto
- Entornos con Recursos Limitados: Particularmente adecuado para escenarios con memoria GPU limitada
- Despliegue a Gran Escala: Debido a su eficiencia, es adecuado para aplicaciones que requieren despliegue a gran escala
- Aprendizaje Multitarea: Puede servir como adaptador eficiente en aprendizaje multitarea
El artículo cita métodos PEFT importantes como LoRA, PiSSA, DoRA, así como puntos de referencia estándar de evaluación como GSM8K y MATH, proporcionando antecedentes exhaustivos y base de comparación para investigación relacionada.
Evaluación General: Este es un artículo PEFT de alta calidad que propone el método MiSS con cierta innovación teórica, verificación experimental exhaustiva y valor práctico relativamente alto. La contribución principal del artículo radica en lograr un mejor equilibrio entre rendimiento y eficiencia mediante optimización de matriz única, proporcionando una nueva dirección de investigación para el campo PEFT.