2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin

Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.

academic

MiSS: Revisitando el Compromiso en LoRA con una Estructura Eficiente de Compartición de Fragmentos

Información Básica

ID del Artículo: 2409.15371
Título: MiSS: Revisitando el Compromiso en LoRA con una Estructura Eficiente de Compartición de Fragmentos
Autores: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
Clasificación: cs.CL cs.AI
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2409.15371v11

Resumen

La Adaptación de Bajo Rango (LoRA) es una técnica ampliamente adoptada para el ajuste fino eficiente en parámetros, pero su problema de convergencia lenta ha generado el desarrollo de numerosas variantes. Sin embargo, los métodos existentes a menudo no pueden mejorar simultáneamente el rendimiento, el consumo de memoria y la eficiencia computacional. Para abordar este desafío, este artículo revisa las causas fundamentales de la convergencia lenta de LoRA. Basándose en estos conocimientos, los autores proponen el método Matrix Shard Sharing (MiSS), que utiliza una única matriz entrenable compartida $\boldsymbol{D}$ (inicializada en cero) para actualizar fragmentos de la matriz de pesos original. Para garantizar simultáneamente la eficiencia computacional, el bajo consumo de memoria y el servicio escalable, los autores introducen MiSS $^e$ . Tanto el análisis teórico como los resultados experimentales demuestran que el método reduce la complejidad de optimización sin comprometer el rendimiento, logrando así un compromiso más favorable entre rendimiento, memoria y eficiencia.

Antecedentes de Investigación y Motivación

Definición del Problema

El ajuste fino de parámetros completos en modelos de lenguaje grande (LLMs) es computacionalmente prohibitivo, por lo que surgieron las técnicas de ajuste fino eficiente en parámetros (PEFT). LoRA, como uno de los métodos PEFT más destacados, aproxima las actualizaciones de pesos mediante descomposición de bajo rango: $\Delta W \approx BA$ , donde $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , y $r \ll \min(d,k)$ .

Limitaciones de los Métodos Existentes

Convergencia Lenta: LoRA converge significativamente más lentamente que el ajuste fino de parámetros completos
Complejidad de Optimización: Requiere actualizar simultáneamente las matrices A y B, aumentando la complejidad de optimización
Dificultad en Compromisos: Las variantes existentes de LoRA tienen dificultades para lograr un equilibrio entre rendimiento, memoria y eficiencia

Motivación de la Investigación

Mediante el análisis de métodos como S2FT y LoRA+, los autores descubren que la razón clave de la convergencia lenta de LoRA es la necesidad de optimizar simultáneamente dos matrices. Basándose en la hipótesis de que "entrenar una única matriz puede simplificar la optimización sin sacrificar la capacidad expresiva", los autores proponen el método MiSS.

Contribuciones Principales

Propuesta del Método MiSS: Una estructura eficiente y adaptable con mecanismo de compartición de fragmentos que logra un equilibrio efectivo entre tres atributos clave: rendimiento, eficiencia de memoria y eficiencia computacional
Verificación Teórica y Experimental: Valida la superioridad de MiSS en conjuntos de datos diversos y arquitecturas de modelos mediante experimentos a gran escala
Comparación Integral de Métodos PEFT: Proporciona una evaluación exhaustiva de múltiples métodos PEFT en términos de uso de memoria, gastos generales de inicialización y eficiencia computacional
Análisis de Frontera de Pareto: Al mapear la frontera de Pareto de estas dimensiones, demuestra que MiSS ocupa una posición favorable

Explicación Detallada del Método

Definición de la Tarea

Dado una matriz de pesos preentrenados $W_0 \in \mathbb{R}^{d \times k}$ , el objetivo es aprender una actualización $\Delta W$ eficiente en parámetros, de modo que el modelo ajustado funcione bien en tareas posteriores, minimizando simultáneamente el número de parámetros entrenables y los gastos computacionales.

Arquitectura del Modelo

Forma Básica de MiSS

MiSS define la actualización de pesos como una matriz grande generada a partir de una pequeña matriz entrenable $D$ mediante una operación de expansión:

$W = W_0 + \Delta W = W_0 + \text{expand}(D)$ $y = W_0x + \text{expand}(D)x$

donde $D \in \mathbb{R}^{r_1 \times r_2}$ , $(r_1, r_2) \ll \min(d,k)$ .

Mecanismo de Expansión

Se divide la dimensión de salida $d$ en $N$ fragmentos, con tamaños $\{s_1, s_2, \ldots, s_N\}$ , donde $\sum_{i=1}^N s_i = d$ . Para cada fragmento $i$ , su actualización se determina por la fila $i$ -ésima de $D$ , $D_i$ , repetida $s_i$ veces:

$(\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]$

Implementación Eficiente MiSS $^e$

Para evitar formar explícitamente matrices grandes, MiSS $^e$ redefine $D \in \mathbb{R}^{r \times d}$ , dividiendo la dimensión de entrada $k$ en $r$ bloques:

$x = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}$

$S = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}$

$\Delta Wx = D^T S, \quad y = W_0x + D^T S$

Puntos de Innovación Técnica

Optimización de Matriz Única: En comparación con LoRA que requiere optimizar simultáneamente dos matrices A y B, MiSS solo necesita optimizar una única matriz D, reduciendo la complejidad de optimización
Mecanismo de Compartición de Fragmentos: Logra características de bajo rango mediante estructura de matriz repetida, manteniendo simultáneamente la capacidad expresiva
Implementación Eficiente: MiSS $^e$ evita el almacenamiento explícito de matrices grandes mediante agregación de entrada a nivel de bloque, reduciendo significativamente el uso de memoria

Configuración Experimental

Conjuntos de Datos

Comprensión del Lenguaje Natural (NLU): Subconjunto del punto de referencia GLUE, incluyendo MNLI, SST-2, CoLA, QNLI, MRPC
Generación del Lenguaje Natural (NLG):
- Tareas Matemáticas: Conjunto de datos MetaMathQA (subconjunto de 395k), evaluando GSM8K y MATH
- Tareas de Código: Conjunto de datos CodeFeedback (subconjunto de 100k), evaluando HumanEval y Mbpp

Métricas de Evaluación

Tareas NLU: Precisión
Tareas Matemáticas: Precisión en puntos de referencia GSM8K y MATH
Tareas de Código: Tasa de aprobación en HumanEval y Mbpp
Métricas de Eficiencia: Tiempo de entrenamiento, uso de memoria, tiempo de inicialización

Métodos de Comparación

LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS y otros múltiples métodos PEFT

Detalles de Implementación

Optimizador: AdamW
Tasa de aprendizaje: 2e-5
Tamaño de lote: 64-128
Programación de tasa de aprendizaje: Decaimiento coseno
Configuración de rango MiSS: 16-128 (ajustado según la tarea)

Resultados Experimentales

Resultados Principales

Rendimiento en Tareas NLU

En la prueba de referencia GLUE en RoBERTa-base, MiSS destaca especialmente en el conjunto de datos CoLA, alcanzando una puntuación de 72.86, superando significativamente a LoRA (62.40) y PiSSA (67.28).

Rendimiento en Tareas NLG

Los resultados experimentales en múltiples modelos de lenguaje grande muestran:

LLaMA2-7B:

GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)

Qwen3-4B:

Math: MiSS(34.82) supera ampliamente otros métodos, PiSSA(26.00), DoRA(21.73), LoRA(15.20)

Análisis de Norma de Gradiente

El análisis de norma de gradiente inicial valida la filosofía de diseño de MiSS. Los experimentos demuestran que MiSS, como otras variantes mejoradas de LoRA, tiene una norma de gradiente inicial más grande que LoRA estándar, lo que se correlaciona con una convergencia más rápida en las primeras etapas.

Análisis de Eficiencia

Comparación de Complejidad

Método	Complejidad Espacial	Complejidad Temporal
Full	O(dk)	O(bld(d+k))
LoRA	O(dr+rk)	O(blr(d+k))
MiSS	O(dr)	O(bldk)
MiSS $^e$	O(dr)	O(blr(d+k/r))

Análisis de Frontera de Pareto

La evaluación integral en LLaMA-3.2-3B muestra que MiSS ocupa la posición óptima en el compromiso rendimiento-eficiencia, logrando la mejor precisión de prueba (0.5080) mientras mantiene un bajo uso de memoria y tiempo de entrenamiento.

Experimentos de Ablación

Impacto del Parámetro de Rango

Prueba del impacto de diferentes valores de rango en LLaMA2-7B:

rank=16: GSM8K(45.90), Math(3.77), Parámetros 21.7M
rank=32: GSM8K(46.18), Math(7.43), Parámetros 43.5M
rank=64: GSM8K(48.16), Math(8.58), Parámetros 87.0M
rank=128: GSM8K(53.49), Math(10.08), Parámetros 174.0M

Los resultados muestran que el rendimiento aumenta monótonamente con el rango, siendo rank=64 un buen equilibrio entre rendimiento y parámetros.

Trabajo Relacionado

Clasificación de Métodos de Mejora de LoRA

Mejoras Adaptables: PiSSA, LoRA-GA, LoRA+, etc., principalmente aceleran la convergencia mediante cambios en estrategias de inicialización
Optimización de Eficiencia: VeRA, ProLoRA, MoS, etc., enfocados en reducir gastos computacionales y de memoria

Ventajas Relativas de Este Artículo

En comparación con métodos existentes, MiSS mejora significativamente la eficiencia manteniendo el rendimiento mediante una estrategia de optimización de matriz única, evitando el costoso proceso de inicialización de métodos como PiSSA, y tampoco requiere requisitos especiales del optimizador como métodos como LoRA-GA.

Conclusiones y Discusión

Conclusiones Principales

Optimización de Matriz Única: Demuestra que la optimización de matriz única en comparación con optimización de matriz dual puede reducir la complejidad de optimización y acelerar la convergencia
Compromiso Efectivo: MiSS logra un mejor equilibrio entre rendimiento, memoria y eficiencia computacional en tres dimensiones
Aplicabilidad Amplia: Demuestra superioridad consistente en múltiples arquitecturas de modelos y tipos de tareas

Limitaciones

Profundidad del Análisis Teórico: Aunque proporciona análisis de complejidad, la explicación teórica de por qué la optimización de matriz única es más efectiva aún no es lo suficientemente profunda
Sensibilidad de Hiperparámetros: Para diferentes tareas y modelos, la selección óptima del parámetro de rango puede requerir ajuste adicional
Generalidad del Mecanismo de Expansión: La estrategia actual de expansión de fragmentos puede no ser óptima, dejando espacio para mejoras

Direcciones Futuras

Fundamentos Teóricos: Investigar más profundamente los fundamentos teóricos de la optimización de matriz única
Selección Adaptable de Rango: Desarrollar métodos para seleccionar automáticamente el rango óptimo
Extensión Multimodal: Extender MiSS a tareas multimodales

Evaluación Profunda

Fortalezas

Innovación Fuerte: El mecanismo de compartición de fragmentos propuesto es un enfoque novedoso y efectivo
Experimentos Exhaustivos: Abarca múltiples modelos, conjuntos de datos y dimensiones de evaluación, con diseño experimental razonable
Alto Valor Práctico: Mejora significativamente la eficiencia manteniendo el rendimiento, con fuerte practicidad
Análisis Integral: Proporciona análisis profundo desde múltiples ángulos incluyendo norma de gradiente, complejidad y frontera de Pareto

Insuficiencias

Explicación Teórica: La explicación teórica de por qué MiSS puede mantener la capacidad expresiva bajo optimización de matriz única no es lo suficientemente profunda
Comparación de Referencia: Carece de comparación con algunos métodos PEFT más recientes
Rendimiento en Secuencias Largas: No ha probado suficientemente el rendimiento en tareas de secuencias largas

Impacto

Contribución Académica: Proporciona nuevas ideas de diseño para el campo PEFT, potencialmente inspirando más investigación relacionada
Valor Práctico: El método es simple y efectivo, fácil de implementar y desplegar
Reproducibilidad: Proporciona detalles de implementación detallados y código de código abierto

Escenarios Aplicables

Entornos con Recursos Limitados: Particularmente adecuado para escenarios con memoria GPU limitada
Despliegue a Gran Escala: Debido a su eficiencia, es adecuado para aplicaciones que requieren despliegue a gran escala
Aprendizaje Multitarea: Puede servir como adaptador eficiente en aprendizaje multitarea

Referencias

El artículo cita métodos PEFT importantes como LoRA, PiSSA, DoRA, así como puntos de referencia estándar de evaluación como GSM8K y MATH, proporcionando antecedentes exhaustivos y base de comparación para investigación relacionada.

Evaluación General: Este es un artículo PEFT de alta calidad que propone el método MiSS con cierta innovación teórica, verificación experimental exhaustiva y valor práctico relativamente alto. La contribución principal del artículo radica en lograr un mejor equilibrio entre rendimiento y eficiencia mediante optimización de matriz única, proporcionando una nueva dirección de investigación para el campo PEFT.