ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning
Zhang, Yang, Cai et al.
As large language models (LLMs) continue to scale in size, the computational overhead has become a major bottleneck for task-specific fine-tuning. While low-rank adaptation (LoRA) effectively curtails this cost by confining the weight updates to a low-dimensional subspace, such a restriction can hinder effectiveness and slow convergence. This contribution deals with these limitations by accumulating progressively a high-rank weight update from consecutive low-rank increments. Specifically, the per update optimal low-rank matrix is identified to minimize the loss function and closely approximate full fine-tuning. To endow efficient and seamless optimization without restarting, this optimal choice is formed by appropriately scaling the columns of the original low-rank matrix. Rigorous performance guarantees reveal that the optimal scaling can be found analytically. Extensive numerical tests with popular LLMs scaling up to 12 billion parameters demonstrate a consistent performance gain and fast convergence relative to state-of-the-art LoRA variants on diverse tasks including natural language understanding, commonsense reasoning, and mathematical problem solving.
academic
ScaLoRA: Adaptación de Bajo Rango Óptimamente Escalada para Ajuste Fino Eficiente de Alto Rango
Con la expansión continua del tamaño de los modelos de lenguaje grandes (LLMs), el costo computacional se ha convertido en el principal cuello de botella para el ajuste fino específico de tareas. Aunque la adaptación de bajo rango (LoRA) reduce efectivamente los costos limitando las actualizaciones de pesos a subespacios de baja dimensión, esta restricción obstaculiza el rendimiento y ralentiza la convergencia. Este estudio aborda estas limitaciones acumulando progresivamente incrementos de bajo rango consecutivos para formar actualizaciones de pesos de alto rango. Específicamente, se identifica la matriz de bajo rango óptima en cada actualización para minimizar la función de pérdida y aproximarse estrechamente al ajuste fino completo. Para lograr una optimización eficiente y sin interrupciones sin necesidad de reinicio, esta selección óptima se forma escalando apropiadamente las columnas de la matriz de bajo rango original. Las garantías de rendimiento rigurosas demuestran que el escalado óptimo puede encontrarse mediante métodos analíticos. Las pruebas numéricas extensas en LLMs populares de hasta 12 mil millones de parámetros demuestran que el método logra mejoras de rendimiento consistentes y convergencia rápida en tareas diversas como comprensión del lenguaje natural, razonamiento de sentido común y resolución de problemas matemáticos, en comparación con variantes de LoRA de última generación.
Con el rápido crecimiento del tamaño de los modelos de lenguaje grandes, los métodos tradicionales de ajuste fino completo se vuelven cada vez más inviables debido a su enorme carga computacional. Por ejemplo, incluso la variante más pequeña de Llama 4 Scout contiene 109 mil millones de parámetros, y el ajuste fino completo requiere más de 1TB de memoria GPU incluso con precisión media, además de una cantidad significativa de tiempo.
Limitaciones de LoRA: Aunque LoRA reduce efectivamente los costos computacionales parametrizando las actualizaciones de pesos como el producto externo de dos matrices altas y delgadas, la restricción del subespacio de baja dimensión fija resulta en degradación del rendimiento y convergencia lenta.
Desafíos de Actualizaciones de Alto Rango: Los métodos existentes de actualización de alto rango como ReLoRA requieren reiniciar la optimización, MoRA requiere asignaciones no lineales cuidadosamente diseñadas, y HiRA tiene operaciones de producto de Hadamard con alta complejidad.
Este artículo tiene como objetivo superar las limitaciones de LoRA identificando dinámicamente adaptadores de bajo rango óptimos, acumulando incrementos de bajo rango progresivos para formar actualizaciones de pesos de alto rango, mientras se mantiene la eficiencia computacional.
Análisis Teórico: Se demuestra la condición necesaria y suficiente para adaptadores de bajo rango óptimos, estableciendo las condiciones que requieren SVD truncado, pero señalando su costo computacional excesivo.
Método ScaLoRA: Se propone un método para restringir nuevos adaptadores mediante transformaciones de escalado de columnas, identificando de manera comprobable adaptadores globalmente óptimos y estimadores de matriz tratables en forma analítica.
Verificación Experimental: Se realizaron pruebas exhaustivas en modelos como DeBERTaV3-base, LLaMA-2-7B, LLaMA-3-8B y Gemma-3-12B-pt, verificando el análisis teórico y confirmando el rendimiento superior de ScaLoRA y la convergencia acelerada.
Considérese una matriz de pesos general de un modelo grande W∈Rm×n, LoRA la descompone como W=Wpt+Wft, donde Wpt es el peso preentrenado congelado, Wft:=ABT es la actualización de ajuste fino aprendible, A∈Rm×r, B∈Rn×r, y r≪m,n.
A diferencia de LoRA que se fija en AtBtT, la idea clave de ScaLoRA es identificar dinámicamente el adaptador de bajo rango "óptimo" en cada iteración, maximizando la reducción de pérdida:
Wt=Wpt+AtBtT=fusionado y congelado(Wpt+AtBtT−A~tB~tT)+aprendibleA~tB~tT
Teorema 1 (Condiciones Óptimas): Considérese la SVD ∇ℓ(Wt)=UtΣtVtT, si rank(∇ℓ(Wt))≥2r,∀t y se satisface la hipótesis de suavidad de Lipschitz, entonces (A~t∗,B~t∗) minimiza la cota superior de pérdida si y solo si:
A~t∗=Lη1[Ut]AtPt,B~t∗=Lη1[Vt]BtQt
donde At∪Bt={1,…,2r}, ∣At∣=∣Bt∣=r, Pt,Qt∈O(r).