2025-11-11T15:58:09.452987

ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning

Zhang, Yang, Cai et al.
As large language models (LLMs) continue to scale in size, the computational overhead has become a major bottleneck for task-specific fine-tuning. While low-rank adaptation (LoRA) effectively curtails this cost by confining the weight updates to a low-dimensional subspace, such a restriction can hinder effectiveness and slow convergence. This contribution deals with these limitations by accumulating progressively a high-rank weight update from consecutive low-rank increments. Specifically, the per update optimal low-rank matrix is identified to minimize the loss function and closely approximate full fine-tuning. To endow efficient and seamless optimization without restarting, this optimal choice is formed by appropriately scaling the columns of the original low-rank matrix. Rigorous performance guarantees reveal that the optimal scaling can be found analytically. Extensive numerical tests with popular LLMs scaling up to 12 billion parameters demonstrate a consistent performance gain and fast convergence relative to state-of-the-art LoRA variants on diverse tasks including natural language understanding, commonsense reasoning, and mathematical problem solving.
academic

ScaLoRA: Adaptación de Bajo Rango Óptimamente Escalada para Ajuste Fino Eficiente de Alto Rango

Información Básica

  • ID del Artículo: 2510.23818
  • Título: ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning
  • Autores: Yilang Zhang, Xiaodong Yang, Yiwei Cai, Georgios B. Giannakis
  • Institución: University of Minnesota - Twin Cities, Visa Research
  • Clasificación: cs.LG
  • Fecha de Presentación: 27 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.23818v1

Resumen

Con la expansión continua del tamaño de los modelos de lenguaje grandes (LLMs), el costo computacional se ha convertido en el principal cuello de botella para el ajuste fino específico de tareas. Aunque la adaptación de bajo rango (LoRA) reduce efectivamente los costos limitando las actualizaciones de pesos a subespacios de baja dimensión, esta restricción obstaculiza el rendimiento y ralentiza la convergencia. Este estudio aborda estas limitaciones acumulando progresivamente incrementos de bajo rango consecutivos para formar actualizaciones de pesos de alto rango. Específicamente, se identifica la matriz de bajo rango óptima en cada actualización para minimizar la función de pérdida y aproximarse estrechamente al ajuste fino completo. Para lograr una optimización eficiente y sin interrupciones sin necesidad de reinicio, esta selección óptima se forma escalando apropiadamente las columnas de la matriz de bajo rango original. Las garantías de rendimiento rigurosas demuestran que el escalado óptimo puede encontrarse mediante métodos analíticos. Las pruebas numéricas extensas en LLMs populares de hasta 12 mil millones de parámetros demuestran que el método logra mejoras de rendimiento consistentes y convergencia rápida en tareas diversas como comprensión del lenguaje natural, razonamiento de sentido común y resolución de problemas matemáticos, en comparación con variantes de LoRA de última generación.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el rápido crecimiento del tamaño de los modelos de lenguaje grandes, los métodos tradicionales de ajuste fino completo se vuelven cada vez más inviables debido a su enorme carga computacional. Por ejemplo, incluso la variante más pequeña de Llama 4 Scout contiene 109 mil millones de parámetros, y el ajuste fino completo requiere más de 1TB de memoria GPU incluso con precisión media, además de una cantidad significativa de tiempo.

Limitaciones de Métodos Existentes

  1. Limitaciones de LoRA: Aunque LoRA reduce efectivamente los costos computacionales parametrizando las actualizaciones de pesos como el producto externo de dos matrices altas y delgadas, la restricción del subespacio de baja dimensión fija resulta en degradación del rendimiento y convergencia lenta.
  2. Desafíos de Actualizaciones de Alto Rango: Los métodos existentes de actualización de alto rango como ReLoRA requieren reiniciar la optimización, MoRA requiere asignaciones no lineales cuidadosamente diseñadas, y HiRA tiene operaciones de producto de Hadamard con alta complejidad.

Motivación de la Investigación

Este artículo tiene como objetivo superar las limitaciones de LoRA identificando dinámicamente adaptadores de bajo rango óptimos, acumulando incrementos de bajo rango progresivos para formar actualizaciones de pesos de alto rango, mientras se mantiene la eficiencia computacional.

Contribuciones Principales

  1. Análisis Teórico: Se demuestra la condición necesaria y suficiente para adaptadores de bajo rango óptimos, estableciendo las condiciones que requieren SVD truncado, pero señalando su costo computacional excesivo.
  2. Método ScaLoRA: Se propone un método para restringir nuevos adaptadores mediante transformaciones de escalado de columnas, identificando de manera comprobable adaptadores globalmente óptimos y estimadores de matriz tratables en forma analítica.
  3. Verificación Experimental: Se realizaron pruebas exhaustivas en modelos como DeBERTaV3-base, LLaMA-2-7B, LLaMA-3-8B y Gemma-3-12B-pt, verificando el análisis teórico y confirmando el rendimiento superior de ScaLoRA y la convergencia acelerada.

Explicación Detallada del Método

Definición de la Tarea

Considérese una matriz de pesos general de un modelo grande WRm×nW \in \mathbb{R}^{m \times n}, LoRA la descompone como W=Wpt+WftW = W^{pt} + W^{ft}, donde WptW^{pt} es el peso preentrenado congelado, Wft:=ABTW^{ft} := AB^T es la actualización de ajuste fino aprendible, ARm×rA \in \mathbb{R}^{m \times r}, BRn×rB \in \mathbb{R}^{n \times r}, y rm,nr \ll m,n.

Idea Principal: Adaptador de Bajo Rango Dinámicamente Óptimo

A diferencia de LoRA que se fija en AtBtTA_tB_t^T, la idea clave de ScaLoRA es identificar dinámicamente el adaptador de bajo rango "óptimo" en cada iteración, maximizando la reducción de pérdida:

Wt=Wpt+AtBtT=(Wpt+AtBtTA~tB~tT)fusionado y congelado+A~tB~tTaprendibleW_t = W^{pt} + A_tB_t^T = \underbrace{(W^{pt} + A_tB_t^T - \tilde{A}_t\tilde{B}_t^T)}_{\text{fusionado y congelado}} + \underbrace{\tilde{A}_t\tilde{B}_t^T}_{\text{aprendible}}

Análisis Teórico del Adaptador de Bajo Rango Óptimo

Teorema 1 (Condiciones Óptimas): Considérese la SVD (Wt)=UtΣtVtT\nabla\ell(W_t) = U_t\Sigma_tV_t^T, si rank((Wt))2r,t\text{rank}(\nabla\ell(W_t)) \geq 2r, \forall t y se satisface la hipótesis de suavidad de Lipschitz, entonces (A~t,B~t)(\tilde{A}_t^*, \tilde{B}_t^*) minimiza la cota superior de pérdida si y solo si:

A~t=1Lη[Ut]AtPt,B~t=1Lη[Vt]BtQt\tilde{A}_t^* = \frac{1}{\sqrt{L\eta}}[U_t]_{\mathcal{A}_t}P_t, \quad \tilde{B}_t^* = \frac{1}{\sqrt{L\eta}}[V_t]_{\mathcal{B}_t}Q_t

donde AtBt={1,,2r}\mathcal{A}_t \cup \mathcal{B}_t = \{1,\ldots,2r\}, At=Bt=r|\mathcal{A}_t| = |\mathcal{B}_t| = r, Pt,QtO(r)P_t, Q_t \in O(r).

Solución Óptima de Escalado Escalar

Para evitar el costo computacional de SVD, ScaLoRA se restringe a A~t=αtAt\tilde{A}_t = \alpha_t A_t, B~t=βtBt\tilde{B}_t = \beta_t B_t.

Teorema 3 (Solución Óptima de Escalado Escalar): Bajo las hipótesis 1-2, el mínimo global de la función objetivo viene dado por:

undefined