2025-11-25T14:25:18.089963

FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios

Zhao, Zhu, Zhang et al.

Federated efficient fine-tuning has emerged as an approach that leverages distributed data and computational resources across nodes to address the challenges of large-scale fine-tuning and privacy preservation. The Low-Rank Adaptation (LoRA) enables efficient fine-tuning of large-scale pre-trained models by introducing trainable low-rank matrices into weight updates.However, in heterogeneous data scenarios, client drift weakens the generalization of the global model, and local models often fail to meet the personalized needs of individual clients.Moreover, existing federated LoRA efficient fine-tuning techniques overlook fine-grained analysis of the tuning matrices. To address this, we conducted preliminary experiments and found that different LoRA matrices exhibit different sensitivity to changes in the direction and magnitude of their vectors.We thus propose a fine-grained federated LoRA tuning method. By fine-tuning the more sensitive directional vectors in the A matrix, which encode shared knowledge, our method learns shared features more effectively across clients and enhances global generalization. Simultaneously, by fine-tuning the more sensitive magnitude vectors in the B matrix, which encode personalized knowledge, our method better captures personalized knowledge, enabling detailed adaptation to local data. The method uses a pipeline combining global and local optimizers. Global optimization further improves local models, achieving collaborative optimization between global and local levels. This improves both the generalization ability of the global model and the personalized adaptation of local models under heterogeneous data scenarios. Experiments on Databricks-Dolly-15k and Natural Instructions with LLaMA2-7B and Deepseek-7B confirm that our method improves global performance by 0.39% and local performance by 0.59%.

academic

FedLoRA-Optimizer: Ajuste Fino Federado de LoRA con Optimización Global y Local en Escenarios de Datos Heterogéneos

Información Básica

ID del Artículo: 2510.11274
Título: FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios
Autores: Jianzhe Zhao, Hailin Zhu, Yu Zhang, Ziqi Chen, Guibing Guo (Universidad Nororiental)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11274

Resumen

El ajuste fino federado eficiente, como método para aprovechar datos distribuidos y recursos computacionales entre nodos, aborda los desafíos del ajuste fino a gran escala y la protección de la privacidad. La Adaptación de Bajo Rango (LoRA) logra el ajuste fino eficiente de modelos preentrenados a gran escala mediante la introducción de matrices de bajo rango entrenables en las actualizaciones de pesos. Sin embargo, en escenarios de datos heterogéneos, la desviación del cliente debilita la capacidad de generalización del modelo global, mientras que los modelos locales a menudo no satisfacen las necesidades de personalización de clientes individuales. Además, las técnicas existentes de ajuste fino federado de LoRA ignoran el análisis de grano fino de las matrices de ajuste. Por lo tanto, este artículo realiza experimentos preliminares que revelan que diferentes matrices de LoRA exhiben diferentes sensibilidades a los cambios de dirección y magnitud de sus vectores. Basándose en este descubrimiento, se propone un método de ajuste fino federado de LoRA de grano fino que, mediante el ajuste fino de vectores de dirección más sensibles que codifican conocimiento compartido en la matriz A, aprende más efectivamente características compartidas entre clientes, mejorando la capacidad de generalización global; mientras que mediante el ajuste fino de vectores de magnitud más sensibles que codifican conocimiento personalizado en la matriz B, captura mejor el conocimiento personalizado. El método utiliza una arquitectura de canalización que combina optimizadores globales y locales, mejorando la capacidad de generalización del modelo global y la adaptabilidad de personalización del modelo local en escenarios de datos heterogéneos.

Antecedentes de Investigación y Motivación

Problemas de Investigación

Los problemas centrales que aborda este artículo son la ineficiencia del ajuste fino federado de LoRA en entornos de datos heterogéneos, que incluyen específicamente:

Problema de Desviación del Cliente: En entornos de aprendizaje federado con datos heterogéneos, las diferencias en la distribución de datos entre clientes conducen a una disminución en la capacidad de generalización del modelo global
Insuficiencia de Necesidades de Personalización: Los modelos locales no satisfacen adecuadamente las necesidades de personalización de cada cliente
Falta de Análisis de Grano Fino: Los métodos existentes ignoran el análisis refinado de las matrices de ajuste de LoRA

Importancia del Problema

Con la aplicación generalizada de modelos preentrenados grandes, cómo realizar ajuste fino distribuido eficiente mientras se protege la privacidad se ha convertido en un desafío clave. El aprendizaje federado proporciona una solución, pero enfrenta problemas de degradación del rendimiento en escenarios de datos heterogéneos, lo que afecta directamente la efectividad de los modelos grandes en aplicaciones prácticas.

Limitaciones de Métodos Existentes

Métodos Tradicionales de Aprendizaje Federado: Como FedAvg, que tienen dificultades de convergencia bajo heterogeneidad de datos y disminución de precisión
Métodos Existentes de LoRA Federado: Se enfoca principalmente en el diseño de arquitectura de modelos, careciendo de análisis de grano fino de cambios en matrices de ajuste
Métodos de Eficiencia de Parámetros: Aunque reducen costos de comunicación, el equilibrio entre generalización global y adaptación de personalización en entornos heterogéneos sigue siendo difícil

Motivación de Investigación

Los autores descubren a través de experimentos que las matrices A y B de LoRA exhiben patrones de sensibilidad diferentes en cambios de dirección y magnitud, proporcionando una base teórica para diseñar estrategias de optimización específicas.

Contribuciones Principales

Análisis Empírico de Grano Fino: Por primera vez, se realiza un análisis de grano fino de los cambios de dirección y magnitud de las matrices de ajuste de LoRA, descubriendo que los cambios de dirección de la matriz A son aproximadamente 1,7 veces los de la matriz B, mientras que los cambios de magnitud de la matriz B son aproximadamente 41 veces los de la matriz A
Método de Ajuste Fino Federado de Grano Fino para Datos Heterogéneos: Se propone un método que optimiza por separado los vectores de dirección de alta sensibilidad en la matriz A y los vectores de magnitud de alta sensibilidad en la matriz B, mejorando significativamente la capacidad de generalización del modelo global y la adaptabilidad del modelo local
Arquitectura de Optimización Colaborativa Global-Local: Se diseña una arquitectura de canalización que combina optimizadores globales y locales, logrando optimización colaborativa a nivel global y local
Verificación Experimental: Se verifica en modelos LLaMA2-7B y Deepseek-7B utilizando conjuntos de datos Databricks-Dolly-15k e Instrucciones Naturales, con mejoras de precisión de tareas globales de aproximadamente 0,39% y mejoras de tareas locales de aproximadamente 0,59%

Explicación Detallada del Método

Definición de Tareas

Este artículo estudia la tarea de ajuste fino eficiente de modelos de lenguaje grande en entornos de aprendizaje federado. Dado N clientes, donde cada cliente i posee un conjunto de datos local Di, el objetivo es entrenar un modelo que tenga buena capacidad de generalización global y satisfaga las necesidades de personalización de cada cliente sin compartir datos sin procesar.

Observaciones y Descubrimientos Clave

A través del análisis experimental en el modelo LLaMA2-7B, los autores descubren dos observaciones importantes:

Observación 1: Los cambios de dirección de la matriz A son aproximadamente 1,7 veces los de la matriz B

La matriz A codifica principalmente conocimiento compartido entre tareas, sirviendo como el "marco fundamental" del conocimiento global
Los cambios en vectores de dirección afectan directamente el rendimiento de entrenamiento de tareas globales

Observación 2: Los cambios de magnitud de la matriz B son aproximadamente 41 veces los de la matriz A

La matriz B codifica principalmente información personalizada específica de tareas
Los cambios en vectores de magnitud juegan un papel clave en el efecto de entrenamiento de tareas descendentes

Arquitectura del Modelo

Estrategia de Descomposición de Matrices

Inspirándose en DoRA, se descomponen las matrices de LoRA en componentes de dirección y magnitud:

A = AM · AD, B = BM · BD

donde AM, BM representan vectores de magnitud, y AD, BD representan vectores de dirección.

Optimizador Global

Objetivo: Mejorar la capacidad de generalización del modelo global
Estrategia: Enfoque en ajustar vectores de dirección de la matriz A

Fórmula de agregación federada:

ĀD = (1/N) ∑(i=1 a N) AD,i
ĀM = (1/N) ∑(i=1 a N) AM,i  
B̄M = (1/N) ∑(i=1 a N) BM,i
B̄D = (1/N) ∑(i=1 a N) BD,i

Actualización del modelo global:

Wg = W0 + B̄M · B̄D · ĀM · (ĀD + ΔAD,g)

Optimizador Local

Objetivo: Mejorar el rendimiento del modelo personalizado
Estrategia: Enfoque en ajustar vectores de magnitud de la matriz B

Actualización del modelo local:

Wl = Wg + (B̄'M + ΔB'M,l) · B̄'D · Ā'M · Ā'D

Función de pérdida local:

Llocal = Ltask(Wlx,y) + (λ/2)||ΔMl||²F

Fórmula de actualización de gradiente:

∇ΔMlocalLlocal = B̄'D · Ā'M · Ā'D · ∇ypredLtask + λ · ΔMlocal

Puntos de Innovación Técnica

Optimización Diferenciada Basada en Sensibilidad: Según las diferentes sensibilidades de las matrices A y B a cambios de dirección y magnitud, se adoptan estrategias de optimización específicas
Diseño de Arquitectura de Canalización: El optimizador global entrena primero el modelo global, y el optimizador local realiza después ajuste fino de personalización basado en el modelo global
Control de Parámetros de Grano Fino: Se controlan por separado las actualizaciones de vectores de dirección y magnitud, logrando un ajuste fino de parámetros más preciso

Configuración Experimental

Conjuntos de Datos

Databricks-Dolly-15k: Conjunto de datos de ajuste fino de instrucciones que contiene múltiples tareas descendentes
Instrucciones Naturales: Conjunto de datos de instrucciones naturales
Tipos de Tareas: Se seleccionan tres tareas representativas para simular entornos heterogéneos
- Razonamiento Causal (Causal)
- Preguntas y Respuestas (QA)
- Extracción de Información (IE)
División de Datos: 80% conjunto de entrenamiento, 20% conjunto de prueba

Métricas de Evaluación

Precisión (Accuracy): Se mide la precisión de las respuestas a través de la similitud semántica entre la salida del modelo y la respuesta objetivo
Rendimiento Global: Desempeño en todas las combinaciones de tareas (ALL)
Rendimiento Local: Desempeño en tareas específicas individuales

Métodos de Comparación

LoRA: Algoritmo LoRA estándar, solo entrena parámetros de adaptador
Prompt Tuning: Técnica de ajuste fino ligero basada en indicaciones
Adapt Tuning: Otro método de ajuste fino eficiente en parámetros

Detalles de Implementación

Modelos: LLaMA2-7B, DeepSeek-7B
Parámetros de LoRA: rank=8, factor de escala=32, dropout=0,1
Capas de Aplicación: Solo aplicado a subramas Q y V de autoatención
Hardware: Servidor Linux A800, 100GB RAM, CPU Intel Xeon Gold 6348 de 14 núcleos

Resultados Experimentales

Resultados Principales

Resultados de LLaMA2-7B

Conjunto de Datos de Instrucciones Naturales:

Tarea PH: 11,62% vs 11,46% de LoRA
Tarea QA: 66,69% vs 61,69% de LoRA
Tarea IE: 21,18% vs 22,85% de LoRA
Tarea ALL: 32,44% vs 33,04% de LoRA
Mejora General de Precisión del 0,73%

Conjunto de Datos Databricks-Dolly-15k:

Tarea Causal: 18,99% vs 18,59% de LoRA
Tarea QA: 40,57% vs 40,48% de LoRA
Tarea IE: 27,91% vs 25,91% de LoRA
Tarea ALL: 26,20% vs 25,70% de LoRA
Mejora General de Precisión del 0,75%

Resultados de DeepSeek-7B

Conjunto de Datos de Instrucciones Naturales:

Mejora general del 1,11%, de 6,00% a 6,44%

Conjunto de Datos Databricks-Dolly-15k:

Mejora general del 0,53%, de 18,90% a 20,10%

Análisis de Parámetros

A través del análisis de diferentes configuraciones de rank, se descubre que el modelo alcanza el mejor rendimiento cuando r=8, n=2, con una precisión del 18,59% en la tarea de razonamiento causal.

Experimentos de Ablación

Validación de Efectividad de la Estructura de Canalización:

Se compara la estructura de canalización "optimización global + optimización local" con el método que solo usa optimización local
Los resultados experimentales muestran que el modo de canalización es superior al modo no-canalización en las tres tareas (Causal, IE, QA)
Se demuestra la efectividad de la estrategia de entrenamiento por etapas

Descubrimientos Experimentales

Se Verifica la Diferencia de Sensibilidad Dirección vs Magnitud: Los cambios de dirección de la matriz A son efectivamente aproximadamente 1,7 veces mayores que los de la matriz B, y los cambios de magnitud de la matriz B son aproximadamente 41 veces mayores que los de la matriz A
Necesidad de la Arquitectura de Canalización: La optimización global seguida de optimización local es mejor que la optimización local directa
Importancia de la Configuración de Parámetros: La configuración apropiada de rank tiene un impacto significativo en el rendimiento

Trabajo Relacionado

Ajuste Fino Eficiente en Parámetros

Adaptadores: Inserción de módulos pequeños entrenables en capas Transformer
LoRA: Descomposición de matrices de peso en componentes de bajo rango, actualizando solo módulos derivados
DoRA: Descomposición adicional de matrices de LoRA en "magnitud + dirección"
Prompt Tuning: Guía de modelos a través de indicaciones de texto cuidadosamente diseñadas

Aprendizaje Federado

FedAvg: Optimización global mediante promediación de actualizaciones, pero con mal desempeño bajo heterogeneidad de datos
FedProx: Adición de término proximal para restringir desviación de actualización local
SCAFFOLD: Uso de variables de control para corregir "desviación del cliente"
Aprendizaje Federado Personalizado: Construcción de modelos de cliente personalizados

Ajuste Fino Federado Eficiente en Parámetros

FFA-LoRA: Fijación de una matriz de bajo rango mientras se ajusta la otra para mejorar estabilidad
Métodos de Optimización de Orden Cero: Logro de ajuste fino federado de modelos grandes mediante intercambio de semillas aleatorias

Conclusiones y Discusión

Conclusiones Principales

Valor del Análisis de Grano Fino: El análisis de grano fino de cambios de dirección y magnitud de matrices de LoRA revela patrones de diferencia de sensibilidad importantes
Efectividad de Estrategias de Optimización Diferenciada: Las estrategias de optimización diferenciada dirigidas a vectores de dirección de la matriz A y vectores de magnitud de la matriz B pueden mejorar simultáneamente la generalización global y la capacidad de personalización local
Ventajas de la Arquitectura de Canalización: La optimización colaborativa global-local es más efectiva que la optimización local pura

Limitaciones

Mejora de Rendimiento Limitada: Aunque el método es efectivo, la mejora general de rendimiento es relativamente limitada (0,39%-0,59%)
Complejidad Computacional: La arquitectura de canalización aumenta la complejidad computacional del entrenamiento
Rango de Aplicabilidad: Se verifica principalmente en modelos de lenguaje grande, con generalización en otros tipos de modelos aún por verificar
Dependencia del Grado de Heterogeneidad: La efectividad del método puede depender del grado de heterogeneidad de datos

Direcciones Futuras

Los autores proponen explorar en el futuro estrategias de optimización para mejorar la adaptabilidad del modelo en entornos heterogéneos y la eficiencia de ajuste fino, incluyendo:

Optimización adicional del mecanismo de colaboración global-local
Exploración de estrategias de descomposición y agregación de parámetros más eficientes
Extensión a más tipos de modelos y tareas

Evaluación Profunda

Fortalezas

Perspectiva Teórica Innovadora: Por primera vez se analiza desde una perspectiva de grano fino la diferencia de sensibilidad de matrices de LoRA, proporcionando base teórica para estrategias de optimización
Diseño de Método Razonable: Las estrategias de optimización diferenciada diseñadas basadas en observaciones empíricas tienen fuerte racionalidad
Diseño Experimental Completo: Incluye experimentos de comparación suficientes, análisis de parámetros y experimentos de ablación
Definición Clara del Problema: Identifica con precisión los desafíos clave en ajuste fino federado de LoRA

Insuficiencias

Magnitud Limitada de Mejora de Rendimiento: Comparada con la complejidad del método, la mejora de rendimiento es relativamente pequeña
Análisis Teórico Insuficientemente Profundo: Falta explicación teórica de por qué las matrices A y B exhiben diferentes sensibilidades
Escala Experimental Limitada: Solo se verifica en dos modelos y dos conjuntos de datos, con generalización aún por fortalecer
Falta de Análisis de Costo Computacional: No se proporciona análisis detallado de costos computacionales y de comunicación

Impacto

Contribución Académica: Proporciona nuevas perspectivas de investigación para ajuste fino eficiente en parámetros en aprendizaje federado
Valor Práctico: Tiene potencial de aplicación en escenarios de ajuste fino de modelos grandes distribuidos sensibles a privacidad
Reproducibilidad: El artículo proporciona configuración experimental detallada y configuración de parámetros

Escenarios de Aplicación

Este método es particularmente adecuado para:

Escenarios de Ajuste Fino de Modelos Grandes Distribuidos Sensibles a Privacidad de Datos
Entornos de Aprendizaje Federado con Fuerte Heterogeneidad de Datos
Escenarios de Aplicación que Requieren Equilibrio entre Generalización Global y Personalización
Entornos con Recursos Computacionales Limitados pero que Requieren Ajuste Fino Eficiente

Referencias

El artículo cita 25 referencias relacionadas, cubriendo trabajos importantes en campos clave como LoRA, aprendizaje federado y ajuste fino eficiente en parámetros, proporcionando una base teórica sólida para la investigación.

Evaluación General: Este es un trabajo valioso en el campo de intersección del aprendizaje federado y ajuste fino eficiente en parámetros. Aunque la mejora de rendimiento es relativamente limitada, la perspectiva de análisis de grano fino propuesta y la estrategia de optimización diferenciada proporcionan nuevas ideas de investigación para el campo, con cierto valor académico y potencial práctico.