2025-11-25T14:25:18.089963

FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios

Zhao, Zhu, Zhang et al.

Federated efficient fine-tuning has emerged as an approach that leverages distributed data and computational resources across nodes to address the challenges of large-scale fine-tuning and privacy preservation. The Low-Rank Adaptation (LoRA) enables efficient fine-tuning of large-scale pre-trained models by introducing trainable low-rank matrices into weight updates.However, in heterogeneous data scenarios, client drift weakens the generalization of the global model, and local models often fail to meet the personalized needs of individual clients.Moreover, existing federated LoRA efficient fine-tuning techniques overlook fine-grained analysis of the tuning matrices. To address this, we conducted preliminary experiments and found that different LoRA matrices exhibit different sensitivity to changes in the direction and magnitude of their vectors.We thus propose a fine-grained federated LoRA tuning method. By fine-tuning the more sensitive directional vectors in the A matrix, which encode shared knowledge, our method learns shared features more effectively across clients and enhances global generalization. Simultaneously, by fine-tuning the more sensitive magnitude vectors in the B matrix, which encode personalized knowledge, our method better captures personalized knowledge, enabling detailed adaptation to local data. The method uses a pipeline combining global and local optimizers. Global optimization further improves local models, achieving collaborative optimization between global and local levels. This improves both the generalization ability of the global model and the personalized adaptation of local models under heterogeneous data scenarios. Experiments on Databricks-Dolly-15k and Natural Instructions with LLaMA2-7B and Deepseek-7B confirm that our method improves global performance by 0.39% and local performance by 0.59%.

academic

FedLoRA-Optimizer: Федеративная тонкая настройка LoRA с глобальной и локальной оптимизацией в сценариях гетерогенных данных

Основная информация

ID статьи: 2510.11274
Название: FedLoRA-Optimizer: Federated LoRA Fine-Tuning with Global and Local Optimization in Heterogeneous Data Scenarios
Авторы: Jianzhe Zhao, Hailin Zhu, Yu Zhang, Ziqi Chen, Guibing Guo (Северо-восточный университет)
Классификация: cs.LG (машинное обучение)
Дата публикации: 13 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.11274

Аннотация

Федеративная эффективная тонкая настройка решает проблемы крупномасштабной тонкой настройки и защиты конфиденциальности путем использования распределённых данных и вычислительных ресурсов между узлами. Адаптация низкого ранга (LoRA) обеспечивает эффективную тонкую настройку крупномасштабных предварительно обученных моделей путём введения обучаемых матриц низкого ранга в обновления весов. Однако в сценариях гетерогенных данных дрейф клиентов ослабляет способность глобальной модели к обобщению, а локальные модели часто не могут удовлетворить индивидуальные потребности отдельных клиентов. Кроме того, существующие методы федеративной эффективной тонкой настройки LoRA игнорируют детальный анализ матриц настройки. В данной работе проведены предварительные эксперименты, выявившие, что различные матрицы LoRA проявляют различную чувствительность к изменениям направления и амплитуды их векторов. На основе этого открытия предлагается детальный метод федеративной настройки LoRA, который более эффективно изучает общие характеристики между клиентами путём настройки более чувствительных векторов направления, кодирующих общие знания в матрице A, что повышает способность глобального обобщения; одновременно лучше захватывает персонализированные знания путём настройки более чувствительных векторов амплитуды, кодирующих персонализированные знания в матрице B. Метод использует архитектуру конвейера, объединяющую глобальный и локальный оптимизаторы, улучшая способность глобальной модели к обобщению и адаптивность локальной модели к персонализации в сценариях гетерогенных данных.

Исследовательский контекст и мотивация

Исследуемые проблемы

Основные проблемы, решаемые в данной работе, включают:

Проблема дрейфа клиентов: Различия в распределении данных между клиентами в среде федеративного обучения с гетерогенными данными приводят к снижению способности глобальной модели к обобщению
Недостаточность персонализации: Локальные модели не могут хорошо удовлетворить индивидуальные потребности каждого клиента
Отсутствие детального анализа: Существующие методы игнорируют тонкий анализ матриц настройки LoRA

Важность проблемы

С широким применением крупных предварительно обученных моделей эффективная распределённая тонкая настройка при сохранении конфиденциальности становится ключевым вызовом. Федеративное обучение предоставляет решение, но сталкивается с деградацией производительности в сценариях гетерогенных данных, что напрямую влияет на эффективность крупных моделей в практических приложениях.

Ограничения существующих методов

Традиционные методы федеративного обучения: Такие как FedAvg, испытывают трудности с конвергенцией при гетерогенности данных, что приводит к снижению точности
Существующие методы федеративного LoRA: Сосредоточены в основном на проектировании архитектуры модели, но не проводят детальный анализ изменений матриц настройки
Методы параметрической эффективности: Хотя и снижают затраты на коммуникацию, баланс между глобальным обобщением и персональной адаптацией в гетерогенной среде остаётся сложным

Исследовательская мотивация

Авторы обнаружили через эксперименты, что матрицы A и B LoRA проявляют различные модели чувствительности к изменениям направления и амплитуды, что обеспечивает теоретическую основу для разработки целевых стратегий оптимизации.

Основные вклады

Детальный эмпирический анализ: Впервые проведён детальный анализ изменений направления и амплитуды матриц настройки LoRA, выявивший, что изменения направления матрицы A примерно в 1,7 раза больше, чем матрицы B, а изменения амплитуды матрицы B примерно в 41 раз больше, чем матрицы A
Детальный метод федеративной тонкой настройки для гетерогенных данных: Предложен метод отдельной оптимизации высокочувствительных векторов направления в матрице A и высокочувствительных векторов амплитуды в матрице B, значительно повышающий способность глобальной модели к обобщению и адаптивность локальной модели
Архитектура совместной глобально-локальной оптимизации: Разработана архитектура конвейера, объединяющая глобальный и локальный оптимизаторы, обеспечивающая совместную оптимизацию на глобальном и локальном уровнях
Экспериментальная верификация: Проведена верификация на моделях LLaMA2-7B и Deepseek-7B с использованием наборов данных Databricks-Dolly-15k и Natural Instructions, показавшая повышение точности глобальных задач примерно на 0,39% и локальных задач примерно на 0,59%

Подробное описание метода

Определение задачи

В данной работе исследуется задача эффективной тонкой настройки больших языковых моделей в среде федеративного обучения. Учитывая N клиентов, каждый из которых обладает локальным набором данных Di, целью является обучение модели, которая не требует совместного использования исходных данных, но обладает как хорошей способностью к глобальному обобщению, так и удовлетворяет индивидуальные потребности каждого клиента.

Ключевые наблюдения и открытия

Через экспериментальный анализ на модели LLaMA2-7B авторы выявили два важных наблюдения:

Наблюдение 1: Изменения направления матрицы A примерно в 1,7 раза больше, чем матрицы B

Матрица A в основном кодирует общие знания между задачами, служа "базовой структурой" глобальных знаний
Изменения векторов направления напрямую влияют на производительность обучения глобальных задач

Наблюдение 2: Изменения амплитуды матрицы B примерно в 41 раз больше, чем матрицы A

Матрица B в основном кодирует информацию персонализации, специфичную для задачи
Изменения векторов амплитуды играют ключевую роль в эффективности обучения нижестоящих задач

Архитектура модели

Стратегия разложения матриц

Заимствуя идею из DoRA, матрицы LoRA разлагаются на компоненты направления и амплитуды:

A = AM · AD, B = BM · BD

где AM, BM обозначают векторы амплитуды, AD, BD обозначают векторы направления.

Глобальный оптимизатор

Цель: Повышение способности глобальной модели к обобщению
Стратегия: Основной акцент на корректировку векторов направления матрицы A

Формула федеративной агрегации:

ĀD = (1/N) ∑(i=1 to N) AD,i
ĀM = (1/N) ∑(i=1 to N) AM,i  
B̄M = (1/N) ∑(i=1 to N) BM,i
B̄D = (1/N) ∑(i=1 to N) BD,i

Обновление глобальной модели:

Wg = W0 + B̄M · B̄D · ĀM · (ĀD + ΔAD,g)

Локальный оптимизатор

Цель: Повышение производительности персонализированной модели
Стратегия: Основной акцент на корректировку векторов амплитуды матрицы B

Обновление локальной модели:

Wl = Wg + (B̄'M + ΔB'M,l) · B̄'D · Ā'M · Ā'D

Функция локальной потерь:

Llocal = Ltask(Wlx,y) + (λ/2)||ΔMl||²F

Формула обновления градиента:

∇ΔMlocalLlocal = B̄'D · Ā'M · Ā'D · ∇ypredLtask + λ · ΔMlocal

Технические инновации

Дифференцированная оптимизация на основе чувствительности: В соответствии с различной чувствительностью матриц A и B к изменениям направления и амплитуды применяются целевые стратегии оптимизации
Проектирование архитектуры конвейера: Глобальный оптимизатор сначала обучает глобальную модель, затем локальный оптимизатор выполняет персонализированную настройку на основе глобальной модели
Детальное управление параметрами: Отдельное управление обновлениями векторов направления и амплитуды обеспечивает более тонкую настройку параметров

Экспериментальная установка

Наборы данных

Databricks-Dolly-15k: Набор данных инструкций по тонкой настройке, содержащий различные нижестоящие задачи
Natural Instructions: Набор данных естественных инструкций
Типы задач: Три репрезентативные задачи для моделирования гетерогенной среды
- Причинно-следственное рассуждение (Causal)
- Вопросно-ответные системы (QA)
- Извлечение информации (IE)
Разделение данных: 80% обучающий набор, 20% тестовый набор

Метрики оценки

Точность (Accuracy): Измеряется через семантическое сходство между выходом модели и целевым ответом
Глобальная производительность: Производительность на всех комбинациях задач (ALL)
Локальная производительность: Производительность на конкретных задачах

Методы сравнения

LoRA: Стандартный алгоритм LoRA, обучающий только параметры адаптера
Prompt Tuning: Лёгкая техника тонкой настройки на основе подсказок
Adapt Tuning: Альтернативный метод параметрически эффективной тонкой настройки

Детали реализации

Модели: LLaMA2-7B, DeepSeek-7B
Параметры LoRA: rank=8, коэффициент масштабирования=32, dropout=0.1
Применяемые слои: Только подслои Q и V самовнимания
Оборудование: Сервер A800 Linux, 100GB RAM, 14-ядерный Intel Xeon Gold 6348 CPU

Результаты экспериментов

Основные результаты

Результаты LLaMA2-7B

Набор данных Natural Instructions:

Задача PH: 11,62% против 11,46% для LoRA
Задача QA: 66,69% против 61,69% для LoRA
Задача IE: 21,18% против 22,85% для LoRA
Задача ALL: 32,44% против 33,04% для LoRA
Общее повышение точности на 0,73%

Набор данных Databricks-Dolly-15k:

Задача Causal: 18,99% против 18,59% для LoRA
Задача QA: 40,57% против 40,48% для LoRA
Задача IE: 27,91% против 25,91% для LoRA
Задача ALL: 26,20% против 25,70% для LoRA
Общее повышение точности на 0,75%

Результаты DeepSeek-7B

Набор данных Natural Instructions:

Общее улучшение на 1,11%, с 6,00% до 6,44%

Набор данных Databricks-Dolly-15k:

Общее улучшение на 0,53%, с 18,90% до 20,10%

Анализ параметров

Анализ различных настроек ранга показал, что модель достигает оптимальной производительности при r=8, n=2, с точностью 18,59% на задаче причинно-следственного рассуждения.

Абляционные исследования

Верификация эффективности структуры конвейера:

Сравнение структуры конвейера "глобальная оптимизация + локальная оптимизация" с методом, использующим только локальную оптимизацию
Результаты экспериментов показывают, что режим конвейера превосходит неконвейерный режим на всех трёх задачах (Causal, IE, QA)
Подтверждена эффективность стратегии поэтапного обучения

Экспериментальные открытия

Верификация дифференцированной чувствительности направления и амплитуды: Подтверждено, что изменения направления матрицы A действительно примерно в 1,7 раза больше, чем матрицы B, а изменения амплитуды матрицы B примерно в 41 раз больше, чем матрицы A
Необходимость архитектуры конвейера: Локальная оптимизация после глобальной оптимизации показывает лучшие результаты, чем прямая локальная оптимизация
Важность настройки параметров: Надлежащая настройка ранга оказывает значительное влияние на производительность

Связанные работы

Параметрически эффективная тонкая настройка

Adapters: Вставка небольших обучаемых модулей в слои Transformer
LoRA: Разложение матриц весов на компоненты низкого ранга, обновление только модулей обхода
DoRA: Дальнейшее разложение матриц LoRA на "амплитуду + направление"
Prompt Tuning: Руководство моделью через тщательно разработанные текстовые подсказки

Федеративное обучение

FedAvg: Глобальная оптимизация через усреднение обновлений, но плохая производительность при гетерогенности данных
FedProx: Добавление проксимального члена для ограничения отклонения локальных обновлений
SCAFFOLD: Использование управляющих переменных для коррекции "дрейфа клиентов"
Персонализированное федеративное обучение: Построение настраиваемых моделей для клиентов

Параметрически эффективная федеративная тонкая настройка

FFA-LoRA: Фиксирование одной матрицы низкого ранга при одновременной тонкой настройке другой для повышения стабильности
Методы нулевого порядка: Реализация федеративной тонкой настройки крупных моделей через совместное использование случайных семян

Заключение и обсуждение

Основные выводы

Ценность детального анализа: Детальный анализ изменений направления и амплитуды матриц LoRA выявляет важные модели различной чувствительности
Эффективность дифференцированных стратегий оптимизации: Дифференцированные стратегии оптимизации для векторов направления матрицы A и векторов амплитуды матрицы B могут одновременно повысить как глобальное обобщение, так и локальную персонализацию
Преимущества архитектуры конвейера: Совместная глобально-локальная оптимизация более эффективна, чем чистая локальная оптимизация

Ограничения

Ограниченное повышение производительности: Хотя метод эффективен, общее повышение производительности относительно ограничено (0,39%-0,59%)
Вычислительная сложность: Архитектура конвейера увеличивает вычислительную сложность обучения
Область применения: Основная верификация проведена на больших языковых моделях, обобщаемость на другие типы моделей требует дальнейшей проверки
Зависимость от степени гетерогенности: Эффективность метода может зависеть от степени гетерогенности данных

Направления будущих исследований

Авторы предлагают в будущем исследовать стратегии оптимизации для повышения адаптивности модели в гетерогенной среде и эффективности тонкой настройки, включая:

Дальнейшую оптимизацию механизма совместной глобально-локальной оптимизации
Исследование более эффективных стратегий разложения и агрегации параметров
Расширение на большее количество типов моделей и задач

Глубокая оценка

Преимущества

Инновационные теоретические идеи: Впервые проведён анализ различий чувствительности матриц LoRA с детальной точки зрения, обеспечивающий теоретическую основу для стратегий оптимизации
Разумное проектирование метода: Дифференцированные стратегии оптимизации, разработанные на основе эмпирических наблюдений, обладают высокой обоснованностью
Полный дизайн экспериментов: Включает достаточное количество сравнительных экспериментов, анализ параметров и абляционные исследования
Чёткое определение проблемы: Точное выявление ключевых вызовов в федеративной тонкой настройке LoRA

Недостатки

Ограниченный прирост производительности: Относительно сложности метода прирост производительности относительно небольшой
Недостаточно глубокий теоретический анализ: Отсутствует теоретическое объяснение причин различной чувствительности матриц A и B
Ограниченный масштаб экспериментов: Верификация проведена только на двух моделях и двух наборах данных, обобщаемость требует укрепления
Отсутствие анализа вычислительных затрат: Не предоставлен детальный анализ вычислительных и коммуникационных затрат

Влияние

Академический вклад: Предоставляет новые идеи исследований для параметрически эффективной тонкой настройки в федеративном обучении
Практическая ценность: Обладает потенциалом применения в сценариях распределённой тонкой настройки крупных моделей с защитой конфиденциальности
Воспроизводимость: Статья предоставляет детальные настройки экспериментов и конфигурации параметров

Применимые сценарии

Метод особенно применим в:

Сценариях распределённой тонкой настройки крупных моделей, чувствительных к конфиденциальности данных
Среде федеративного обучения с высокой гетерогенностью данных
Приложениях, требующих баланса между глобальным обобщением и персонализацией
Среде с ограниченными вычислительными ресурсами, но требующей эффективной тонкой настройки

Библиография

Статья цитирует 25 связанных работ, охватывающих ключевые области LoRA, федеративного обучения и параметрически эффективной тонкой настройки, обеспечивая прочную теоретическую основу для исследования.

Общая оценка: Это ценная работа в области пересечения федеративного обучения и параметрически эффективной тонкой настройки. Хотя прирост производительности относительно ограничен, предложенная детальная перспектива анализа и дифференцированные стратегии оптимизации предоставляют новые идеи исследований для данной области и обладают определённой академической ценностью и практическим потенциалом.