2025-11-17T20:07:13.334490

Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning

Yuan, Chen, Zhang

Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.

academic

Удалить сорняки, затем собирать урожай: двойная низкоранговая адаптация как эффективный детектор шумных меток для обучения, устойчивого к шуму

Основная информация

ID статьи: 2510.10208
Название: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
Авторы: Bo Yuan, Yulin Chen, Yin Zhang (Чжэцзянский университет)
Категория: cs.CL (вычислительная лингвистика)
Дата публикации: 11 октября 2024 г.
Ссылка на статью: https://arxiv.org/abs/2510.10208v1

Аннотация

Параметрически эффективная тонкая настройка (PEFT) больших языковых моделей показывает отличные результаты на различных нисходящих задачах, однако данные обучения в реальных сценариях неизбежно содержат шумные метки. Существующие методы обучения с шумными метками обычно выбирают образцы с малыми потерями для обучения, но такой выбор влияет на вычисление потерь в следующем раунде, и неточный начальный выбор создает порочный круг. В данной статье предлагается фреймворк Delora, который разрывает этот цикл путем разделения выбора образцов и обучения модели. Фреймворк вводит чистую LoRA и шумную LoRA для построения детектора шумных меток, используя эффект памяти, чтобы чистая LoRA запоминала чистые данные, а шумная LoRA запоминала неправильно помеченные данные в качестве обучаемого порога для выбора образцов. Экспериментальные результаты демонстрируют эффективность Delora при обнаружении шумных меток и классификации текста.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: как обрабатывать неизбежные шумные метки в данных обучения при параметрически эффективной тонкой настройке больших языковых моделей
Значимость: процесс сбора данных в реальном мире неизбежно содержит ошибки аннотирования, которые серьезно влияют на производительность модели и способность к обобщению
Ограничения существующих методов:
- Традиционная стратегия выбора образцов с малыми потерями страдает от проблемы "порочного круга": выбор образцов влияет на вычисление потерь, а вычисление потерь влияет на выбор образцов
- Зависимость от ручной установки порога, ограниченная практическая применимость
- Нестабильная производительность в сценариях с высоким уровнем шума

Исследовательская мотивация

Авторы заметили, что фундаментальная проблема существующих методов заключается в связанности выбора образцов и обучения модели. Они предложили ключевое понимание: можно ли разделить выбор образцов и обучение модели, сделав их независимыми друг от друга? Эта идея вдохновила на разработку основного фреймворка статьи.

Основные вклады

Предложение разделяющего фреймворка: впервые разложена задача обучения с шумными метками на два независимых этапа: выбор образцов и обучение модели, эффективно избегая порочного круга
Инновационный двойной детектор LoRA: введены чистая LoRA и шумная LoRA для отдельного запоминания чистых и шумных образцов, построен обучаемый детектор шумных меток
Механизм динамических ограничений: разработана стратегия динамической регуляризации на основе эффекта памяти для управления режимом обновления параметров различных LoRA
Широкая экспериментальная проверка: метод проверен на синтетических и реальных наборах данных с шумом, достигнуты значительные улучшения при обнаружении шумных меток и классификации текста

Подробное описание метода

Определение задачи

Дан набор данных обучения $D=\{(x_i, y_i)\}_{i=1}^N$ , где $y \in \{1, \ldots, K\}$ — наблюдаемая метка, которая может быть ошибочной. Цель — обучить надежный классификатор, способный достичь хорошей обобщающей способности при наличии шумных меток.

Архитектура модели

Фреймворк Delora включает два основных этапа:

Этап 1: Обучение детектора шумных меток

Дизайн двойной LoRA:

Чистая LoRA ( $\Delta w_c$ ): идеальные параметры для запоминания чистых образцов
Шумная LoRA ( $\Delta w_n$ ): параметры шума для запоминания неправильно помеченных образцов

Механизм обучаемого порога: Для $i$ -го образца обучения обучаемый порог определяется как: $\phi_i = CE(f(x_i, w_0 + \Delta w_n), y_i)$

Критерий выбора образца: $D_c = \{(x_i, y_i) | CE(f(x_i, w_0 + \Delta w_c), y_i) < \phi_i\}$

Оптимизация с динамическими ограничениями: $L_{LoRA} = \tau_1(t)\Delta\sigma_c + \tau_2(t)\Delta\sigma_n$

где:

$\tau_1(t) = t^{h_1}$ (возрастающая функция, ограничивающая чистую LoRA)
$\tau_2(t) = t^{-h_2}$ (убывающая функция, ограничивающая шумную LoRA)
$\Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c||$ (величина изменения параметров)

Целевая функция оптимизации детектора: Использование вероятности чистоты для бинарной классификации: $p_i^c = \frac{e^{CE(f(x_i,w_0+\Delta w_c),y_i)}}{e^{CE(f(x_i,w_0+\Delta w_c),y_i)} + e^{CE(f(x_i,w_0+\Delta w_n),y_i)}}$

Общая целевая функция оптимизации: $L = L_{ce} + L_{LoRA} + L_{Detector}$

Этап 2: Обучение классификатора

Чистые образцы: прямое обучение с использованием потерь перекрестной энтропии
Шумные образцы: переаннотирование с помощью GPT-4o, обучение с использованием обратных потерь перекрестной энтропии для надежного обучения

Технические инновации

Разделяющий дизайн: полное разделение выбора образцов и обучения модели, избегание взаимного влияния
Использование эффекта памяти: умелое использование свойства глубоких сетей сначала запоминать чистые образцы, затем запоминать шумные образцы
Обучаемый порог: использование предсказания шумной LoRA в качестве управляемого данными порога, без необходимости ручной настройки параметров
Функциональное разделение на уровне параметров: реализация функционального разделения на уровне параметров, независимо от конкретной архитектуры

Экспериментальная установка

Наборы данных

Наборы данных с синтетическим шумом:

Trec, SST-2, SST-5, 20ng, AGNews
Типы шума: симметричный шум (S), асимметричный шум (A), шум, зависящий от экземпляра (I)
Уровни шума: 20%, 40%

Наборы данных с реальным шумом:

Hausa (уровень шума 50,37%)
Yorùbá (уровень шума 33,28%)
AlleNoise (уровень шума 15,00%)

Метрики оценки

Этап обнаружения шума: точность (Precision) и полнота (Recall)
Этап классификации: точность тестирования (Test Accuracy)

Методы сравнения

Базовая модель: Llama3.1-8B-Instruct
Методы обучения с шумом: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
Методы обнаружения: LLMs-detection, Small-loss strategy

Детали реализации

Основная модель: LLaMA-3.1-8B-Instruct
Ранг LoRA: r=32
Количество эпох обучения: 8 эпох для детектора, 6 эпох для классификатора
Количество эпох разогрева: 2 эпохи
Скорость обучения: 1e-4, 5e-4

Экспериментальные результаты

Основные результаты

Производительность обнаружения шумных меток: На наборе данных Trec Delora значительно превосходит базовые методы:

20% симметричный шум: точность 99,47% против 81,15% (Small-loss)
40% асимметричный шум: полнота 97,27% против 96,20% (Small-loss)

Производительность классификации текста:

Набор данных	Установка шума	Base	NoiseAL	Delora
Trec	20%S	95.20	97.30	98.46
Trec	40%A	87.40	95.95	97.40
SST-5	20%S	54.08	55.00	57.39

Результаты на наборах данных с реальным шумом:

Набор данных	Уровень шума	NoiseAL	Delora	Улучшение
Hausa	50.37%	52.34	60.12	+7.78%
Yorùbá	33.28%	72.13	78.56	+6.43%

Абляционные исследования

Исследование абляции на наборе данных Trec показывает:

Удаление детектора шумных меток (NLD): значительное снижение производительности (98.46→95.20)
Удаление обучения классификатора (CT): заметное снижение производительности
Удаление различных целевых функций ( $L_{LoRA}$ , $L_{Detector}$ , $L_{ce}$ ): все приводят к снижению производительности
Удаление переаннотирования шумных образцов: снижение производительности примерно на 4%

Анализ эффекта памяти

Эксперименты подтверждают режимы памяти различных LoRA:

Чистая LoRA: усиливает запоминание чистых образцов, снижает запоминание шумных образцов
Шумная LoRA: демонстрирует противоположный режим, в основном поглощает негативное влияние шумных образцов
Базовая модель: следует эффекту памяти, сначала запоминая чистые образцы, затем шумные образцы

Анализ эффективности

По сравнению с базовым методом одиночной LoRA:

Увеличение параметров: +13,6 МБ
Увеличение памяти: +3,2 ГБ
Улучшение производительности: +3,26%~+10%

Анализ параметрической и памятной эффективности показывает, что Delora достигает более оптимальной границы Парето в трехмерном пространстве компромисса точность-параметры-память.

Связанные работы

Обучение с шумными метками

Методы выбора образцов: Co-Teaching, SelfMix и другие методы на основе механизма малых потерь
Установка порога: стратегии фиксированного порога против динамического порога
Ограничения: зависимость от модели во время обучения, склонность к порочному кругу

Параметрически эффективная тонкая настройка

Основные методы: LoRA, Adapter, Prompt tuning
Надежность к шуму: методы, такие как CleaR, исследуют производительность PEFT в условиях шума
Вклад данной работы: использование ограниченной емкости PEFT для отдельного запоминания чистых и шумных образцов

Заключение и обсуждение

Основные выводы

Разделение выбора образцов и обучения модели эффективно избегает проблемы порочного круга при обучении с шумными метками
Дизайн двойной LoRA в сочетании с эффектом памяти эффективно различает чистые и шумные образцы
Метод показывает отличные результаты при различных установках шума и на реальных наборах данных, обладая хорошей способностью к обобщению

Ограничения

Ограничения масштаба: из-за ограничений ресурсов метод не проверен на более крупных языковых моделях (например, Llama-3.2 70B)
Ограничения задач: эксперименты ограничены задачами классификации текста, не исследованы другие задачи, такие как генерация текста
Вычислительные затраты: дизайн двойной LoRA увеличивает дополнительные параметры и вычислительные затраты

Будущие направления

Расширение на более крупные языковые модели
Исследование применения при генерации текста
Дальнейшая оптимизация вычислительной и параметрической эффективности

Глубокая оценка

Преимущества

Сильная инновационность:
- Впервые предложен фреймворк разделения выбора образцов и обучения модели, фундаментально решающий проблему порочного круга
- Дизайн двойной LoRA умело использует эффект памяти для реализации функционального разделения на уровне параметров
Прочная теоретическая база:
- Теоретическая поддержка на основе эффекта памяти глубоких сетей
- Четкие математические выводы, разумные целевые функции оптимизации
Полные эксперименты:
- Охватывают различные типы и уровни шума
- Включают синтетические и реальные наборы данных с шумом
- Подробные абляционные исследования и анализ
Высокая практическая ценность:
- Не требует ручной установки порога
- Может адаптироваться к различным моделям классификаторов
- Отличная производительность в сценариях с высоким уровнем шума

Недостатки

Вычислительная сложность:
- Двухэтапное обучение увеличивает время обучения
- Дизайн двойной LoRA увеличивает количество параметров и потребление памяти
Чувствительность к гиперпараметрам:
- Параметры $h_1$ и $h_2$ в функции динамических ограничений требуют настройки для различных уровней шума
- Отсутствует стратегия адаптивного выбора гиперпараметров
Недостаточный теоретический анализ:
- Отсутствуют теоретические гарантии сходимости метода
- Не предоставлены теоретические границы точности обнаружения шума
Ограниченная область применения:
- Главным образом ориентирован на задачи классификации текста
- Эффективность на других задачах NLP не проверена

Влияние

Академический вклад:
- Предоставляет новый подход к решению проблем в области обучения с шумными метками
- Способствует применению методов PEFT в надежном обучении
Практическая ценность:
- Может быть непосредственно применен к практическим задачам классификации текста
- Предоставляет эффективный инструмент для обработки шумных данных в реальном мире
Воспроизводимость:
- Предоставлены подробные детали реализации и установки гиперпараметров
- Четкое описание алгоритма, удобное для воспроизведения

Применимые сценарии

Задачи классификации текста: особенно подходит для крупномасштабных сценариев классификации текста с низким качеством аннотирования
Среды с ограниченными ресурсами: характеристики PEFT делают его подходящим для приложений с ограниченными вычислительными ресурсами
Среды с высоким уровнем шума: особенно выделяется в сценариях с высоким уровнем шума (>40%)
Многоязычные приложения: имеет потенциал применения в задачах классификации текста на языках с низким уровнем ресурсов

Библиография

Данная статья ссылается на важные работы в области обучения с шумными метками и параметрически эффективной тонкой настройки, включая:

Han et al. (2018) - метод Co-Teaching
Hu et al. (2022) - метод LoRA
Kim et al. (2024) - метод CleaR
Yuan et al. (2024) - метод NoiseAL

Общая оценка: это высококачественная исследовательская статья, предлагающая инновационное решение в области обучения с шумными метками. Благодаря умному разделяющему дизайну и механизму двойной LoRA эффективно решена основная проблема существующих методов. Экспериментальная проверка полна, результаты убедительны. Несмотря на некоторые ограничения, ее инновационность и практическая ценность делают ее важным вкладом в данную область.