Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- ID статьи: 2510.10208
- Название: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- Авторы: Bo Yuan, Yulin Chen, Yin Zhang (Чжэцзянский университет)
- Категория: cs.CL (вычислительная лингвистика)
- Дата публикации: 11 октября 2024 г.
- Ссылка на статью: https://arxiv.org/abs/2510.10208v1
Параметрически эффективная тонкая настройка (PEFT) больших языковых моделей показывает отличные результаты на различных нисходящих задачах, однако данные обучения в реальных сценариях неизбежно содержат шумные метки. Существующие методы обучения с шумными метками обычно выбирают образцы с малыми потерями для обучения, но такой выбор влияет на вычисление потерь в следующем раунде, и неточный начальный выбор создает порочный круг. В данной статье предлагается фреймворк Delora, который разрывает этот цикл путем разделения выбора образцов и обучения модели. Фреймворк вводит чистую LoRA и шумную LoRA для построения детектора шумных меток, используя эффект памяти, чтобы чистая LoRA запоминала чистые данные, а шумная LoRA запоминала неправильно помеченные данные в качестве обучаемого порога для выбора образцов. Экспериментальные результаты демонстрируют эффективность Delora при обнаружении шумных меток и классификации текста.
- Основная проблема: как обрабатывать неизбежные шумные метки в данных обучения при параметрически эффективной тонкой настройке больших языковых моделей
- Значимость: процесс сбора данных в реальном мире неизбежно содержит ошибки аннотирования, которые серьезно влияют на производительность модели и способность к обобщению
- Ограничения существующих методов:
- Традиционная стратегия выбора образцов с малыми потерями страдает от проблемы "порочного круга": выбор образцов влияет на вычисление потерь, а вычисление потерь влияет на выбор образцов
- Зависимость от ручной установки порога, ограниченная практическая применимость
- Нестабильная производительность в сценариях с высоким уровнем шума
Авторы заметили, что фундаментальная проблема существующих методов заключается в связанности выбора образцов и обучения модели. Они предложили ключевое понимание: можно ли разделить выбор образцов и обучение модели, сделав их независимыми друг от друга? Эта идея вдохновила на разработку основного фреймворка статьи.
- Предложение разделяющего фреймворка: впервые разложена задача обучения с шумными метками на два независимых этапа: выбор образцов и обучение модели, эффективно избегая порочного круга
- Инновационный двойной детектор LoRA: введены чистая LoRA и шумная LoRA для отдельного запоминания чистых и шумных образцов, построен обучаемый детектор шумных меток
- Механизм динамических ограничений: разработана стратегия динамической регуляризации на основе эффекта памяти для управления режимом обновления параметров различных LoRA
- Широкая экспериментальная проверка: метод проверен на синтетических и реальных наборах данных с шумом, достигнуты значительные улучшения при обнаружении шумных меток и классификации текста
Дан набор данных обучения D={(xi,yi)}i=1N, где y∈{1,…,K} — наблюдаемая метка, которая может быть ошибочной. Цель — обучить надежный классификатор, способный достичь хорошей обобщающей способности при наличии шумных меток.
Фреймворк Delora включает два основных этапа:
Дизайн двойной LoRA:
- Чистая LoRA (Δwc): идеальные параметры для запоминания чистых образцов
- Шумная LoRA (Δwn): параметры шума для запоминания неправильно помеченных образцов
Механизм обучаемого порога:
Для i-го образца обучения обучаемый порог определяется как:
ϕi=CE(f(xi,w0+Δwn),yi)
Критерий выбора образца:
Dc={(xi,yi)∣CE(f(xi,w0+Δwc),yi)<ϕi}
Оптимизация с динамическими ограничениями:
LLoRA=τ1(t)Δσc+τ2(t)Δσn
где:
- τ1(t)=th1 (возрастающая функция, ограничивающая чистую LoRA)
- τ2(t)=t−h2 (убывающая функция, ограничивающая шумную LoRA)
- \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (величина изменения параметров)
Целевая функция оптимизации детектора:
Использование вероятности чистоты для бинарной классификации:
pic=eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)eCE(f(xi,w0+Δwc),yi)
Общая целевая функция оптимизации: L=Lce+LLoRA+LDetector
- Чистые образцы: прямое обучение с использованием потерь перекрестной энтропии
- Шумные образцы: переаннотирование с помощью GPT-4o, обучение с использованием обратных потерь перекрестной энтропии для надежного обучения
- Разделяющий дизайн: полное разделение выбора образцов и обучения модели, избегание взаимного влияния
- Использование эффекта памяти: умелое использование свойства глубоких сетей сначала запоминать чистые образцы, затем запоминать шумные образцы
- Обучаемый порог: использование предсказания шумной LoRA в качестве управляемого данными порога, без необходимости ручной настройки параметров
- Функциональное разделение на уровне параметров: реализация функционального разделения на уровне параметров, независимо от конкретной архитектуры
Наборы данных с синтетическим шумом:
- Trec, SST-2, SST-5, 20ng, AGNews
- Типы шума: симметричный шум (S), асимметричный шум (A), шум, зависящий от экземпляра (I)
- Уровни шума: 20%, 40%
Наборы данных с реальным шумом:
- Hausa (уровень шума 50,37%)
- Yorùbá (уровень шума 33,28%)
- AlleNoise (уровень шума 15,00%)
- Этап обнаружения шума: точность (Precision) и полнота (Recall)
- Этап классификации: точность тестирования (Test Accuracy)
- Базовая модель: Llama3.1-8B-Instruct
- Методы обучения с шумом: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
- Методы обнаружения: LLMs-detection, Small-loss strategy
- Основная модель: LLaMA-3.1-8B-Instruct
- Ранг LoRA: r=32
- Количество эпох обучения: 8 эпох для детектора, 6 эпох для классификатора
- Количество эпох разогрева: 2 эпохи
- Скорость обучения: 1e-4, 5e-4
Производительность обнаружения шумных меток:
На наборе данных Trec Delora значительно превосходит базовые методы:
- 20% симметричный шум: точность 99,47% против 81,15% (Small-loss)
- 40% асимметричный шум: полнота 97,27% против 96,20% (Small-loss)
Производительность классификации текста:
| Набор данных | Установка шума | Base | NoiseAL | Delora |
|---|
| Trec | 20%S | 95.20 | 97.30 | 98.46 |
| Trec | 40%A | 87.40 | 95.95 | 97.40 |
| SST-5 | 20%S | 54.08 | 55.00 | 57.39 |
Результаты на наборах данных с реальным шумом:
| Набор данных | Уровень шума | NoiseAL | Delora | Улучшение |
|---|
| Hausa | 50.37% | 52.34 | 60.12 | +7.78% |
| Yorùbá | 33.28% | 72.13 | 78.56 | +6.43% |
Исследование абляции на наборе данных Trec показывает:
- Удаление детектора шумных меток (NLD): значительное снижение производительности (98.46→95.20)
- Удаление обучения классификатора (CT): заметное снижение производительности
- Удаление различных целевых функций (LLoRA, LDetector, Lce): все приводят к снижению производительности
- Удаление переаннотирования шумных образцов: снижение производительности примерно на 4%
Эксперименты подтверждают режимы памяти различных LoRA:
- Чистая LoRA: усиливает запоминание чистых образцов, снижает запоминание шумных образцов
- Шумная LoRA: демонстрирует противоположный режим, в основном поглощает негативное влияние шумных образцов
- Базовая модель: следует эффекту памяти, сначала запоминая чистые образцы, затем шумные образцы
По сравнению с базовым методом одиночной LoRA:
- Увеличение параметров: +13,6 МБ
- Увеличение памяти: +3,2 ГБ
- Улучшение производительности: +3,26%~+10%
Анализ параметрической и памятной эффективности показывает, что Delora достигает более оптимальной границы Парето в трехмерном пространстве компромисса точность-параметры-память.
- Методы выбора образцов: Co-Teaching, SelfMix и другие методы на основе механизма малых потерь
- Установка порога: стратегии фиксированного порога против динамического порога
- Ограничения: зависимость от модели во время обучения, склонность к порочному кругу
- Основные методы: LoRA, Adapter, Prompt tuning
- Надежность к шуму: методы, такие как CleaR, исследуют производительность PEFT в условиях шума
- Вклад данной работы: использование ограниченной емкости PEFT для отдельного запоминания чистых и шумных образцов
- Разделение выбора образцов и обучения модели эффективно избегает проблемы порочного круга при обучении с шумными метками
- Дизайн двойной LoRA в сочетании с эффектом памяти эффективно различает чистые и шумные образцы
- Метод показывает отличные результаты при различных установках шума и на реальных наборах данных, обладая хорошей способностью к обобщению
- Ограничения масштаба: из-за ограничений ресурсов метод не проверен на более крупных языковых моделях (например, Llama-3.2 70B)
- Ограничения задач: эксперименты ограничены задачами классификации текста, не исследованы другие задачи, такие как генерация текста
- Вычислительные затраты: дизайн двойной LoRA увеличивает дополнительные параметры и вычислительные затраты
- Расширение на более крупные языковые модели
- Исследование применения при генерации текста
- Дальнейшая оптимизация вычислительной и параметрической эффективности
- Сильная инновационность:
- Впервые предложен фреймворк разделения выбора образцов и обучения модели, фундаментально решающий проблему порочного круга
- Дизайн двойной LoRA умело использует эффект памяти для реализации функционального разделения на уровне параметров
- Прочная теоретическая база:
- Теоретическая поддержка на основе эффекта памяти глубоких сетей
- Четкие математические выводы, разумные целевые функции оптимизации
- Полные эксперименты:
- Охватывают различные типы и уровни шума
- Включают синтетические и реальные наборы данных с шумом
- Подробные абляционные исследования и анализ
- Высокая практическая ценность:
- Не требует ручной установки порога
- Может адаптироваться к различным моделям классификаторов
- Отличная производительность в сценариях с высоким уровнем шума
- Вычислительная сложность:
- Двухэтапное обучение увеличивает время обучения
- Дизайн двойной LoRA увеличивает количество параметров и потребление памяти
- Чувствительность к гиперпараметрам:
- Параметры h1 и h2 в функции динамических ограничений требуют настройки для различных уровней шума
- Отсутствует стратегия адаптивного выбора гиперпараметров
- Недостаточный теоретический анализ:
- Отсутствуют теоретические гарантии сходимости метода
- Не предоставлены теоретические границы точности обнаружения шума
- Ограниченная область применения:
- Главным образом ориентирован на задачи классификации текста
- Эффективность на других задачах NLP не проверена
- Академический вклад:
- Предоставляет новый подход к решению проблем в области обучения с шумными метками
- Способствует применению методов PEFT в надежном обучении
- Практическая ценность:
- Может быть непосредственно применен к практическим задачам классификации текста
- Предоставляет эффективный инструмент для обработки шумных данных в реальном мире
- Воспроизводимость:
- Предоставлены подробные детали реализации и установки гиперпараметров
- Четкое описание алгоритма, удобное для воспроизведения
- Задачи классификации текста: особенно подходит для крупномасштабных сценариев классификации текста с низким качеством аннотирования
- Среды с ограниченными ресурсами: характеристики PEFT делают его подходящим для приложений с ограниченными вычислительными ресурсами
- Среды с высоким уровнем шума: особенно выделяется в сценариях с высоким уровнем шума (>40%)
- Многоязычные приложения: имеет потенциал применения в задачах классификации текста на языках с низким уровнем ресурсов
Данная статья ссылается на важные работы в области обучения с шумными метками и параметрически эффективной тонкой настройки, включая:
- Han et al. (2018) - метод Co-Teaching
- Hu et al. (2022) - метод LoRA
- Kim et al. (2024) - метод CleaR
- Yuan et al. (2024) - метод NoiseAL
Общая оценка: это высококачественная исследовательская статья, предлагающая инновационное решение в области обучения с шумными метками. Благодаря умному разделяющему дизайну и механизму двойной LoRA эффективно решена основная проблема существующих методов. Экспериментальная проверка полна, результаты убедительны. Несмотря на некоторые ограничения, ее инновационность и практическая ценность делают ее важным вкладом в данную область.