Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- 논문 ID: 2510.10208
- 제목: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- 저자: Bo Yuan, Yulin Chen, Yin Zhang (저장성 대학교)
- 분류: cs.CL (계산 언어학)
- 발표 시간: 2024년 10월 11일
- 논문 링크: https://arxiv.org/abs/2510.10208v1
매개변수 효율적 미세 조정(PEFT)을 통한 대규모 언어 모델은 다양한 하위 작업에서 우수한 성능을 보이지만, 현실 시나리오에서 훈련 데이터는 불가피하게 노이즈 레이블을 포함합니다. 기존의 노이즈 레이블 학습 방법은 일반적으로 낮은 손실 샘플을 선택하여 훈련하지만, 이러한 선택은 다음 라운드의 손실 계산에 영향을 미치며, 부정확한 초기 선택은 악순환을 야기합니다. 본 논문은 샘플 선택과 모델 훈련을 분리하여 이러한 악순환을 깨는 Delora 프레임워크를 제안합니다. 이 프레임워크는 깨끗한 LoRA와 노이즈 LoRA를 도입하여 노이즈 레이블 탐지기를 구성하고, 기억 효과를 활용하여 깨끗한 LoRA는 깨끗한 데이터를 기억하고 노이즈 LoRA는 잘못 표시된 데이터를 기억하도록 하며, 학습 가능한 임계값으로 샘플을 선택합니다. 실험 결과는 노이즈 레이블 탐지 및 텍스트 분류 작업에서 Delora의 효과성을 보여줍니다.
- 핵심 문제: 대규모 언어 모델의 매개변수 효율적 미세 조정 과정에서 훈련 데이터에 불가피하게 존재하는 노이즈 레이블 문제를 어떻게 처리할 것인가
- 중요성: 현실 세계의 데이터 수집 과정에서 필연적으로 주석 오류가 존재하며, 이는 모델 성능과 일반화 능력에 심각한 영향을 미칩니다
- 기존 방법의 한계:
- 전통적인 낮은 손실 선택 전략은 "악순환" 문제를 가집니다: 샘플 선택이 손실 계산에 영향을 미치고, 손실 계산이 다시 샘플 선택에 영향을 미칩니다
- 수동 임계값 설정에 의존하여 실용성이 제한됩니다
- 높은 노이즈 시나리오에서 성능이 불안정합니다
저자들은 기존 방법의 근본적인 문제가 샘플 선택과 모델 훈련의 결합 관계에 있음을 관찰하고, 핵심 통찰력을 제시합니다: 샘플 선택과 모델 훈련을 분리하여 서로 독립적으로 만들 수 있을까요? 이러한 사고는 본 논문의 핵심 프레임워크 설계에 영감을 주었습니다.
- 분리 프레임워크 제안: 처음으로 노이즈 레이블 학습 작업을 독립적인 샘플 선택 및 모델 훈련 두 단계로 분해하여 악순환을 효과적으로 회피합니다
- 혁신적인 이중 LoRA 탐지기: 깨끗한 LoRA와 노이즈 LoRA를 도입하여 각각 깨끗한 샘플과 노이즈 샘플을 기억하고 학습 가능한 노이즈 레이블 탐지기를 구성합니다
- 동적 제약 메커니즘: 기억 효과를 기반으로 동적 정규화 전략을 설계하여 서로 다른 LoRA의 매개변수 업데이트 패턴을 제어합니다
- 광범위한 실험 검증: 합성 및 실제 노이즈 데이터셋에서 방법의 효과성을 검증하고, 노이즈 레이블 탐지 및 텍스트 분류 작업에서 모두 현저한 개선을 달성합니다
훈련 데이터셋 D={(xi,yi)}i=1N이 주어졌을 때, 여기서 y∈{1,…,K}는 관찰된 레이블이며 오류일 수 있습니다. 목표는 노이즈 레이블이 존재하는 상황에서 좋은 일반화 성능을 달성할 수 있는 강건한 분류기를 학습하는 것입니다.
Delora 프레임워크는 두 개의 핵심 단계를 포함합니다:
이중 LoRA 설계:
- 깨끗한 LoRA (Δwc): 이상적인 매개변수로, 깨끗한 샘플을 기억하는 데 사용됩니다
- 노이즈 LoRA (Δwn): 노이즈 매개변수로, 잘못 표시된 샘플을 기억하는 데 사용됩니다
학습 가능한 임계값 메커니즘:
i번째 훈련 샘플에 대해, 학습 가능한 임계값은 다음과 같이 정의됩니다:
ϕi=CE(f(xi,w0+Δwn),yi)
샘플 선택 기준:
Dc={(xi,yi)∣CE(f(xi,w0+Δwc),yi)<ϕi}
동적 제약 최적화:
LLoRA=τ1(t)Δσc+τ2(t)Δσn
여기서:
- τ1(t)=th1 (증가 함수로, 깨끗한 LoRA를 제약합니다)
- τ2(t)=t−h2 (감소 함수로, 노이즈 LoRA를 제약합니다)
- \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (매개변수 변화량)
탐지기 최적화 목표:
깨끗한 확률을 사용한 이진 분류:
pic=eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)eCE(f(xi,w0+Δwc),yi)
총 최적화 목표: L=Lce+LLoRA+LDetector
- 깨끗한 샘플: 교차 엔트로피 손실을 사용하여 직접 훈련합니다
- 노이즈 샘플: GPT-4o로 재주석한 후, 역 교차 엔트로피 손실을 사용하여 강건한 학습을 수행합니다
- 분리 설계: 샘플 선택과 모델 훈련을 완전히 분리하여 상호 영향을 회피합니다
- 기억 효과 활용: 깊은 네트워크가 먼저 깨끗한 샘플을 기억한 후 노이즈 샘플을 기억하는 특성을 교묘하게 활용합니다
- 학습 가능한 임계값: 노이즈 LoRA 예측을 데이터 기반 임계값으로 사용하여 수동 조정이 필요 없습니다
- 매개변수 수준 기능 분리: 매개변수 수준에서 기능 분리를 구현하여 특정 아키텍처와 무관합니다
합성 노이즈 데이터셋:
- Trec, SST-2, SST-5, 20ng, AGNews
- 노이즈 유형: 대칭 노이즈(S), 비대칭 노이즈(A), 인스턴스 관련 노이즈(I)
- 노이즈율: 20%, 40%
실제 노이즈 데이터셋:
- Hausa (노이즈율 50.37%)
- Yorùbá (노이즈율 33.28%)
- AlleNoise (노이즈율 15.00%)
- 노이즈 탐지 단계: 정밀도(Precision) 및 재현율(Recall)
- 분류 단계: 테스트 정확도(Test Accuracy)
- 기본 모델: Llama3.1-8B-Instruct
- 노이즈 학습 방법: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
- 탐지 방법: LLMs-detection, Small-loss strategy
- 백본 모델: LLaMA-3.1-8B-Instruct
- LoRA 순위: r=32
- 훈련 에포크: 탐지기 8에포크, 분류기 6에포크
- 워밍업 에포크: 2에포크
- 학습률: 1e-4, 5e-4
노이즈 레이블 탐지 성능:
Trec 데이터셋에서 Delora는 기준 방법 대비 현저한 개선을 달성합니다:
- 20% 대칭 노이즈: 정밀도 99.47% vs 81.15%(Small-loss)
- 40% 비대칭 노이즈: 재현율 97.27% vs 96.20%(Small-loss)
텍스트 분류 성능:
| 데이터셋 | 노이즈 설정 | Base | NoiseAL | Delora |
|---|
| Trec | 20%S | 95.20 | 97.30 | 98.46 |
| Trec | 40%A | 87.40 | 95.95 | 97.40 |
| SST-5 | 20%S | 54.08 | 55.00 | 57.39 |
실제 노이즈 데이터셋 결과:
| 데이셋 | 노이즈율 | NoiseAL | Delora | 개선 |
|---|
| Hausa | 50.37% | 52.34 | 60.12 | +7.78% |
| Yorùbá | 33.28% | 72.13 | 78.56 | +6.43% |
Trec 데이터셋에서의 소거 연구는 다음을 보여줍니다:
- 노이즈 레이블 탐지기(NLD) 제거: 성능 대폭 하락(98.46→95.20)
- 분류기 훈련(CT) 제거: 성능 현저히 감소
- 각 최적화 목표(LLoRA, LDetector, Lce) 제거: 모두 성능 하락 야기
- 노이즈 샘플 재주석 제거: 성능 약 4% 하락
실험은 서로 다른 LoRA의 기억 패턴을 검증합니다:
- 깨끗한 LoRA: 깨끗한 샘플에 대한 기억을 강화하고 노이즈 샘플에 대한 기억을 감소시킵니다
- 노이즈 LoRA: 반대 패턴을 나타내며, 주로 노이즈 샘플의 부정적 영향을 흡수합니다
- 기본 모델: 먼저 깨끗한 샘플을 기억한 후 노이즈 샘플을 기억하는 기억 효과를 따릅니다
기본 단일 LoRA 방법 대비:
- 매개변수 증가: +13.6MB
- 메모리 증가: +3.2GB
- 성능 개선: +3.26%~+10%
매개변수 효율성 및 메모리 효율성 분석은 Delora가 정확도-매개변수-메모리 3차원 트레이드오프 공간에서 더 나은 파레토 프론티어에 도달했음을 보여줍니다.
- 샘플 선택 방법: 낮은 손실 메커니즘 기반의 Co-Teaching, SelfMix 등
- 임계값 설정: 고정 임계값 vs 동적 임계값 전략
- 한계: 훈련 중 모델에 의존하여 악순환에 빠지기 쉽습니다
- 주요 방법: LoRA, Adapter, Prompt tuning
- 노이즈 강건성: CleaR 등의 방법은 노이즈 환경에서 PEFT의 성능을 탐색합니다
- 본 논문의 기여: PEFT의 제한된 용량 특성을 활용하여 깨끗한 샘플과 노이즈 샘플을 각각 기억합니다
- 샘플 선택과 모델 훈련을 분리하면 노이즈 레이블 학습의 악순환 문제를 효과적으로 회피할 수 있습니다
- 이중 LoRA 설계는 기억 효과와 결합하여 깨끗한 샘플과 노이즈 샘플을 효과적으로 구분할 수 있습니다
- 이 방법은 다양한 노이즈 설정 및 실제 데이터셋에서 우수한 성능을 보이며 좋은 일반화 능력을 가집니다
- 규모 제한: 자원 제약으로 인해 더 큰 규모의 언어 모델(예: Llama-3.2 70B)에서 검증되지 않았습니다
- 작업 한계: 실험은 텍스트 분류 작업에만 제한되며, 텍스트 생성 등 다른 작업은 탐색되지 않았습니다
- 계산 오버헤드: 이중 LoRA 설계는 추가 매개변수와 계산 비용을 증가시킵니다
- 더 큰 규모의 언어 모델로 확장
- 텍스트 생성 작업에서의 응용 탐색
- 계산 효율성 및 매개변수 효율성 추가 최적화
- 강한 혁신성:
- 샘플 선택과 모델 훈련을 분리하는 프레임워크를 처음 제안하여 악순환 문제를 근본적으로 해결합니다
- 이중 LoRA 설계는 기억 효과를 교묘하게 활용하여 매개변수 수준의 기능 분리를 구현합니다
- 견고한 이론적 기초:
- 깊은 네트워크 기억 효과의 이론적 지원을 기반으로 합니다
- 수학 공식 유도가 명확하고 최적화 목표가 합리적입니다
- 충분한 실험:
- 다양한 노이즈 유형 및 노이즈율을 포함합니다
- 합성 및 실제 노이즈 데이터셋을 포함합니다
- 상세한 소거 실험 및 분석을 제공합니다
- 높은 실용 가치:
- 수동 임계값 설정이 필요 없습니다
- 다양한 분류기 모델에 적응할 수 있습니다
- 높은 노이즈 시나리오에서 우수한 성능을 보입니다
- 계산 복잡도:
- 이중 단계 훈련은 훈련 시간을 증가시킵니다
- 이중 LoRA 설계는 매개변수량과 메모리 소비를 증가시킵니다
- 초매개변수 민감성:
- 동적 제약 함수의 h1과 h2는 서로 다른 노이즈율에 대해 조정이 필요합니다
- 자동 초매개변수 선택 전략이 부족합니다
- 이론적 분석 부족:
- 방법의 수렴성에 대한 이론적 보장이 부족합니다
- 노이즈 탐지 정확도의 이론적 경계가 제공되지 않습니다
- 적용 범위 제한:
- 주로 텍스트 분류 작업을 대상으로 합니다
- 다른 NLP 작업에서의 효과성이 검증되지 않았습니다
- 학술적 기여:
- 노이즈 레이블 학습 분야에 새로운 해결 방법을 제공합니다
- PEFT 방법의 강건한 학습 응용을 촉진합니다
- 실용적 가치:
- 실제 텍스트 분류 작업에 직접 적용할 수 있습니다
- 현실 세계의 노이즈 데이터 처리를 위한 효과적인 도구를 제공합니다
- 재현성:
- 상세한 구현 세부사항 및 초매개변수 설정을 제공합니다
- 알고리즘 설명이 명확하여 재현이 용이합니다
- 텍스트 분류 작업: 특히 주석 품질이 낮은 대규모 텍스트 분류 시나리오에 적합합니다
- 자원 제약 환경: PEFT 특성으로 인해 계산 자원이 제한된 응용 시나리오에 적합합니다
- 높은 노이즈 환경: 노이즈율이 높은(>40%) 시나리오에서 특히 우수한 성능을 보입니다
- 다국어 응용: 저자원 언어의 텍스트 분류 작업에서 응용 가능성이 있습니다
본 논문은 노이즈 레이블 학습 및 매개변수 효율적 미세 조정 분야의 중요한 문헌을 인용하며, 다음을 포함합니다:
- Han et al. (2018) - Co-Teaching 방법
- Hu et al. (2022) - LoRA 방법
- Kim et al. (2024) - CleaR 방법
- Yuan et al. (2024) - NoiseAL 방법
종합 평가: 이는 노이즈 레이블 학습 분야에서 혁신적인 해결책을 제시하는 고품질 연구 논문입니다. 교묘한 분리 설계와 이중 LoRA 메커니즘을 통해 기존 방법의 핵심 문제를 효과적으로 해결합니다. 실험 검증이 충분하고 결과가 설득력 있습니다. 일부 한계가 있지만, 혁신성과 실용적 가치로 인해 해당 분야의 중요한 기여가 됩니다.