Parameter-efficient fine-tuning (PEFT) large language models (LLMs) have shown impressive performance in various downstream tasks. However, in many real-world scenarios, the collected training data inevitably contains noisy labels. To learn from noisy labels, most solutions select samples with small losses for model training. However, the selected samples, in turn, impact the loss computation in the next iteration. An inaccurate initial selection can create a vicious cycle, leading to suboptimal performance. To break this cycle, we propose Delora, a novel framework that decouples the sample selection from model training. For sample selection, Delora establishes a noisy label detector by introducing clean and noisy LoRA. Benefiting from the memory effect, the clean LoRA is encouraged to memorize clean data, while the noisy LoRA is constrained to memorize mislabeled data, which serves as a learnable threshold for selecting clean and noisy samples. For model training, Delora can use carefully selected samples to fine-tune language models seamlessly. Experimental results on synthetic and real-world noisy datasets demonstrate the effectiveness of Delora in noisy label detection and text classification.
- 论文ID: 2510.10208
- 标题: Weed Out, Then Harvest: Dual Low-Rank Adaptation is an Effective Noisy Label Detector for Noise-Robust Learning
- 作者: Bo Yuan, Yulin Chen, Yin Zhang (浙江大学)
- 分类: cs.CL (计算语言学)
- 发表时间: 2024年10月11日
- 论文链接: https://arxiv.org/abs/2510.10208v1
参数高效微调(PEFT)大语言模型在各种下游任务中表现出色,但现实场景中训练数据不可避免地包含噪声标签。现有的噪声标签学习方法通常选择小损失样本进行训练,但这种选择会影响下一轮的损失计算,不准确的初始选择会造成恶性循环。本文提出Delora框架,通过解耦样本选择和模型训练来打破这一循环。该框架引入清洁LoRA和噪声LoRA构建噪声标签检测器,利用记忆效应使清洁LoRA记忆干净数据,噪声LoRA记忆错误标记数据,作为可学习阈值选择样本。实验结果表明Delora在噪声标签检测和文本分类任务上的有效性。
- 核心问题: 在大语言模型的参数高效微调过程中,如何处理训练数据中不可避免的噪声标签问题
- 重要性: 现实世界的数据收集过程中必然存在标注错误,这会严重影响模型性能和泛化能力
- 现有方法局限性:
- 传统小损失选择策略存在"恶性循环"问题:样本选择影响损失计算,损失计算又影响样本选择
- 依赖手动设置阈值,实用性受限
- 在高噪声场景下性能不稳定
作者观察到现有方法的根本问题在于样本选择与模型训练的耦合关系,提出了一个关键洞察:能否将样本选择与模型训练解耦,使它们相互独立? 这一思考启发了本文的核心框架设计。
- 提出解耦框架: 首次将噪声标签学习任务分解为独立的样本选择和模型训练两个阶段,有效避免恶性循环
- 创新的双LoRA检测器: 引入清洁LoRA和噪声LoRA分别记忆干净样本和噪声样本,构建可学习的噪声标签检测器
- 动态约束机制: 基于记忆效应设计动态正则化策略,控制不同LoRA的参数更新模式
- 广泛的实验验证: 在合成和真实噪声数据集上验证了方法的有效性,在噪声标签检测和文本分类任务上均取得显著提升
给定训练数据集 D={(xi,yi)}i=1N,其中 y∈{1,…,K} 是观测标签,可能是错误的。目标是学习一个鲁棒的分类器,能够在噪声标签存在的情况下实现良好的泛化性能。
Delora框架包含两个核心阶段:
双LoRA设计:
- 清洁LoRA (Δwc): 理想参数,用于记忆干净样本
- 噪声LoRA (Δwn): 噪声参数,用于记忆错误标记样本
可学习阈值机制:
对于第i个训练样本,可学习阈值定义为:
ϕi=CE(f(xi,w0+Δwn),yi)
样本选择标准:
Dc={(xi,yi)∣CE(f(xi,w0+Δwc),yi)<ϕi}
动态约束优化:
LLoRA=τ1(t)Δσc+τ2(t)Δσn
其中:
- τ1(t)=th1 (递增函数,约束清洁LoRA)
- τ2(t)=t−h2 (递减函数,约束噪声LoRA)
- \Delta\sigma_c = ||\Delta w_t_c - \Delta w_{t-1}_c|| (参数变化量)
检测器优化目标:
使用清洁概率进行二分类:
pic=eCE(f(xi,w0+Δwc),yi)+eCE(f(xi,w0+Δwn),yi)eCE(f(xi,w0+Δwc),yi)
总优化目标:L=Lce+LLoRA+LDetector
- 清洁样本: 直接使用交叉熵损失训练
- 噪声样本: 使用GPT-4o重新标注后,采用反向交叉熵损失进行鲁棒学习
- 解耦设计: 彻底分离样本选择和模型训练,避免相互影响
- 记忆效应利用: 巧妙利用深度网络先记忆干净样本后记忆噪声样本的特性
- 可学习阈值: 用噪声LoRA预测作为数据驱动的阈值,无需手动调参
- 参数级功能分离: 在参数层面实现功能分离,与具体架构无关
合成噪声数据集:
- Trec, SST-2, SST-5, 20ng, AGNews
- 噪声类型:对称噪声(S)、非对称噪声(A)、实例相关噪声(I)
- 噪声率:20%, 40%
真实噪声数据集:
- Hausa (噪声率50.37%)
- Yorùbá (噪声率33.28%)
- AlleNoise (噪声率15.00%)
- 噪声检测阶段: 精确率(Precision)和召回率(Recall)
- 分类阶段: 测试准确率(Test Accuracy)
- 基础模型: Llama3.1-8B-Instruct
- 噪声学习方法: Co-Teaching, SelfMix, NoiseAL, CleaR, SENT, LAFT
- 检测方法: LLMs-detection, Small-loss strategy
- 骨干模型:LLaMA-3.1-8B-Instruct
- LoRA秩:r=32
- 训练轮数:检测器8轮,分类器6轮
- 预热轮数:2轮
- 学习率:1e-4, 5e-4
噪声标签检测性能:
在Trec数据集上,Delora相比基线方法显著提升:
- 20%对称噪声:精确率99.47% vs 81.15%(Small-loss)
- 40%非对称噪声:召回率97.27% vs 96.20%(Small-loss)
文本分类性能:
| 数据集 | 噪声设置 | Base | NoiseAL | Delora |
|---|
| Trec | 20%S | 95.20 | 97.30 | 98.46 |
| Trec | 40%A | 87.40 | 95.95 | 97.40 |
| SST-5 | 20%S | 54.08 | 55.00 | 57.39 |
真实噪声数据集结果:
| 数据集 | 噪声率 | NoiseAL | Delora | 提升 |
|---|
| Hausa | 50.37% | 52.34 | 60.12 | +7.78% |
| Yorùbá | 33.28% | 72.13 | 78.56 | +6.43% |
在Trec数据集上的消融研究显示:
- 移除噪声标签检测器(NLD):性能大幅下降(98.46→95.20)
- 移除分类器训练(CT):性能显著降低
- 移除各优化目标(LLoRA, LDetector, Lce):均导致性能下降
- 移除噪声样本重标注:性能下降约4%
实验验证了不同LoRA的记忆模式:
- 清洁LoRA: 增强对干净样本的记忆,减少对噪声样本的记忆
- 噪声LoRA: 表现出相反的模式,主要吸收噪声样本的负面影响
- 基础模型: 遵循先记忆干净样本后记忆噪声样本的记忆效应
相比基础单LoRA方法:
- 参数增加:+13.6MB
- 内存增加:+3.2GB
- 性能提升:+3.26%~+10%
参数效率和内存效率分析表明,Delora在准确率-参数-内存三维权衡空间中达到了更优的帕累托前沿。
- 样本选择方法: 基于小损失机制的Co-Teaching, SelfMix等
- 阈值设置: 固定阈值vs动态阈值策略
- 局限性: 依赖训练中模型,容易陷入恶性循环
- 主要方法: LoRA, Adapter, Prompt tuning
- 噪声鲁棒性: CleaR等方法探索PEFT在噪声环境下的表现
- 本文贡献: 利用PEFT的有限容量特性分别记忆干净和噪声样本
- 解耦样本选择和模型训练能有效避免噪声标签学习中的恶性循环问题
- 双LoRA设计结合记忆效应能够有效区分干净样本和噪声样本
- 该方法在多种噪声设置和真实数据集上均表现出色,具有良好的泛化能力
- 规模限制: 受资源约束,未在更大规模语言模型(如Llama-3.2 70B)上验证
- 任务局限: 实验仅限于文本分类任务,未探索文本生成等其他任务
- 计算开销: 双LoRA设计增加了额外的参数和计算成本
- 扩展到更大规模的语言模型
- 探索在文本生成任务中的应用
- 进一步优化计算效率和参数效率
- 创新性强:
- 首次提出解耦样本选择和模型训练的框架,从根本上解决恶性循环问题
- 双LoRA设计巧妙利用记忆效应,实现参数级功能分离
- 理论基础扎实:
- 基于深度网络记忆效应的理论支撑
- 数学公式推导清晰,优化目标合理
- 实验充分:
- 涵盖多种噪声类型和噪声率
- 包含合成和真实噪声数据集
- 详细的消融实验和分析
- 实用价值高:
- 无需手动设置阈值
- 可适配不同的分类器模型
- 在高噪声场景下表现优异
- 计算复杂度:
- 双阶段训练增加了训练时间
- 双LoRA设计增加了参数量和内存消耗
- 超参数敏感性:
- 动态约束函数中的h1和h2需要针对不同噪声率调整
- 缺乏自适应的超参数选择策略
- 理论分析不足:
- 缺乏对方法收敛性的理论保证
- 未提供噪声检测准确率的理论界限
- 适用范围限制:
- 主要针对文本分类任务
- 在其他NLP任务上的有效性未验证
- 学术贡献:
- 为噪声标签学习领域提供了新的解决思路
- 推动了PEFT方法在鲁棒学习中的应用
- 实用价值:
- 可直接应用于实际的文本分类任务
- 为处理真实世界噪声数据提供了有效工具
- 可复现性:
- 提供了详细的实现细节和超参数设置
- 算法描述清晰,便于复现
- 文本分类任务: 特别适用于标注质量不高的大规模文本分类场景
- 资源受限环境: PEFT特性使其适合计算资源有限的应用场景
- 高噪声环境: 在噪声率较高(>40%)的场景下表现尤为突出
- 多语言应用: 在低资源语言的文本分类任务中具有应用潜力
本文引用了噪声标签学习和参数高效微调领域的重要文献,包括:
- Han et al. (2018) - Co-Teaching方法
- Hu et al. (2022) - LoRA方法
- Kim et al. (2024) - CleaR方法
- Yuan et al. (2024) - NoiseAL方法
总体评价: 这是一篇高质量的研究论文,在噪声标签学习领域提出了创新性的解决方案。通过巧妙的解耦设计和双LoRA机制,有效解决了现有方法的核心问题。实验验证充分,结果令人信服。尽管存在一些局限性,但其创新性和实用价值使其成为该领域的重要贡献。