2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.
The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
academic

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

基本信息

  • 论文ID: 2510.03683
  • 标题: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
  • 作者: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
  • 机构: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Mexico
  • 分类: cs.CL (Computational Linguistics)
  • 论文链接: https://arxiv.org/abs/2510.03683

摘要

本研究针对Roman Urdu-English代码混合文本中的攻击性语言检测问题,提出了基于QLoRA的大语言模型微调框架。由于Roman Urdu语言存在语法不规范、拼写不一致和标注数据稀缺等挑战,研究者采用Google翻译将代码混合文本转换为英文,以充分利用英文大语言模型的能力。实验在多个模型上进行,包括Meta-LLaMA-3-8B、Mistral-7B-v0.1、LLaMA 2-7B、ModernBERT和RoBERTa。结果显示,Meta-LLaMA-3-8B取得了91.45%的最高F1分数,Mistral-7B达到89.66%,均超越了传统Transformer基线模型。

研究背景与动机

问题定义

本研究要解决的核心问题是Roman Urdu-English代码混合文本中的攻击性语言检测。Roman Urdu是巴基斯坦和印度部分地区的主要数字化交流形式,用户使用拉丁字母书写乌尔都语并经常混合英语词汇。

问题重要性

  1. 社交媒体安全需求:随着Twitter、Facebook、YouTube等平台的普及,攻击性和有害内容的传播日益严重,识别和减少此类内容对维护数字化健康和防止用户心理伤害至关重要。
  2. 代码混合语言的特殊挑战:Roman Urdu-English代码混合文本具有非标准语法、拼写不一致、缺乏标注数据集等特点,这些特征使传统NLP模型的准确率显著降低。

现有方法局限性

  1. 传统机器学习方法:早期使用SVM、朴素贝叶斯、逻辑回归等方法结合TF-IDF或n-gram特征,但在不同语境和语言间泛化能力差,特别是在非正式、噪声或代码混合数据上表现不佳。
  2. 深度学习模型:CNN和RNN虽然在上下文信息捕获方面优于传统方法,但对于形态丰富的低资源语言如Roman Urdu仍面临挑战。
  3. 预训练模型稀缺:Roman Urdu缺乏专门的预训练模型或大规模标注语料库,限制了现有方法的应用。

核心贡献

  1. 提出了端到端的Roman Urdu-English攻击性语言检测管道:构建了完整的从数据预处理到模型评估的处理流程。
  2. 将QLoRA应用于LLaMA和Mistral模型:首次将量化低秩适应技术应用于Roman Urdu攻击性语言检测任务。
  3. 进行了全面的对比评估:对比了QLoRA微调的大语言模型与传统微调的ModernBERT和RoBERTa模型的性能。
  4. 采用基于翻译的预处理策略:通过翻译方法利用英语大语言模型处理低资源代码混合文本。

方法详解

任务定义

输入:Roman Urdu-English代码混合文本 输出:二分类标签(攻击性/非攻击性) 约束:处理低资源、非标准语法、代码混合特征

模型架构

整体流程

研究采用了系统化的处理管道:

  1. 数据收集与预处理
    • 数据集包含46,026个样本(24,026个"攻击性",22,000个"非攻击性")
    • 主要从Facebook公开评论和YouTube回复中抓取
    • 由三名双语标注员手动标注,Cohen's Kappa一致性为0.86
  2. 翻译处理
    • 使用deep_translator包中的GoogleTranslator库
    • 将Roman Urdu文本翻译为英文以利用英语LLM
    • 保持原始代码混合特性直到翻译阶段
  3. 数据集划分与标注
    • 标签映射:"攻击性"→1,"非攻击性"→0
    • 使用分层采样进行80%训练、20%测试划分
    • 对于解码器模型,输入格式化为提示风格

模型选择

选择了多样化的模型进行性能评估:

  • 大语言模型:LLaMA 3 (8B)、LLaMA 2 (7B)、Mistral (7B),使用QLoRA微调
  • 传统Transformer:RoBERTa和ModernBERT,使用传统监督学习方法微调

QLoRA微调技术

核心参数设置

  • rank (r=8)
  • alpha (32)
  • dropout (0.05)
  • 适应层:q_proj和v_proj

技术优势

  • 通过低秩适配器和量化权重实现内存高效微调
  • 保持性能的同时显著降低GPU内存使用

技术创新点

  1. 量化低秩适应的应用:首次将QLoRA技术应用于Roman Urdu攻击性语言检测,实现了大模型的高效微调。
  2. 翻译辅助的跨语言迁移:通过翻译策略弥合语言差距,提高模型对底层语义的理解。
  3. 多模型对比框架:建立了LLM与传统Transformer模型的系统性对比评估框架。

实验设置

数据集

  • 规模:46,026个样本
  • 来源:Facebook评论和YouTube回复
  • 标注:三名双语标注员,Cohen's Kappa = 0.86
  • 划分:80%训练,20%测试(分层采样)
  • 预处理:最小化清理以保持上下文完整性

评价指标

  • 准确率(Accuracy)
  • 精确率(Precision)
  • 召回率(Recall)
  • F1分数(F1 Score)

对比方法

  • LLaMA 3 (8B) + QLoRA
  • Mistral 7B + QLoRA
  • LLaMA 2 (7B) + QLoRA
  • RoBERTa (传统微调)
  • ModernBERT (传统微调)

实现细节

  • 硬件:NVIDIA A100 (80GB VRAM),128GB RAM,32核CPU
  • 软件环境:Python 3.13.2,PyTorch,Transformers,PEFT等
  • 超参数:学习率2e-5,批大小2,训练轮数10,权重衰减0.01
  • 优化策略:梯度检查点,早停机制

实验结果

主要结果

模型准确率精确率召回率F1分数
LLaMA 3 (8B)91.6291.491.591.45
Mistral 7B89.8889.589.889.66
LLaMA 2 (7B)88.7488.288.688.4
RoBERTa85.6585.285.785.44
ModernBERT83.9283.184.083.55

关键发现

  1. LLaMA 3 (8B)取得最佳性能,F1分数达91.45%
  2. 基于QLoRA的大语言模型显著优于传统Transformer模型
  3. 性能差距体现了QLoRA微调在代码混合语言任务上的优势

训练行为分析

  • 收敛速度:最佳模型在2-3个epoch内达到最优验证F1分数
  • 训练稳定性:所有模型显示平稳的损失下降,无过拟合迹象
  • 内存效率:QLoRA显著降低了大模型微调的内存需求

推理效率对比

  • LLaMA 3 (8B):约1.0秒/1000样本
  • Mistral 7B:约0.80秒/1000样本
  • LLaMA 2 (7B):约0.78秒/1000样本
  • RoBERTa:约0.35秒/1000样本
  • ModernBERT:约0.30秒/1000样本

体现了模型规模与推理速度的权衡关系。

模型可解释性分析

通过LIME和SHAP分析发现:

  • 高影响攻击性词汇:"saalon"、"naacho"、"maaregi"等
  • 模型决策模式:LLaMA 3专注于上下文攻击性语言,传统模型权重分配较为分散
  • 偏见识别:某些中性词汇可能误导分类,突出了数据质量的重要性

相关工作

攻击性语言检测研究

  1. 传统方法:基于手工特征的机器学习方法(SVM、朴素贝叶斯等)
  2. 深度学习方法:CNN、RNN及Transformer架构(BERT及其变体)
  3. 多语言处理:跨语言迁移学习和零样本学习方法

低资源语言处理

  1. Roman Urdu研究:少数研究者构建了Roman Urdu数据集和嵌入方法
  2. 代码混合处理:多语言嵌入和机器翻译辅助方法
  3. 资源稀缺挑战:预训练模型和大规模标注语料的缺乏

大语言模型微调

  1. 参数高效微调:QLoRA、LoRA等技术的发展
  2. LLM应用:GPT、LLaMA、Mistral在文本分类任务上的应用
  3. 量化技术:在保持性能的同时降低计算资源需求

结论与讨论

主要结论

  1. QLoRA微调的有效性:在Roman Urdu-English代码混合文本攻击性语言检测任务中,QLoRA微调的大语言模型显著优于传统方法
  2. 翻译策略的可行性:通过翻译预处理能够有效利用英语LLM处理低资源代码混合语言
  3. 模型规模的重要性:更大的模型参数规模在复杂NLP任务中展现出明显优势

局限性

  1. 代码混合特征丢失:翻译过程导致原始代码切换结构的丢失,模型实际处理的是英文翻译版本而非原生代码混合文本
  2. 计算资源需求:大语言模型的推理延迟较高,可能限制实时应用
  3. 数据集规模:相对较小的数据集可能影响模型泛化能力
  4. 翻译质量依赖:方法的有效性高度依赖于Google翻译的质量

未来方向

  1. 直接处理代码混合文本:开发能够直接处理Roman Urdu而无需翻译的LLM
  2. 零样本和少样本学习:减少对标注数据的依赖
  3. 跨语言迁移优化:改进跨语言迁移方法以更好保持代码混合特征
  4. 实时优化:针对实际部署需求优化推理速度

深度评价

优点

  1. 方法创新性:首次将QLoRA技术应用于Roman Urdu攻击性语言检测,提供了新的解决思路
  2. 实验全面性:对比了多种不同规模和架构的模型,提供了全面的性能基准
  3. 实用价值:为社交媒体内容审核提供了可行的技术方案
  4. 技术先进性:采用了最新的参数高效微调技术,在资源受限环境中实现了良好性能

不足

  1. 方法局限性:翻译预处理策略虽然实用,但丢失了代码混合的本质特征
  2. 数据集限制:数据集相对较小,且仅来源于特定平台,可能影响泛化性
  3. 评估维度:缺乏对不同类型攻击性语言的细粒度分析
  4. 理论贡献:主要是工程实现,理论创新相对有限

影响力

  1. 学术贡献:为低资源代码混合语言的攻击性内容检测提供了有效方法
  2. 实际应用:可直接应用于Roman Urdu社交媒体内容审核
  3. 技术推广:展示了QLoRA在特定领域任务中的应用潜力
  4. 研究启发:为其他低资源语言的类似任务提供了参考框架

适用场景

  1. 社交媒体平台:Facebook、Twitter等平台的Roman Urdu内容审核
  2. 在线社区管理:巴基斯坦和印度地区的在线论坛和社区
  3. 教育应用:网络欺凌检测和预防系统
  4. 研究基础:多语言攻击性语言检测系统的开发基础

参考文献

论文引用了46篇相关文献,涵盖了攻击性语言检测、大语言模型、代码混合语言处理等多个领域的重要工作,为研究提供了坚实的理论基础和技术支撑。


总体评价:本文在技术实现上较为成熟,实验设计合理,结果具有说服力。虽然在理论创新方面相对有限,但为低资源代码混合语言的实际应用提供了有价值的解决方案,具有良好的实用价值和推广意义。