2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.
The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
academic

Messa a punto di modelli linguistici di grandi dimensioni con QLoRA per il rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese

Informazioni di base

  • ID articolo: 2510.03683
  • Titolo: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
  • Autori: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
  • Istituzioni: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Messico
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Link articolo: https://arxiv.org/abs/2510.03683

Riassunto

Questo studio affronta il problema del rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese, proponendo un framework di messa a punto di modelli linguistici di grandi dimensioni basato su QLoRA. Data la presenza di sfide nel linguaggio Roman Urdu come grammatica non standardizzata, incoerenza ortografica e scarsità di dati annotati, i ricercatori hanno adottato Google Translate per convertire il testo code-mixed in inglese, al fine di sfruttare pienamente le capacità dei modelli linguistici di grandi dimensioni in inglese. Gli esperimenti sono stati condotti su più modelli, tra cui Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT e RoBERTa. I risultati mostrano che Meta-LLaMA-3-8B ha raggiunto il punteggio F1 più alto del 91,45%, mentre Mistral-7B ha raggiunto l'89,66%, superando entrambi i modelli baseline Transformer tradizionali.

Contesto della ricerca e motivazione

Definizione del problema

Il problema centrale affrontato da questo studio è il rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese. Roman Urdu è la forma principale di comunicazione digitale in Pakistan e in alcune regioni dell'India, dove gli utenti scrivono l'urdu utilizzando caratteri latini e frequentemente mescolano vocaboli inglesi.

Importanza del problema

  1. Esigenze di sicurezza sui social media: Con la diffusione di piattaforme come Twitter, Facebook e YouTube, la propagazione di contenuti offensivi e dannosi è diventata sempre più grave. Identificare e ridurre tali contenuti è fondamentale per mantenere la salute digitale e prevenire danni psicologici agli utenti.
  2. Sfide specifiche del linguaggio code-mixed: Il testo code-mixed Roman Urdu-Inglese presenta caratteristiche di grammatica non standard, incoerenza ortografica e mancanza di dataset annotati, che riducono significativamente l'accuratezza dei modelli NLP tradizionali.

Limitazioni dei metodi esistenti

  1. Metodi tradizionali di apprendimento automatico: Gli approcci iniziali che utilizzavano SVM, Naive Bayes e regressione logistica combinati con caratteristiche TF-IDF o n-gram mostrano scarsa capacità di generalizzazione tra contesti e lingue diverse, in particolare su dati informali, rumorosi o code-mixed.
  2. Modelli di apprendimento profondo: Sebbene CNN e RNN superino i metodi tradizionali nella cattura di informazioni contestuali, affrontano ancora sfide con lingue a basse risorse e morfologicamente ricche come Roman Urdu.
  3. Scarsità di modelli pre-addestrati: Roman Urdu manca di modelli pre-addestrati specializzati o corpus di grandi dimensioni annotati, limitando l'applicazione dei metodi esistenti.

Contributi principali

  1. Proposta di una pipeline end-to-end per il rilevamento del linguaggio offensivo Roman Urdu-Inglese: Costruzione di un flusso di lavoro completo dalla pre-elaborazione dei dati alla valutazione del modello.
  2. Applicazione di QLoRA ai modelli LLaMA e Mistral: Prima applicazione della tecnica di adattamento a basso rango quantizzato al compito di rilevamento del linguaggio offensivo Roman Urdu.
  3. Valutazione comparativa completa: Confronto delle prestazioni dei modelli linguistici di grandi dimensioni messi a punto con QLoRA rispetto ai modelli ModernBERT e RoBERTa messi a punto tradizionalmente.
  4. Adozione di una strategia di pre-elaborazione basata sulla traduzione: Utilizzo di metodi di traduzione per sfruttare i modelli linguistici di grandi dimensioni in inglese nel trattamento di testi code-mixed a basse risorse.

Spiegazione dettagliata del metodo

Definizione del compito

Input: Testo code-mixed Roman Urdu-Inglese Output: Etichetta di classificazione binaria (offensivo/non offensivo) Vincoli: Gestione di testi a basse risorse, grammatica non standard, caratteristiche code-mixed

Architettura del modello

Flusso generale

Lo studio adotta una pipeline di elaborazione sistematizzata:

  1. Raccolta e pre-elaborazione dei dati
    • Il dataset contiene 46.026 campioni (24.026 "offensivi", 22.000 "non offensivi")
    • Principalmente estratti da commenti pubblici su Facebook e risposte su YouTube
    • Annotati manualmente da tre annotatori bilingui con coerenza Cohen's Kappa di 0,86
  2. Elaborazione della traduzione
    • Utilizzo della libreria GoogleTranslator dal pacchetto deep_translator
    • Traduzione del testo Roman Urdu in inglese per sfruttare i modelli LLM in inglese
    • Mantenimento delle caratteristiche code-mixed originali fino alla fase di traduzione
  3. Divisione del dataset e annotazione
    • Mappatura delle etichette: "offensivo" → 1, "non offensivo" → 0
    • Utilizzo del campionamento stratificato per divisione 80% addestramento, 20% test
    • Per i modelli decoder, il formato di input è strutturato in stile prompt

Selezione del modello

Sono stati selezionati modelli diversificati per la valutazione delle prestazioni:

  • Modelli linguistici di grandi dimensioni: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), messi a punto con QLoRA
  • Transformer tradizionali: RoBERTa e ModernBERT, messi a punto con metodi di apprendimento supervisionato tradizionali

Tecnica di messa a punto QLoRA

Impostazioni dei parametri principali:

  • rank (r=8)
  • alpha (32)
  • dropout (0,05)
  • Strati di adattamento: q_proj e v_proj

Vantaggi tecnici:

  • Realizzazione di messa a punto efficiente in termini di memoria attraverso adattatori a basso rango e pesi quantizzati
  • Mantenimento delle prestazioni riducendo significativamente l'utilizzo di memoria GPU

Punti di innovazione tecnica

  1. Applicazione dell'adattamento a basso rango quantizzato: Prima applicazione della tecnica QLoRA al rilevamento del linguaggio offensivo Roman Urdu, realizzando una messa a punto efficiente di modelli di grandi dimensioni.
  2. Trasferimento cross-linguistico assistito da traduzione: Utilizzo di una strategia di traduzione per colmare il divario linguistico e migliorare la comprensione della semantica sottostante del modello.
  3. Framework di confronto multi-modello: Istituzione di un framework di valutazione comparativa sistematica tra modelli LLM e modelli Transformer tradizionali.

Impostazione sperimentale

Dataset

  • Dimensione: 46.026 campioni
  • Fonte: Commenti Facebook e risposte YouTube
  • Annotazione: Tre annotatori bilingui, Cohen's Kappa = 0,86
  • Divisione: 80% addestramento, 20% test (campionamento stratificato)
  • Pre-elaborazione: Pulizia minima per preservare l'integrità contestuale

Metriche di valutazione

  • Accuratezza (Accuracy)
  • Precisione (Precision)
  • Richiamo (Recall)
  • Punteggio F1 (F1 Score)

Metodi di confronto

  • LLaMA 3 (8B) + QLoRA
  • Mistral 7B + QLoRA
  • LLaMA 2 (7B) + QLoRA
  • RoBERTa (messa a punto tradizionale)
  • ModernBERT (messa a punto tradizionale)

Dettagli di implementazione

  • Hardware: NVIDIA A100 (80GB VRAM), 128GB RAM, CPU 32-core
  • Ambiente software: Python 3.13.2, PyTorch, Transformers, PEFT e altri
  • Iperparametri: Tasso di apprendimento 2e-5, dimensione batch 2, epoche di addestramento 10, decadimento dei pesi 0,01
  • Strategie di ottimizzazione: Checkpoint del gradiente, meccanismo di early stopping

Risultati sperimentali

Risultati principali

ModelloAccuratezzaPrecisioneRichiamoPunteggio F1
LLaMA 3 (8B)91,6291,491,591,45
Mistral 7B89,8889,589,889,66
LLaMA 2 (7B)88,7488,288,688,4
RoBERTa85,6585,285,785,44
ModernBERT83,9283,184,083,55

Risultati chiave:

  1. LLaMA 3 (8B) ha raggiunto le migliori prestazioni con un punteggio F1 del 91,45%
  2. I modelli linguistici di grandi dimensioni basati su QLoRA superano significativamente i modelli Transformer tradizionali
  3. Il divario di prestazioni riflette i vantaggi della messa a punto QLoRA nei compiti di linguaggio code-mixed

Analisi del comportamento di addestramento

  • Velocità di convergenza: Il modello migliore ha raggiunto il punteggio F1 di validazione ottimale entro 2-3 epoche
  • Stabilità dell'addestramento: Tutti i modelli mostrano una diminuzione della perdita uniforme, senza segni di overfitting
  • Efficienza della memoria: QLoRA ha ridotto significativamente i requisiti di memoria per la messa a punto di modelli di grandi dimensioni

Confronto dell'efficienza di inferenza

  • LLaMA 3 (8B): Circa 1,0 secondo/1000 campioni
  • Mistral 7B: Circa 0,80 secondi/1000 campioni
  • LLaMA 2 (7B): Circa 0,78 secondi/1000 campioni
  • RoBERTa: Circa 0,35 secondi/1000 campioni
  • ModernBERT: Circa 0,30 secondi/1000 campioni

Riflette il compromesso tra dimensione del modello e velocità di inferenza.

Analisi dell'interpretabilità del modello

Attraverso l'analisi LIME e SHAP sono stati identificati:

  • Vocaboli offensivi ad alto impatto: "saalon", "naacho", "maaregi" e altri
  • Modelli decisionali del modello: LLaMA 3 si concentra sul linguaggio offensivo contestuale, mentre i modelli tradizionali mostrano un'allocazione di peso più dispersa
  • Identificazione dei bias: Alcuni vocaboli neutri potrebbero fuorviare la classificazione, evidenziando l'importanza della qualità dei dati

Lavori correlati

Ricerca sul rilevamento del linguaggio offensivo

  1. Metodi tradizionali: Metodi di apprendimento automatico basati su caratteristiche manuali (SVM, Naive Bayes e altri)
  2. Metodi di apprendimento profondo: Architetture CNN, RNN e Transformer (BERT e sue varianti)
  3. Elaborazione multilingue: Metodi di trasferimento cross-linguistico e apprendimento zero-shot

Elaborazione di lingue a basse risorse

  1. Ricerca su Roman Urdu: Pochi ricercatori hanno costruito dataset e metodi di embedding per Roman Urdu
  2. Elaborazione code-mixed: Metodi di embedding multilingue e traduzione automatica assistita
  3. Sfide di scarsità di risorse: Mancanza di modelli pre-addestrati e corpus di grandi dimensioni annotati

Messa a punto di modelli linguistici di grandi dimensioni

  1. Messa a punto efficiente in termini di parametri: Sviluppo di tecniche come QLoRA e LoRA
  2. Applicazioni LLM: Applicazione di GPT, LLaMA, Mistral nei compiti di classificazione del testo
  3. Tecniche di quantizzazione: Riduzione dei requisiti di risorse computazionali mantenendo le prestazioni

Conclusioni e discussione

Conclusioni principali

  1. Efficacia della messa a punto QLoRA: Nel compito di rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese, i modelli linguistici di grandi dimensioni messi a punto con QLoRA superano significativamente i metodi tradizionali
  2. Fattibilità della strategia di traduzione: La pre-elaborazione mediante traduzione consente di sfruttare efficacemente i modelli LLM in inglese per l'elaborazione di linguaggi code-mixed a basse risorse
  3. Importanza della dimensione del modello: Dimensioni di parametri del modello più grandi mostrano vantaggi evidenti nei compiti NLP complessi

Limitazioni

  1. Perdita di caratteristiche code-mixed: Il processo di traduzione comporta la perdita della struttura di code-switching originale, con il modello che elabora effettivamente la versione tradotta in inglese piuttosto che il testo code-mixed nativo
  2. Requisiti di risorse computazionali: La latenza di inferenza dei modelli linguistici di grandi dimensioni è relativamente elevata, il che potrebbe limitare le applicazioni in tempo reale
  3. Dimensione del dataset: La dimensione relativamente piccola del dataset potrebbe influire sulla capacità di generalizzazione del modello
  4. Dipendenza dalla qualità della traduzione: L'efficacia del metodo dipende fortemente dalla qualità della traduzione di Google Translate

Direzioni future

  1. Elaborazione diretta del testo code-mixed: Sviluppo di modelli LLM in grado di elaborare direttamente Roman Urdu senza necessità di traduzione
  2. Apprendimento zero-shot e few-shot: Riduzione della dipendenza dai dati annotati
  3. Ottimizzazione del trasferimento cross-linguistico: Miglioramento dei metodi di trasferimento cross-linguistico per preservare meglio le caratteristiche code-mixed
  4. Ottimizzazione in tempo reale: Ottimizzazione della velocità di inferenza per i requisiti di distribuzione pratica

Valutazione approfondita

Punti di forza

  1. Innovazione metodologica: Prima applicazione della tecnica QLoRA al rilevamento del linguaggio offensivo Roman Urdu, fornendo una nuova prospettiva risolutiva
  2. Completezza sperimentale: Confronto di modelli di diverse dimensioni e architetture, fornendo benchmark di prestazioni completi
  3. Valore pratico: Fornitura di una soluzione tecnica fattibile per la moderazione dei contenuti sui social media
  4. Avanzamento tecnico: Adozione delle più recenti tecniche di messa a punto efficiente in termini di parametri, realizzazione di buone prestazioni in ambienti con risorse limitate

Insufficienze

  1. Limitazioni metodologiche: La strategia di pre-elaborazione mediante traduzione, sebbene pratica, perde le caratteristiche essenziali del code-mixing
  2. Limitazioni del dataset: Il dataset è relativamente piccolo e proviene solo da piattaforme specifiche, il che potrebbe influire sulla generalizzabilità
  3. Dimensioni di valutazione: Mancanza di analisi a grana fine di diversi tipi di linguaggio offensivo
  4. Contributo teorico: Principalmente implementazione ingegneristica con innovazione teorica relativamente limitata

Impatto

  1. Contributo accademico: Fornitura di un metodo efficace per il rilevamento di contenuti offensivi nel linguaggio code-mixed a basse risorse
  2. Applicazione pratica: Applicabilità diretta alla moderazione dei contenuti Roman Urdu sui social media
  3. Promozione tecnologica: Dimostrazione del potenziale di applicazione di QLoRA in compiti specifici di dominio
  4. Ispirazione per la ricerca: Fornitura di un framework di riferimento per compiti simili in altre lingue a basse risorse

Scenari applicabili

  1. Piattaforme di social media: Moderazione dei contenuti Roman Urdu su Facebook, Twitter e altre piattaforme
  2. Gestione di comunità online: Forum online e comunità nelle regioni del Pakistan e dell'India
  3. Applicazioni educative: Sistemi di rilevamento e prevenzione del cyberbullismo
  4. Base di ricerca: Base di sviluppo per sistemi di rilevamento del linguaggio offensivo multilingue

Riferimenti bibliografici

L'articolo cita 47 lavori correlati, coprendo molteplici campi inclusi il rilevamento del linguaggio offensivo, i modelli linguistici di grandi dimensioni e l'elaborazione del linguaggio code-mixed, fornendo una base teorica solida e supporto tecnico per la ricerca.


Valutazione complessiva: Questo articolo è relativamente maturo nell'implementazione tecnica, con un design sperimentale ragionevole e risultati convincenti. Sebbene l'innovazione teorica sia relativamente limitata, fornisce una soluzione di valore pratico per l'applicazione effettiva di linguaggi code-mixed a basse risorse, con buon valore pratico e significato di promozione.