2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.

The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.

academic

Messa a punto di modelli linguistici di grandi dimensioni con QLoRA per il rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese

Informazioni di base

ID articolo: 2510.03683
Titolo: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
Autori: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
Istituzioni: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Messico
Classificazione: cs.CL (Linguistica Computazionale)
Link articolo: https://arxiv.org/abs/2510.03683

Riassunto

Questo studio affronta il problema del rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese, proponendo un framework di messa a punto di modelli linguistici di grandi dimensioni basato su QLoRA. Data la presenza di sfide nel linguaggio Roman Urdu come grammatica non standardizzata, incoerenza ortografica e scarsità di dati annotati, i ricercatori hanno adottato Google Translate per convertire il testo code-mixed in inglese, al fine di sfruttare pienamente le capacità dei modelli linguistici di grandi dimensioni in inglese. Gli esperimenti sono stati condotti su più modelli, tra cui Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT e RoBERTa. I risultati mostrano che Meta-LLaMA-3-8B ha raggiunto il punteggio F1 più alto del 91,45%, mentre Mistral-7B ha raggiunto l'89,66%, superando entrambi i modelli baseline Transformer tradizionali.

Contesto della ricerca e motivazione

Definizione del problema

Il problema centrale affrontato da questo studio è il rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese. Roman Urdu è la forma principale di comunicazione digitale in Pakistan e in alcune regioni dell'India, dove gli utenti scrivono l'urdu utilizzando caratteri latini e frequentemente mescolano vocaboli inglesi.

Importanza del problema

Esigenze di sicurezza sui social media: Con la diffusione di piattaforme come Twitter, Facebook e YouTube, la propagazione di contenuti offensivi e dannosi è diventata sempre più grave. Identificare e ridurre tali contenuti è fondamentale per mantenere la salute digitale e prevenire danni psicologici agli utenti.
Sfide specifiche del linguaggio code-mixed: Il testo code-mixed Roman Urdu-Inglese presenta caratteristiche di grammatica non standard, incoerenza ortografica e mancanza di dataset annotati, che riducono significativamente l'accuratezza dei modelli NLP tradizionali.

Limitazioni dei metodi esistenti

Metodi tradizionali di apprendimento automatico: Gli approcci iniziali che utilizzavano SVM, Naive Bayes e regressione logistica combinati con caratteristiche TF-IDF o n-gram mostrano scarsa capacità di generalizzazione tra contesti e lingue diverse, in particolare su dati informali, rumorosi o code-mixed.
Modelli di apprendimento profondo: Sebbene CNN e RNN superino i metodi tradizionali nella cattura di informazioni contestuali, affrontano ancora sfide con lingue a basse risorse e morfologicamente ricche come Roman Urdu.
Scarsità di modelli pre-addestrati: Roman Urdu manca di modelli pre-addestrati specializzati o corpus di grandi dimensioni annotati, limitando l'applicazione dei metodi esistenti.

Contributi principali

Proposta di una pipeline end-to-end per il rilevamento del linguaggio offensivo Roman Urdu-Inglese: Costruzione di un flusso di lavoro completo dalla pre-elaborazione dei dati alla valutazione del modello.
Applicazione di QLoRA ai modelli LLaMA e Mistral: Prima applicazione della tecnica di adattamento a basso rango quantizzato al compito di rilevamento del linguaggio offensivo Roman Urdu.
Valutazione comparativa completa: Confronto delle prestazioni dei modelli linguistici di grandi dimensioni messi a punto con QLoRA rispetto ai modelli ModernBERT e RoBERTa messi a punto tradizionalmente.
Adozione di una strategia di pre-elaborazione basata sulla traduzione: Utilizzo di metodi di traduzione per sfruttare i modelli linguistici di grandi dimensioni in inglese nel trattamento di testi code-mixed a basse risorse.

Spiegazione dettagliata del metodo

Definizione del compito

Input: Testo code-mixed Roman Urdu-Inglese Output: Etichetta di classificazione binaria (offensivo/non offensivo) Vincoli: Gestione di testi a basse risorse, grammatica non standard, caratteristiche code-mixed

Architettura del modello

Flusso generale

Lo studio adotta una pipeline di elaborazione sistematizzata:

Raccolta e pre-elaborazione dei dati
- Il dataset contiene 46.026 campioni (24.026 "offensivi", 22.000 "non offensivi")
- Principalmente estratti da commenti pubblici su Facebook e risposte su YouTube
- Annotati manualmente da tre annotatori bilingui con coerenza Cohen's Kappa di 0,86
Elaborazione della traduzione
- Utilizzo della libreria GoogleTranslator dal pacchetto deep_translator
- Traduzione del testo Roman Urdu in inglese per sfruttare i modelli LLM in inglese
- Mantenimento delle caratteristiche code-mixed originali fino alla fase di traduzione
Divisione del dataset e annotazione
- Mappatura delle etichette: "offensivo" → 1, "non offensivo" → 0
- Utilizzo del campionamento stratificato per divisione 80% addestramento, 20% test
- Per i modelli decoder, il formato di input è strutturato in stile prompt

Selezione del modello

Sono stati selezionati modelli diversificati per la valutazione delle prestazioni:

Modelli linguistici di grandi dimensioni: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), messi a punto con QLoRA
Transformer tradizionali: RoBERTa e ModernBERT, messi a punto con metodi di apprendimento supervisionato tradizionali

Tecnica di messa a punto QLoRA

Impostazioni dei parametri principali:

rank (r=8)
alpha (32)
dropout (0,05)
Strati di adattamento: q_proj e v_proj

Vantaggi tecnici:

Realizzazione di messa a punto efficiente in termini di memoria attraverso adattatori a basso rango e pesi quantizzati
Mantenimento delle prestazioni riducendo significativamente l'utilizzo di memoria GPU

Punti di innovazione tecnica

Applicazione dell'adattamento a basso rango quantizzato: Prima applicazione della tecnica QLoRA al rilevamento del linguaggio offensivo Roman Urdu, realizzando una messa a punto efficiente di modelli di grandi dimensioni.
Trasferimento cross-linguistico assistito da traduzione: Utilizzo di una strategia di traduzione per colmare il divario linguistico e migliorare la comprensione della semantica sottostante del modello.
Framework di confronto multi-modello: Istituzione di un framework di valutazione comparativa sistematica tra modelli LLM e modelli Transformer tradizionali.

Impostazione sperimentale

Dataset

Dimensione: 46.026 campioni
Fonte: Commenti Facebook e risposte YouTube
Annotazione: Tre annotatori bilingui, Cohen's Kappa = 0,86
Divisione: 80% addestramento, 20% test (campionamento stratificato)
Pre-elaborazione: Pulizia minima per preservare l'integrità contestuale

Metriche di valutazione

Accuratezza (Accuracy)
Precisione (Precision)
Richiamo (Recall)
Punteggio F1 (F1 Score)

Metodi di confronto

LLaMA 3 (8B) + QLoRA
Mistral 7B + QLoRA
LLaMA 2 (7B) + QLoRA
RoBERTa (messa a punto tradizionale)
ModernBERT (messa a punto tradizionale)

Dettagli di implementazione

Hardware: NVIDIA A100 (80GB VRAM), 128GB RAM, CPU 32-core
Ambiente software: Python 3.13.2, PyTorch, Transformers, PEFT e altri
Iperparametri: Tasso di apprendimento 2e-5, dimensione batch 2, epoche di addestramento 10, decadimento dei pesi 0,01
Strategie di ottimizzazione: Checkpoint del gradiente, meccanismo di early stopping

Risultati sperimentali

Risultati principali

Modello	Accuratezza	Precisione	Richiamo	Punteggio F1
LLaMA 3 (8B)	91,62	91,4	91,5	91,45
Mistral 7B	89,88	89,5	89,8	89,66
LLaMA 2 (7B)	88,74	88,2	88,6	88,4
RoBERTa	85,65	85,2	85,7	85,44
ModernBERT	83,92	83,1	84,0	83,55

Risultati chiave:

LLaMA 3 (8B) ha raggiunto le migliori prestazioni con un punteggio F1 del 91,45%
I modelli linguistici di grandi dimensioni basati su QLoRA superano significativamente i modelli Transformer tradizionali
Il divario di prestazioni riflette i vantaggi della messa a punto QLoRA nei compiti di linguaggio code-mixed

Analisi del comportamento di addestramento

Velocità di convergenza: Il modello migliore ha raggiunto il punteggio F1 di validazione ottimale entro 2-3 epoche
Stabilità dell'addestramento: Tutti i modelli mostrano una diminuzione della perdita uniforme, senza segni di overfitting
Efficienza della memoria: QLoRA ha ridotto significativamente i requisiti di memoria per la messa a punto di modelli di grandi dimensioni

Confronto dell'efficienza di inferenza

LLaMA 3 (8B): Circa 1,0 secondo/1000 campioni
Mistral 7B: Circa 0,80 secondi/1000 campioni
LLaMA 2 (7B): Circa 0,78 secondi/1000 campioni
RoBERTa: Circa 0,35 secondi/1000 campioni
ModernBERT: Circa 0,30 secondi/1000 campioni

Riflette il compromesso tra dimensione del modello e velocità di inferenza.

Analisi dell'interpretabilità del modello

Attraverso l'analisi LIME e SHAP sono stati identificati:

Vocaboli offensivi ad alto impatto: "saalon", "naacho", "maaregi" e altri
Modelli decisionali del modello: LLaMA 3 si concentra sul linguaggio offensivo contestuale, mentre i modelli tradizionali mostrano un'allocazione di peso più dispersa
Identificazione dei bias: Alcuni vocaboli neutri potrebbero fuorviare la classificazione, evidenziando l'importanza della qualità dei dati

Lavori correlati

Ricerca sul rilevamento del linguaggio offensivo

Metodi tradizionali: Metodi di apprendimento automatico basati su caratteristiche manuali (SVM, Naive Bayes e altri)
Metodi di apprendimento profondo: Architetture CNN, RNN e Transformer (BERT e sue varianti)
Elaborazione multilingue: Metodi di trasferimento cross-linguistico e apprendimento zero-shot

Elaborazione di lingue a basse risorse

Ricerca su Roman Urdu: Pochi ricercatori hanno costruito dataset e metodi di embedding per Roman Urdu
Elaborazione code-mixed: Metodi di embedding multilingue e traduzione automatica assistita
Sfide di scarsità di risorse: Mancanza di modelli pre-addestrati e corpus di grandi dimensioni annotati

Messa a punto di modelli linguistici di grandi dimensioni

Messa a punto efficiente in termini di parametri: Sviluppo di tecniche come QLoRA e LoRA
Applicazioni LLM: Applicazione di GPT, LLaMA, Mistral nei compiti di classificazione del testo
Tecniche di quantizzazione: Riduzione dei requisiti di risorse computazionali mantenendo le prestazioni

Conclusioni e discussione

Conclusioni principali

Efficacia della messa a punto QLoRA: Nel compito di rilevamento del linguaggio offensivo nel testo code-mixed Roman Urdu-Inglese, i modelli linguistici di grandi dimensioni messi a punto con QLoRA superano significativamente i metodi tradizionali
Fattibilità della strategia di traduzione: La pre-elaborazione mediante traduzione consente di sfruttare efficacemente i modelli LLM in inglese per l'elaborazione di linguaggi code-mixed a basse risorse
Importanza della dimensione del modello: Dimensioni di parametri del modello più grandi mostrano vantaggi evidenti nei compiti NLP complessi

Limitazioni

Perdita di caratteristiche code-mixed: Il processo di traduzione comporta la perdita della struttura di code-switching originale, con il modello che elabora effettivamente la versione tradotta in inglese piuttosto che il testo code-mixed nativo
Requisiti di risorse computazionali: La latenza di inferenza dei modelli linguistici di grandi dimensioni è relativamente elevata, il che potrebbe limitare le applicazioni in tempo reale
Dimensione del dataset: La dimensione relativamente piccola del dataset potrebbe influire sulla capacità di generalizzazione del modello
Dipendenza dalla qualità della traduzione: L'efficacia del metodo dipende fortemente dalla qualità della traduzione di Google Translate

Direzioni future

Elaborazione diretta del testo code-mixed: Sviluppo di modelli LLM in grado di elaborare direttamente Roman Urdu senza necessità di traduzione
Apprendimento zero-shot e few-shot: Riduzione della dipendenza dai dati annotati
Ottimizzazione del trasferimento cross-linguistico: Miglioramento dei metodi di trasferimento cross-linguistico per preservare meglio le caratteristiche code-mixed
Ottimizzazione in tempo reale: Ottimizzazione della velocità di inferenza per i requisiti di distribuzione pratica

Valutazione approfondita

Punti di forza

Innovazione metodologica: Prima applicazione della tecnica QLoRA al rilevamento del linguaggio offensivo Roman Urdu, fornendo una nuova prospettiva risolutiva
Completezza sperimentale: Confronto di modelli di diverse dimensioni e architetture, fornendo benchmark di prestazioni completi
Valore pratico: Fornitura di una soluzione tecnica fattibile per la moderazione dei contenuti sui social media
Avanzamento tecnico: Adozione delle più recenti tecniche di messa a punto efficiente in termini di parametri, realizzazione di buone prestazioni in ambienti con risorse limitate

Insufficienze

Limitazioni metodologiche: La strategia di pre-elaborazione mediante traduzione, sebbene pratica, perde le caratteristiche essenziali del code-mixing
Limitazioni del dataset: Il dataset è relativamente piccolo e proviene solo da piattaforme specifiche, il che potrebbe influire sulla generalizzabilità
Dimensioni di valutazione: Mancanza di analisi a grana fine di diversi tipi di linguaggio offensivo
Contributo teorico: Principalmente implementazione ingegneristica con innovazione teorica relativamente limitata

Impatto

Contributo accademico: Fornitura di un metodo efficace per il rilevamento di contenuti offensivi nel linguaggio code-mixed a basse risorse
Applicazione pratica: Applicabilità diretta alla moderazione dei contenuti Roman Urdu sui social media
Promozione tecnologica: Dimostrazione del potenziale di applicazione di QLoRA in compiti specifici di dominio
Ispirazione per la ricerca: Fornitura di un framework di riferimento per compiti simili in altre lingue a basse risorse

Scenari applicabili

Piattaforme di social media: Moderazione dei contenuti Roman Urdu su Facebook, Twitter e altre piattaforme
Gestione di comunità online: Forum online e comunità nelle regioni del Pakistan e dell'India
Applicazioni educative: Sistemi di rilevamento e prevenzione del cyberbullismo
Base di ricerca: Base di sviluppo per sistemi di rilevamento del linguaggio offensivo multilingue

Riferimenti bibliografici

L'articolo cita 47 lavori correlati, coprendo molteplici campi inclusi il rilevamento del linguaggio offensivo, i modelli linguistici di grandi dimensioni e l'elaborazione del linguaggio code-mixed, fornendo una base teorica solida e supporto tecnico per la ricerca.

Valutazione complessiva: Questo articolo è relativamente maturo nell'implementazione tecnica, con un design sperimentale ragionevole e risultati convincenti. Sebbene l'innovazione teorica sia relativamente limitata, fornisce una soluzione di valore pratico per l'applicazione effettiva di linguaggi code-mixed a basse risorse, con buon valore pratico e significato di promozione.