2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.

The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.

academic

Feinabstimmung großer Sprachmodelle mit QLoRA zur Erkennung beleidigender Sprache in Roman Urdu-Englisch Code-gemischtem Text

Grundlegende Informationen

Paper-ID: 2510.03683
Titel: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
Autoren: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
Institution: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Mexiko
Klassifizierung: cs.CL (Computerlinguistik)
Paper-Link: https://arxiv.org/abs/2510.03683

Zusammenfassung

Diese Forschung befasst sich mit der Erkennung beleidigender Sprache in Roman Urdu-Englisch code-gemischtem Text und schlägt ein Framework zur Feinabstimmung großer Sprachmodelle basierend auf QLoRA vor. Aufgrund von Herausforderungen wie grammatikalischer Unregelmäßigkeit, Schreibweise-Inkonsistenz und Mangel an annotierten Daten in der Roman Urdu-Sprache verwenden die Forscher Google Translate, um code-gemischte Texte ins Englische zu konvertieren, um die Fähigkeiten englischsprachiger großer Sprachmodelle vollständig zu nutzen. Experimente wurden auf mehreren Modellen durchgeführt, darunter Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT und RoBERTa. Die Ergebnisse zeigen, dass Meta-LLaMA-3-8B den höchsten F1-Score von 91,45% erreicht, während Mistral-7B 89,66% erreicht, beide übertreffen traditionelle Transformer-Baseline-Modelle.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist die Erkennung beleidigender Sprache in Roman Urdu-Englisch code-gemischtem Text. Roman Urdu ist die primäre Form der digitalen Kommunikation in Teilen Pakistans und Indiens, wobei Benutzer lateinische Buchstaben zur Schreibweise von Urdu verwenden und häufig englische Wörter mischen.

Bedeutung des Problems

Anforderungen der sozialen Medien-Sicherheit: Mit der Verbreitung von Plattformen wie Twitter, Facebook und YouTube nimmt die Verbreitung von beleidigenden und schädlichen Inhalten zu. Die Identifizierung und Reduzierung solcher Inhalte ist entscheidend für die Aufrechterhaltung der digitalen Gesundheit und die Verhinderung psychischer Schäden für Benutzer.
Besondere Herausforderungen code-gemischter Sprachen: Roman Urdu-Englisch code-gemischter Text weist nicht standardisierte Grammatik, Schreibweise-Inkonsistenz und fehlende annotierte Datensätze auf. Diese Merkmale führen zu einer signifikanten Verringerung der Genauigkeit traditioneller NLP-Modelle.

Einschränkungen bestehender Methoden

Traditionelle maschinelle Lernmethoden: Frühe Ansätze verwendeten SVM, Naive Bayes und logistische Regression in Kombination mit TF-IDF oder n-gram-Merkmalen, zeigten aber schlechte Generalisierungsfähigkeit über verschiedene Kontexte und Sprachen hinweg, besonders bei informellen, verrauschten oder code-gemischten Daten.
Deep-Learning-Modelle: Obwohl CNN und RNN bei der Erfassung von Kontextinformationen traditionelle Methoden übertreffen, stehen sie bei morphologisch reichen, ressourcenknappen Sprachen wie Roman Urdu vor Herausforderungen.
Mangel an vortrainierten Modellen: Roman Urdu verfügt über keine speziellen vortrainierten Modelle oder großflächig annotierte Korpora, was die Anwendung bestehender Methoden einschränkt.

Kernbeiträge

Vorschlag einer End-to-End-Pipeline zur Erkennung beleidigender Sprache in Roman Urdu-Englisch: Aufbau eines vollständigen Verarbeitungsflusses von der Datenvorverarbeitung bis zur Modellbewertung.
Anwendung von QLoRA auf LLaMA- und Mistral-Modelle: Erstmalige Anwendung der quantisierten Low-Rank-Adaptationstechnik auf die Aufgabe der Erkennung beleidigender Sprache in Roman Urdu.
Umfassende vergleichende Bewertung: Vergleich der Leistung von mit QLoRA feinabgestimmten großen Sprachmodellen mit traditionell feinabgestimmten ModernBERT- und RoBERTa-Modellen.
Adoption einer übersetzungsgestützten Vorverarbeitungsstrategie: Nutzung englischsprachiger großer Sprachmodelle zur Verarbeitung ressourcenknapper code-gemischter Texte durch Übersetzungsmethoden.

Detaillierte Methodenbeschreibung

Aufgabendefinition

Eingabe: Roman Urdu-Englisch code-gemischter Text Ausgabe: Binäre Klassifizierungslabel (beleidigend/nicht beleidigend) Einschränkungen: Verarbeitung von ressourcenknappen, nicht standardisierten Grammatiken und code-gemischten Merkmalen

Modellarchitektur

Gesamtablauf

Die Forschung verfolgt eine systematisierte Verarbeitungs-Pipeline:

Datenerfassung und Vorverarbeitung
- Der Datensatz enthält 46.026 Samples (24.026 "beleidigend", 22.000 "nicht beleidigend")
- Hauptsächlich aus öffentlichen Facebook-Kommentaren und YouTube-Antworten gescraped
- Manuell von drei zweisprachigen Annotatoren annotiert, Cohen's Kappa-Übereinstimmung von 0,86
Übersetzungsverarbeitung
- Verwendung der GoogleTranslator-Bibliothek aus dem deep_translator-Paket
- Übersetzung von Roman Urdu-Text ins Englische zur Nutzung englischsprachiger LLMs
- Beibehaltung der ursprünglichen code-gemischten Charakteristiken bis zur Übersetzungsphase
Datensatz-Aufteilung und Annotation
- Label-Zuordnung: "beleidigend" → 1, "nicht beleidigend" → 0
- Verwendung stratifizierter Stichprobenentnahme für 80% Training, 20% Test-Aufteilung
- Für Decoder-Modelle wird die Eingabe im Prompt-Stil formatiert

Modellauswahl

Eine Vielzahl von Modellen wurde zur Leistungsbewertung ausgewählt:

Große Sprachmodelle: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), mit QLoRA-Feinabstimmung
Traditionelle Transformer: RoBERTa und ModernBERT, mit traditionellen überwachten Lernmethoden feinabgestimmt

QLoRA-Feinabstimmungstechnik

Kernparameter-Einstellungen:

rank (r=8)
alpha (32)
dropout (0,05)
Adaptationsschichten: q_proj und v_proj

Technische Vorteile:

Speichereffiziente Feinabstimmung durch Low-Rank-Adapter und quantisierte Gewichte
Signifikante Reduzierung des GPU-Speicherverbrauchs bei Beibehaltung der Leistung

Technische Innovationspunkte

Anwendung der quantisierten Low-Rank-Adaption: Erstmalige Anwendung der QLoRA-Technik auf die Erkennung beleidigender Sprache in Roman Urdu, ermöglicht effiziente Feinabstimmung großer Modelle.
Übersetzungsgestützte sprachübergreifende Übertragung: Überbrückung von Sprachunterschieden durch Übersetzungsstrategie, Verbesserung des Modellverständnisses zugrunde liegender Semantik.
Multi-Modell-Vergleichsrahmen: Aufbau eines systematischen Vergleichsbewertungsrahmens zwischen LLMs und traditionellen Transformer-Modellen.

Experimentelle Einrichtung

Datensatz

Umfang: 46.026 Samples
Quelle: Facebook-Kommentare und YouTube-Antworten
Annotation: Drei zweisprachige Annotatoren, Cohen's Kappa = 0,86
Aufteilung: 80% Training, 20% Test (stratifizierte Stichprobenentnahme)
Vorverarbeitung: Minimale Bereinigung zur Beibehaltung der Kontextvollständigkeit

Bewertungsmetriken

Genauigkeit (Accuracy)
Präzision (Precision)
Recall (Recall)
F1-Score (F1 Score)

Vergleichsmethoden

LLaMA 3 (8B) + QLoRA
Mistral 7B + QLoRA
LLaMA 2 (7B) + QLoRA
RoBERTa (traditionelle Feinabstimmung)
ModernBERT (traditionelle Feinabstimmung)

Implementierungsdetails

Hardware: NVIDIA A100 (80GB VRAM), 128GB RAM, 32-Kern-CPU
Softwareumgebung: Python 3.13.2, PyTorch, Transformers, PEFT usw.
Hyperparameter: Lernrate 2e-5, Batch-Größe 2, Trainings-Epochen 10, Gewichtsabfall 0,01
Optimierungsstrategien: Gradient Checkpointing, Early Stopping-Mechanismus

Experimentelle Ergebnisse

Hauptergebnisse

Modell	Genauigkeit	Präzision	Recall	F1-Score
LLaMA 3 (8B)	91,62	91,4	91,5	91,45
Mistral 7B	89,88	89,5	89,8	89,66
LLaMA 2 (7B)	88,74	88,2	88,6	88,4
RoBERTa	85,65	85,2	85,7	85,44
ModernBERT	83,92	83,1	84,0	83,55

Wichtigste Erkenntnisse:

LLaMA 3 (8B) erreicht die beste Leistung mit einem F1-Score von 91,45%
Auf QLoRA basierende große Sprachmodelle übertreffen traditionelle Transformer-Modelle erheblich
Der Leistungsunterschied verdeutlicht die Vorteile der QLoRA-Feinabstimmung bei code-gemischten Sprachaufgaben

Trainingsverhalten-Analyse

Konvergenzgeschwindigkeit: Die besten Modelle erreichen den optimalen Validierungs-F1-Score innerhalb von 2-3 Epochen
Trainingsstabilität: Alle Modelle zeigen einen sanften Verlustabfall ohne Anzeichen von Überanpassung
Speichereffizienz: QLoRA reduziert erheblich den Speicherbedarf für die Feinabstimmung großer Modelle

Vergleich der Inferenzeffizienz

LLaMA 3 (8B): ca. 1,0 Sekunde/1000 Samples
Mistral 7B: ca. 0,80 Sekunden/1000 Samples
LLaMA 2 (7B): ca. 0,78 Sekunden/1000 Samples
RoBERTa: ca. 0,35 Sekunden/1000 Samples
ModernBERT: ca. 0,30 Sekunden/1000 Samples

Dies verdeutlicht den Kompromiss zwischen Modellgröße und Inferenzgeschwindigkeit.

Analyse der Modellinterpretierbarkeit

Durch LIME- und SHAP-Analyse wurden folgende Erkenntnisse gewonnen:

Hochimpact-Beleidigungsvokabular: "saalon", "naacho", "maaregi" usw.
Modellentscheidungsmuster: LLaMA 3 konzentriert sich auf kontextuelle Beleidigungssprache, während traditionelle Modelle eine stärker verteilte Gewichtszuweisung aufweisen
Bias-Identifikation: Bestimmte neutrale Wörter können die Klassifizierung irreführen, was die Bedeutung der Datenqualität unterstreicht

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität der QLoRA-Feinabstimmung: Bei der Aufgabe der Erkennung beleidigender Sprache in Roman Urdu-Englisch code-gemischtem Text zeigen mit QLoRA feinabgestimmte große Sprachmodelle eine signifikante Überlegenheit gegenüber traditionellen Methoden
Machbarkeit der Übersetzungsstrategie: Die Übersetzungsvorverarbeitung ermöglicht die effektive Nutzung englischsprachiger LLMs zur Verarbeitung ressourcenknapper code-gemischter Sprachen
Bedeutung der Modellgröße: Größere Modellparameter zeigen bei komplexen NLP-Aufgaben deutliche Vorteile

Einschränkungen

Verlust von Code-Mixed-Merkmalen: Der Übersetzungsprozess führt zum Verlust der ursprünglichen Code-Switching-Struktur; das Modell verarbeitet tatsächlich englische Übersetzungsversionen statt nativer code-gemischter Texte
Anforderungen an Rechenressourcen: Die Inferenzlatenz großer Sprachmodelle ist höher und kann Echtzeitanwendungen einschränken
Datensatzgröße: Der relativ kleine Datensatz kann die Generalisierungsfähigkeit des Modells beeinflussen
Abhängigkeit von Übersetzungsqualität: Die Effektivität der Methode hängt stark von der Qualität der Google Translate-Übersetzung ab

Zukünftige Richtungen

Direkte Verarbeitung code-gemischter Texte: Entwicklung von LLMs, die Roman Urdu direkt verarbeiten können, ohne Übersetzung
Zero-Shot- und Few-Shot-Learning: Reduzierung der Abhängigkeit von annotierten Daten
Optimierung der sprachübergreifenden Übertragung: Verbesserung von Transferlernmethoden zur besseren Beibehaltung code-gemischter Merkmale
Echtzeitoptimierung: Optimierung der Inferenzgeschwindigkeit für praktische Bereitstellungsanforderungen

Tiefgehende Bewertung

Stärken

Methodische Innovativität: Erstmalige Anwendung der QLoRA-Technik auf die Erkennung beleidigender Sprache in Roman Urdu, bietet neue Lösungsansätze
Umfassendheit der Experimente: Vergleich mehrerer Modelle unterschiedlicher Größe und Architektur, bietet umfassende Leistungs-Benchmarks
Praktischer Wert: Bietet machbare technische Lösungen für die Inhaltsmoderation in sozialen Medien
Technologische Fortschrittlichkeit: Einsatz neuester parametereffizenter Feinabstimmungstechniken, erreicht gute Leistung in ressourcenbegrenzten Umgebungen

Schwächen

Methodische Einschränkungen: Die Übersetzungsvorverarbeitungsstrategie ist zwar praktisch, verliert aber die wesentlichen Merkmale des Code-Mixing
Datensatz-Limitierungen: Der Datensatz ist relativ klein und stammt nur aus bestimmten Plattformen, was die Generalisierbarkeit beeinflussen kann
Unzureichende Bewertungsdimensionen: Mangel an feingranularer Analyse verschiedener Arten von Beleidigungssprache
Begrenzte theoretische Beiträge: Hauptsächlich technische Implementierung, relativ begrenzte theoretische Innovationen

Auswirkungen

Akademischer Beitrag: Bietet effektive Methoden für die Erkennung beleidigender Inhalte in ressourcenknappen code-gemischten Sprachen
Praktische Anwendung: Kann direkt auf die Inhaltsmoderation von Roman Urdu in sozialen Medien angewendet werden
Technologische Förderung: Demonstriert das Anwendungspotenzial von QLoRA in spezifischen Aufgabenbereichen
Forschungsinspiration: Bietet einen Referenzrahmen für ähnliche Aufgaben in anderen ressourcenknappen Sprachen

Anwendungsszenarien

Plattformen sozialer Medien: Inhaltsmoderation für Roman Urdu auf Facebook, Twitter usw.
Online-Community-Management: Online-Foren und Gemeinschaften in Pakistan und Indien
Bildungsanwendungen: Systeme zur Erkennung und Prävention von Cybermobbing
Forschungsgrundlage: Entwicklungsgrundlage für mehrsprachige Systeme zur Erkennung beleidigender Sprache

Literaturverzeichnis

Das Paper zitiert 46 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Erkennung beleidigender Sprache, große Sprachmodelle und Verarbeitung code-gemischter Sprachen abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.

Gesamtbewertung: Dieses Paper zeigt eine ausgefeilte technische Implementierung, vernünftige Experimentgestaltung und überzeugende Ergebnisse. Obwohl die theoretischen Innovationen relativ begrenzt sind, bietet es wertvolle Lösungen für praktische Anwendungen in ressourcenknappen code-gemischten Sprachen mit gutem praktischen Wert und Verbreitungspotenzial.