The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
- Paper-ID: 2510.03683
- Titel: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
- Autoren: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
- Institution: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Mexiko
- Klassifizierung: cs.CL (Computerlinguistik)
- Paper-Link: https://arxiv.org/abs/2510.03683
Diese Forschung befasst sich mit der Erkennung beleidigender Sprache in Roman Urdu-Englisch code-gemischtem Text und schlägt ein Framework zur Feinabstimmung großer Sprachmodelle basierend auf QLoRA vor. Aufgrund von Herausforderungen wie grammatikalischer Unregelmäßigkeit, Schreibweise-Inkonsistenz und Mangel an annotierten Daten in der Roman Urdu-Sprache verwenden die Forscher Google Translate, um code-gemischte Texte ins Englische zu konvertieren, um die Fähigkeiten englischsprachiger großer Sprachmodelle vollständig zu nutzen. Experimente wurden auf mehreren Modellen durchgeführt, darunter Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT und RoBERTa. Die Ergebnisse zeigen, dass Meta-LLaMA-3-8B den höchsten F1-Score von 91,45% erreicht, während Mistral-7B 89,66% erreicht, beide übertreffen traditionelle Transformer-Baseline-Modelle.
Das Kernproblem dieser Forschung ist die Erkennung beleidigender Sprache in Roman Urdu-Englisch code-gemischtem Text. Roman Urdu ist die primäre Form der digitalen Kommunikation in Teilen Pakistans und Indiens, wobei Benutzer lateinische Buchstaben zur Schreibweise von Urdu verwenden und häufig englische Wörter mischen.
- Anforderungen der sozialen Medien-Sicherheit: Mit der Verbreitung von Plattformen wie Twitter, Facebook und YouTube nimmt die Verbreitung von beleidigenden und schädlichen Inhalten zu. Die Identifizierung und Reduzierung solcher Inhalte ist entscheidend für die Aufrechterhaltung der digitalen Gesundheit und die Verhinderung psychischer Schäden für Benutzer.
- Besondere Herausforderungen code-gemischter Sprachen: Roman Urdu-Englisch code-gemischter Text weist nicht standardisierte Grammatik, Schreibweise-Inkonsistenz und fehlende annotierte Datensätze auf. Diese Merkmale führen zu einer signifikanten Verringerung der Genauigkeit traditioneller NLP-Modelle.
- Traditionelle maschinelle Lernmethoden: Frühe Ansätze verwendeten SVM, Naive Bayes und logistische Regression in Kombination mit TF-IDF oder n-gram-Merkmalen, zeigten aber schlechte Generalisierungsfähigkeit über verschiedene Kontexte und Sprachen hinweg, besonders bei informellen, verrauschten oder code-gemischten Daten.
- Deep-Learning-Modelle: Obwohl CNN und RNN bei der Erfassung von Kontextinformationen traditionelle Methoden übertreffen, stehen sie bei morphologisch reichen, ressourcenknappen Sprachen wie Roman Urdu vor Herausforderungen.
- Mangel an vortrainierten Modellen: Roman Urdu verfügt über keine speziellen vortrainierten Modelle oder großflächig annotierte Korpora, was die Anwendung bestehender Methoden einschränkt.
- Vorschlag einer End-to-End-Pipeline zur Erkennung beleidigender Sprache in Roman Urdu-Englisch: Aufbau eines vollständigen Verarbeitungsflusses von der Datenvorverarbeitung bis zur Modellbewertung.
- Anwendung von QLoRA auf LLaMA- und Mistral-Modelle: Erstmalige Anwendung der quantisierten Low-Rank-Adaptationstechnik auf die Aufgabe der Erkennung beleidigender Sprache in Roman Urdu.
- Umfassende vergleichende Bewertung: Vergleich der Leistung von mit QLoRA feinabgestimmten großen Sprachmodellen mit traditionell feinabgestimmten ModernBERT- und RoBERTa-Modellen.
- Adoption einer übersetzungsgestützten Vorverarbeitungsstrategie: Nutzung englischsprachiger großer Sprachmodelle zur Verarbeitung ressourcenknapper code-gemischter Texte durch Übersetzungsmethoden.
Eingabe: Roman Urdu-Englisch code-gemischter Text
Ausgabe: Binäre Klassifizierungslabel (beleidigend/nicht beleidigend)
Einschränkungen: Verarbeitung von ressourcenknappen, nicht standardisierten Grammatiken und code-gemischten Merkmalen
Die Forschung verfolgt eine systematisierte Verarbeitungs-Pipeline:
- Datenerfassung und Vorverarbeitung
- Der Datensatz enthält 46.026 Samples (24.026 "beleidigend", 22.000 "nicht beleidigend")
- Hauptsächlich aus öffentlichen Facebook-Kommentaren und YouTube-Antworten gescraped
- Manuell von drei zweisprachigen Annotatoren annotiert, Cohen's Kappa-Übereinstimmung von 0,86
- Übersetzungsverarbeitung
- Verwendung der GoogleTranslator-Bibliothek aus dem deep_translator-Paket
- Übersetzung von Roman Urdu-Text ins Englische zur Nutzung englischsprachiger LLMs
- Beibehaltung der ursprünglichen code-gemischten Charakteristiken bis zur Übersetzungsphase
- Datensatz-Aufteilung und Annotation
- Label-Zuordnung: "beleidigend" → 1, "nicht beleidigend" → 0
- Verwendung stratifizierter Stichprobenentnahme für 80% Training, 20% Test-Aufteilung
- Für Decoder-Modelle wird die Eingabe im Prompt-Stil formatiert
Eine Vielzahl von Modellen wurde zur Leistungsbewertung ausgewählt:
- Große Sprachmodelle: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), mit QLoRA-Feinabstimmung
- Traditionelle Transformer: RoBERTa und ModernBERT, mit traditionellen überwachten Lernmethoden feinabgestimmt
Kernparameter-Einstellungen:
- rank (r=8)
- alpha (32)
- dropout (0,05)
- Adaptationsschichten: q_proj und v_proj
Technische Vorteile:
- Speichereffiziente Feinabstimmung durch Low-Rank-Adapter und quantisierte Gewichte
- Signifikante Reduzierung des GPU-Speicherverbrauchs bei Beibehaltung der Leistung
- Anwendung der quantisierten Low-Rank-Adaption: Erstmalige Anwendung der QLoRA-Technik auf die Erkennung beleidigender Sprache in Roman Urdu, ermöglicht effiziente Feinabstimmung großer Modelle.
- Übersetzungsgestützte sprachübergreifende Übertragung: Überbrückung von Sprachunterschieden durch Übersetzungsstrategie, Verbesserung des Modellverständnisses zugrunde liegender Semantik.
- Multi-Modell-Vergleichsrahmen: Aufbau eines systematischen Vergleichsbewertungsrahmens zwischen LLMs und traditionellen Transformer-Modellen.
- Umfang: 46.026 Samples
- Quelle: Facebook-Kommentare und YouTube-Antworten
- Annotation: Drei zweisprachige Annotatoren, Cohen's Kappa = 0,86
- Aufteilung: 80% Training, 20% Test (stratifizierte Stichprobenentnahme)
- Vorverarbeitung: Minimale Bereinigung zur Beibehaltung der Kontextvollständigkeit
- Genauigkeit (Accuracy)
- Präzision (Precision)
- Recall (Recall)
- F1-Score (F1 Score)
- LLaMA 3 (8B) + QLoRA
- Mistral 7B + QLoRA
- LLaMA 2 (7B) + QLoRA
- RoBERTa (traditionelle Feinabstimmung)
- ModernBERT (traditionelle Feinabstimmung)
- Hardware: NVIDIA A100 (80GB VRAM), 128GB RAM, 32-Kern-CPU
- Softwareumgebung: Python 3.13.2, PyTorch, Transformers, PEFT usw.
- Hyperparameter: Lernrate 2e-5, Batch-Größe 2, Trainings-Epochen 10, Gewichtsabfall 0,01
- Optimierungsstrategien: Gradient Checkpointing, Early Stopping-Mechanismus
| Modell | Genauigkeit | Präzision | Recall | F1-Score |
|---|
| LLaMA 3 (8B) | 91,62 | 91,4 | 91,5 | 91,45 |
| Mistral 7B | 89,88 | 89,5 | 89,8 | 89,66 |
| LLaMA 2 (7B) | 88,74 | 88,2 | 88,6 | 88,4 |
| RoBERTa | 85,65 | 85,2 | 85,7 | 85,44 |
| ModernBERT | 83,92 | 83,1 | 84,0 | 83,55 |
Wichtigste Erkenntnisse:
- LLaMA 3 (8B) erreicht die beste Leistung mit einem F1-Score von 91,45%
- Auf QLoRA basierende große Sprachmodelle übertreffen traditionelle Transformer-Modelle erheblich
- Der Leistungsunterschied verdeutlicht die Vorteile der QLoRA-Feinabstimmung bei code-gemischten Sprachaufgaben
- Konvergenzgeschwindigkeit: Die besten Modelle erreichen den optimalen Validierungs-F1-Score innerhalb von 2-3 Epochen
- Trainingsstabilität: Alle Modelle zeigen einen sanften Verlustabfall ohne Anzeichen von Überanpassung
- Speichereffizienz: QLoRA reduziert erheblich den Speicherbedarf für die Feinabstimmung großer Modelle
- LLaMA 3 (8B): ca. 1,0 Sekunde/1000 Samples
- Mistral 7B: ca. 0,80 Sekunden/1000 Samples
- LLaMA 2 (7B): ca. 0,78 Sekunden/1000 Samples
- RoBERTa: ca. 0,35 Sekunden/1000 Samples
- ModernBERT: ca. 0,30 Sekunden/1000 Samples
Dies verdeutlicht den Kompromiss zwischen Modellgröße und Inferenzgeschwindigkeit.
Durch LIME- und SHAP-Analyse wurden folgende Erkenntnisse gewonnen:
- Hochimpact-Beleidigungsvokabular: "saalon", "naacho", "maaregi" usw.
- Modellentscheidungsmuster: LLaMA 3 konzentriert sich auf kontextuelle Beleidigungssprache, während traditionelle Modelle eine stärker verteilte Gewichtszuweisung aufweisen
- Bias-Identifikation: Bestimmte neutrale Wörter können die Klassifizierung irreführen, was die Bedeutung der Datenqualität unterstreicht
- Traditionelle Methoden: Maschinelles Lernen mit handgefertigten Merkmalen (SVM, Naive Bayes usw.)
- Deep-Learning-Methoden: CNN-, RNN- und Transformer-Architekturen (BERT und Varianten)
- Mehrsprachige Verarbeitung: Sprachübergreifende Transferlernmethoden und Zero-Shot-Learning
- Roman Urdu-Forschung: Wenige Forscher haben Roman Urdu-Datensätze und Embedding-Methoden konstruiert
- Code-Mixed-Verarbeitung: Mehrsprachige Embeddings und maschinelle Übersetzungshilfsmethoden
- Herausforderungen bei Ressourcenmangel: Mangel an vortrainierten Modellen und großflächig annotierten Korpora
- Parametereffiziente Feinabstimmung: Entwicklung von QLoRA-, LoRA- und ähnlichen Techniken
- LLM-Anwendungen: Anwendung von GPT, LLaMA, Mistral auf Textklassifizierungsaufgaben
- Quantisierungstechniken: Reduzierung von Rechenressourcen bei Beibehaltung der Leistung
- Effektivität der QLoRA-Feinabstimmung: Bei der Aufgabe der Erkennung beleidigender Sprache in Roman Urdu-Englisch code-gemischtem Text zeigen mit QLoRA feinabgestimmte große Sprachmodelle eine signifikante Überlegenheit gegenüber traditionellen Methoden
- Machbarkeit der Übersetzungsstrategie: Die Übersetzungsvorverarbeitung ermöglicht die effektive Nutzung englischsprachiger LLMs zur Verarbeitung ressourcenknapper code-gemischter Sprachen
- Bedeutung der Modellgröße: Größere Modellparameter zeigen bei komplexen NLP-Aufgaben deutliche Vorteile
- Verlust von Code-Mixed-Merkmalen: Der Übersetzungsprozess führt zum Verlust der ursprünglichen Code-Switching-Struktur; das Modell verarbeitet tatsächlich englische Übersetzungsversionen statt nativer code-gemischter Texte
- Anforderungen an Rechenressourcen: Die Inferenzlatenz großer Sprachmodelle ist höher und kann Echtzeitanwendungen einschränken
- Datensatzgröße: Der relativ kleine Datensatz kann die Generalisierungsfähigkeit des Modells beeinflussen
- Abhängigkeit von Übersetzungsqualität: Die Effektivität der Methode hängt stark von der Qualität der Google Translate-Übersetzung ab
- Direkte Verarbeitung code-gemischter Texte: Entwicklung von LLMs, die Roman Urdu direkt verarbeiten können, ohne Übersetzung
- Zero-Shot- und Few-Shot-Learning: Reduzierung der Abhängigkeit von annotierten Daten
- Optimierung der sprachübergreifenden Übertragung: Verbesserung von Transferlernmethoden zur besseren Beibehaltung code-gemischter Merkmale
- Echtzeitoptimierung: Optimierung der Inferenzgeschwindigkeit für praktische Bereitstellungsanforderungen
- Methodische Innovativität: Erstmalige Anwendung der QLoRA-Technik auf die Erkennung beleidigender Sprache in Roman Urdu, bietet neue Lösungsansätze
- Umfassendheit der Experimente: Vergleich mehrerer Modelle unterschiedlicher Größe und Architektur, bietet umfassende Leistungs-Benchmarks
- Praktischer Wert: Bietet machbare technische Lösungen für die Inhaltsmoderation in sozialen Medien
- Technologische Fortschrittlichkeit: Einsatz neuester parametereffizenter Feinabstimmungstechniken, erreicht gute Leistung in ressourcenbegrenzten Umgebungen
- Methodische Einschränkungen: Die Übersetzungsvorverarbeitungsstrategie ist zwar praktisch, verliert aber die wesentlichen Merkmale des Code-Mixing
- Datensatz-Limitierungen: Der Datensatz ist relativ klein und stammt nur aus bestimmten Plattformen, was die Generalisierbarkeit beeinflussen kann
- Unzureichende Bewertungsdimensionen: Mangel an feingranularer Analyse verschiedener Arten von Beleidigungssprache
- Begrenzte theoretische Beiträge: Hauptsächlich technische Implementierung, relativ begrenzte theoretische Innovationen
- Akademischer Beitrag: Bietet effektive Methoden für die Erkennung beleidigender Inhalte in ressourcenknappen code-gemischten Sprachen
- Praktische Anwendung: Kann direkt auf die Inhaltsmoderation von Roman Urdu in sozialen Medien angewendet werden
- Technologische Förderung: Demonstriert das Anwendungspotenzial von QLoRA in spezifischen Aufgabenbereichen
- Forschungsinspiration: Bietet einen Referenzrahmen für ähnliche Aufgaben in anderen ressourcenknappen Sprachen
- Plattformen sozialer Medien: Inhaltsmoderation für Roman Urdu auf Facebook, Twitter usw.
- Online-Community-Management: Online-Foren und Gemeinschaften in Pakistan und Indien
- Bildungsanwendungen: Systeme zur Erkennung und Prävention von Cybermobbing
- Forschungsgrundlage: Entwicklungsgrundlage für mehrsprachige Systeme zur Erkennung beleidigender Sprache
Das Paper zitiert 46 relevante Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Erkennung beleidigender Sprache, große Sprachmodelle und Verarbeitung code-gemischter Sprachen abdecken und eine solide theoretische Grundlage und technische Unterstützung für die Forschung bieten.
Gesamtbewertung: Dieses Paper zeigt eine ausgefeilte technische Implementierung, vernünftige Experimentgestaltung und überzeugende Ergebnisse. Obwohl die theoretischen Innovationen relativ begrenzt sind, bietet es wertvolle Lösungen für praktische Anwendungen in ressourcenknappen code-gemischten Sprachen mit gutem praktischen Wert und Verbreitungspotenzial.