The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
- पेपर ID: 2510.03683
- शीर्षक: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
- लेखक: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
- संस्थान: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Mexico
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- पेपर लिंक: https://arxiv.org/abs/2510.03683
यह अनुसंधान Roman Urdu-English कोड-मिश्रित पाठ में आक्रामक भाषा के पता लगाने की समस्या के लिए QLoRA-आधारित बड़े भाषा मॉडल फाइन-ट्यूनिंग ढांचा प्रस्तावित करता है। Roman Urdu भाषा में व्याकरणिक अनियमितता, वर्तनी असंगति और टिप्पणीकृत डेटा की कमी जैसी चुनौतियों के कारण, शोधकर्ताओं ने Google अनुवाद का उपयोग करके कोड-मिश्रित पाठ को अंग्रेजी में परिवर्तित किया ताकि अंग्रेजी बड़े भाषा मॉडल की क्षमता का पूरी तरह से उपयोग किया जा सके। प्रयोग कई मॉडलों पर किए गए, जिनमें Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT और RoBERTa शामिल हैं। परिणाम दर्शाते हैं कि Meta-LLaMA-3-8B ने 91.45% की सर्वोच्च F1 स्कोर प्राप्त किया, Mistral-7B ने 89.66% प्राप्त किया, दोनों पारंपरिक Transformer आधारभूत मॉडल से आगे निकल गए।
यह अनुसंधान Roman Urdu-English कोड-मिश्रित पाठ में आक्रामक भाषा के पता लगाने की मूल समस्या को हल करता है। Roman Urdu पाकिस्तान और भारत के कुछ क्षेत्रों में डिजिटल संचार का प्रमुख रूप है, जहां उपयोगकर्ता लैटिन वर्णमाला में उर्दू लिखते हैं और अक्सर अंग्रेजी शब्दों को मिलाते हैं।
- सोशल मीडिया सुरक्षा की आवश्यकता: Twitter, Facebook, YouTube और अन्य प्लेटफॉर्म के प्रसार के साथ, आक्रामक और हानिकारक सामग्री का प्रसार तेजी से बढ़ रहा है। ऐसी सामग्री की पहचान और कमी डिजिटल स्वास्थ्य बनाए रखने और उपयोगकर्ताओं को मनोवैज्ञानिक नुकसान से बचाने के लिए महत्वपूर्ण है।
- कोड-मिश्रित भाषा की विशेष चुनौतियां: Roman Urdu-English कोड-मिश्रित पाठ में गैर-मानक व्याकरण, वर्तनी असंगति और टिप्पणीकृत डेटासेट की कमी जैसी विशेषताएं हैं, जो पारंपरिक NLP मॉडल की सटीकता को महत्वपूर्ण रूप से कम करती हैं।
- पारंपरिक मशीन लर्निंग विधियां: प्रारंभिक अवस्था में SVM, नैवे बेयस, लॉजिस्टिक रिग्रेशन जैसी विधियों का उपयोग TF-IDF या n-gram विशेषताओं के साथ किया जाता था, लेकिन विभिन्न संदर्भों और भाषाओं में सामान्यीकरण क्षमता कमजोर है, विशेष रूप से अनौपचारिक, शोरगुल या कोड-मिश्रित डेटा पर खराब प्रदर्शन करते हैं।
- गहन शिक्षण मॉडल: CNN और RNN संदर्भ जानकारी को पकड़ने में पारंपरिक विधियों से बेहतर हैं, लेकिन Roman Urdu जैसी रूपात्मक रूप से समृद्ध कम-संसाधन भाषाओं के लिए अभी भी चुनौतियों का सामना करते हैं।
- पूर्व-प्रशिक्षित मॉडल की कमी: Roman Urdu में विशेष पूर्व-प्रशिक्षित मॉडल या बड़े पैमाने पर टिप्पणीकृत कॉर्पस की कमी है, जो मौजूदा विधियों के अनुप्रयोग को सीमित करती है।
- Roman Urdu-English आक्रामक भाषा पता लगाने के लिए एक अंत-से-अंत पाइपलाइन प्रस्तावित किया: डेटा पूर्व-प्रसंस्करण से मॉडल मूल्यांकन तक एक संपूर्ण प्रसंस्करण प्रवाह बनाया।
- LLaMA और Mistral मॉडलों के लिए QLoRA लागू किया: Roman Urdu आक्रामक भाषा पता लगाने के कार्य के लिए पहली बार परिमाणित निम्न-रैंक अनुकूलन तकनीक लागू की।
- व्यापक तुलनात्मक मूल्यांकन किया: QLoRA फाइन-ट्यून किए गए बड़े भाषा मॉडलों की तुलना पारंपरिक फाइन-ट्यून किए गए ModernBERT और RoBERTa मॉडलों के प्रदर्शन से की।
- अनुवाद-आधारित पूर्व-प्रसंस्करण रणनीति अपनाई: कम-संसाधन कोड-मिश्रित पाठ को संभालने के लिए अनुवाद विधि के माध्यम से अंग्रेजी बड़े भाषा मॉडल का उपयोग किया।
इनपुट: Roman Urdu-English कोड-मिश्रित पाठ
आउटपुट: द्विआधारी वर्गीकरण लेबल (आक्रामक/गैर-आक्रामक)
बाधाएं: कम-संसाधन, गैर-मानक व्याकरण, कोड-मिश्रित विशेषताओं को संभालना
अनुसंधान एक व्यवस्थित प्रसंस्करण पाइपलाइन अपनाता है:
- डेटा संग्रह और पूर्व-प्रसंस्करण
- डेटासेट में 46,026 नमूने हैं (24,026 "आक्रामक", 22,000 "गैर-आक्रामक")
- मुख्य रूप से Facebook सार्वजनिक टिप्पणियों और YouTube प्रतिक्रियाओं से प्राप्त
- तीन द्विभाषी एनोटेटर द्वारा मैन्युअल रूप से टिप्पणीकृत, Cohen's Kappa सहमति 0.86
- अनुवाद प्रसंस्करण
- deep_translator पैकेज में GoogleTranslator लाइब्रेरी का उपयोग
- Roman Urdu पाठ को अंग्रेजी में अनुवादित करके अंग्रेजी LLM का लाभ उठाया
- अनुवाद चरण तक मूल कोड-मिश्रित विशेषताओं को बनाए रखा
- डेटासेट विभाजन और एनोटेशन
- लेबल मैपिंग: "आक्रामक"→1, "गैर-आक्रामक"→0
- स्तरीकृत नमूनाकरण का उपयोग करके 80% प्रशिक्षण, 20% परीक्षण विभाजन
- डिकोडर मॉडलों के लिए, इनपुट को प्रॉम्प्ट शैली में स्वरूपित किया
प्रदर्शन मूल्यांकन के लिए विविध मॉडलों का चयन किया:
- बड़े भाषा मॉडल: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), QLoRA फाइन-ट्यूनिंग का उपयोग
- पारंपरिक Transformer: RoBERTa और ModernBERT, पारंपरिक पर्यवेक्षित शिक्षण विधि फाइन-ट्यूनिंग का उपयोग
मुख्य पैरामीटर सेटिंग्स:
- rank (r=8)
- alpha (32)
- dropout (0.05)
- अनुकूलन परतें: q_proj और v_proj
तकनीकी लाभ:
- निम्न-रैंक अनुकूलक और परिमाणित वजन के माध्यम से मेमोरी-कुशल फाइन-ट्यूनिंग
- प्रदर्शन बनाए रखते हुए GPU मेमोरी उपयोग में महत्वपूर्ण कमी
- परिमाणित निम्न-रैंक अनुकूलन का अनुप्रयोग: Roman Urdu आक्रामक भाषा पता लगाने के लिए पहली बार QLoRA तकनीक लागू की, बड़े मॉडलों की कुशल फाइन-ट्यूनिंग प्राप्त की।
- अनुवाद-सहायता प्राप्त क्रॉस-भाषा स्थानांतरण: अनुवाद रणनीति के माध्यम से भाषा अंतराल को पाटा, मॉडल की अंतर्निहित शब्दार्थ समझ में सुधार।
- बहु-मॉडल तुलना ढांचा: LLM और पारंपरिक Transformer मॉडलों का एक व्यवस्थित तुलनात्मक मूल्यांकन ढांचा स्थापित किया।
- आकार: 46,026 नमूने
- स्रोत: Facebook टिप्पणियां और YouTube प्रतिक्रियाएं
- एनोटेशन: तीन द्विभाषी एनोटेटर, Cohen's Kappa = 0.86
- विभाजन: 80% प्रशिक्षण, 20% परीक्षण (स्तरीकृत नमूनाकरण)
- पूर्व-प्रसंस्करण: संदर्भ पूर्णता बनाए रखने के लिए न्यूनतम सफाई
- सटीकता (Accuracy)
- परिशुद्धता (Precision)
- पुनरावृत्ति (Recall)
- F1 स्कोर (F1 Score)
- LLaMA 3 (8B) + QLoRA
- Mistral 7B + QLoRA
- LLaMA 2 (7B) + QLoRA
- RoBERTa (पारंपरिक फाइन-ट्यूनिंग)
- ModernBERT (पारंपरिक फाइन-ट्यूनिंग)
- हार्डवेयर: NVIDIA A100 (80GB VRAM), 128GB RAM, 32-कोर CPU
- सॉफ्टवेयर पर्यावरण: Python 3.13.2, PyTorch, Transformers, PEFT आदि
- हाइपरपैरामीटर: सीखने की दर 2e-5, बैच आकार 2, प्रशिक्षण एपोक्स 10, वजन क्षय 0.01
- अनुकूलन रणनीति: ग्रेडिएंट चेकपॉइंटिंग, प्रारंभिक रोक तंत्र
| मॉडल | सटीकता | परिशुद्धता | पुनरावृत्ति | F1 स्कोर |
|---|
| LLaMA 3 (8B) | 91.62 | 91.4 | 91.5 | 91.45 |
| Mistral 7B | 89.88 | 89.5 | 89.8 | 89.66 |
| LLaMA 2 (7B) | 88.74 | 88.2 | 88.6 | 88.4 |
| RoBERTa | 85.65 | 85.2 | 85.7 | 85.44 |
| ModernBERT | 83.92 | 83.1 | 84.0 | 83.55 |
मुख्य निष्कर्ष:
- LLaMA 3 (8B) ने सर्वोत्तम प्रदर्शन प्राप्त किया, F1 स्कोर 91.45% तक पहुंचा
- QLoRA-आधारित बड़े भाषा मॉडल पारंपरिक Transformer मॉडलों से महत्वपूर्ण रूप से बेहतर हैं
- प्रदर्शन अंतर कोड-मिश्रित भाषा कार्यों पर QLoRA फाइन-ट्यूनिंग के लाभ को प्रदर्शित करता है
- अभिसरण गति: सर्वोत्तम मॉडल 2-3 एपोक्स के भीतर सर्वोत्तम सत्यापन F1 स्कोर तक पहुंचता है
- प्रशिक्षण स्थिरता: सभी मॉडल सुचारु नुकसान में कमी दिखाते हैं, कोई अतिफिटिंग संकेत नहीं
- मेमोरी दक्षता: QLoRA बड़े मॉडल फाइन-ट्यूनिंग की मेमोरी आवश्यकताओं को महत्वपूर्ण रूप से कम करता है
- LLaMA 3 (8B): लगभग 1.0 सेकंड/1000 नमूने
- Mistral 7B: लगभग 0.80 सेकंड/1000 नमूने
- LLaMA 2 (7B): लगभग 0.78 सेकंड/1000 नमूने
- RoBERTa: लगभग 0.35 सेकंड/1000 नमूने
- ModernBERT: लगभग 0.30 सेकंड/1000 नमूने
मॉडल आकार और अनुमान गति के बीच व्यापार-बंद को प्रदर्शित करता है।
LIME और SHAP विश्लेषण के माध्यम से पाया गया:
- उच्च प्रभाव आक्रामक शब्दावली: "saalon", "naacho", "maaregi" आदि
- मॉडल निर्णय पैटर्न: LLaMA 3 संदर्भ आक्रामक भाषा पर ध्यान केंद्रित करता है, पारंपरिक मॉडल वजन आवंटन अधिक बिखरा हुआ है
- पूर्वाग्रह पहचान: कुछ तटस्थ शब्दावली वर्गीकरण को गुमराह कर सकते हैं, डेटा गुणवत्ता के महत्व को उजागर करता है
- पारंपरिक विधियां: हाथ से तैयार विशेषताओं पर आधारित मशीन लर्निंग विधियां (SVM, नैवे बेयस आदि)
- गहन शिक्षण विधियां: CNN, RNN और Transformer आर्किटेक्चर (BERT और इसके वेरिएंट)
- बहुभाषी प्रसंस्करण: क्रॉस-भाषा स्थानांतरण शिक्षा और शून्य-शॉट शिक्षण विधियां
- Roman Urdu अनुसंधान: कुछ शोधकर्ताओं ने Roman Urdu डेटासेट और एम्बेडिंग विधियां बनाई हैं
- कोड-मिश्रित प्रसंस्करण: बहुभाषी एम्बेडिंग और मशीन अनुवाद-सहायता प्राप्त विधियां
- संसाधन की कमी की चुनौतियां: पूर्व-प्रशिक्षित मॉडल और बड़े पैमाने पर टिप्पणीकृत कॉर्पस की कमी
- पैरामीटर-कुशल फाइन-ट्यूनिंग: QLoRA, LoRA आदि तकनीकों का विकास
- LLM अनुप्रयोग: GPT, LLaMA, Mistral का पाठ वर्गीकरण कार्यों पर अनुप्रयोग
- परिमाणन तकनीकें: प्रदर्शन बनाए रखते हुए कम्प्यूटेशनल संसाधन आवश्यकताओं को कम करना
- QLoRA फाइन-ट्यूनिंग की प्रभावशीलता: Roman Urdu-English कोड-मिश्रित पाठ आक्रामक भाषा पता लगाने के कार्य में, QLoRA फाइन-ट्यून किए गए बड़े भाषा मॉडल पारंपरिक विधियों से महत्वपूर्ण रूप से बेहतर हैं
- अनुवाद रणनीति की व्यवहार्यता: अनुवाद पूर्व-प्रसंस्करण के माध्यम से कम-संसाधन कोड-मिश्रित भाषा को संभालने के लिए अंग्रेजी LLM का प्रभावी ढंग से उपयोग किया जा सकता है
- मॉडल आकार की महत्ता: जटिल NLP कार्यों में बड़े मॉडल पैरामीटर आकार स्पष्ट लाभ प्रदर्शित करते हैं
- कोड-मिश्रित विशेषताओं का नुकसान: अनुवाद प्रक्रिया मूल कोड-स्विचिंग संरचना के नुकसान की ओर जाता है, मॉडल वास्तव में मूल कोड-मिश्रित पाठ के बजाय अंग्रेजी अनुवादित संस्करण को संभालता है
- कम्प्यूटेशनल संसाधन आवश्यकताएं: बड़े भाषा मॉडलों की अनुमान विलंबता अधिक है, जो वास्तविक समय अनुप्रयोगों को सीमित कर सकता है
- डेटासेट आकार: अपेक्षाकृत छोटा डेटासेट मॉडल सामान्यीकरण क्षमता को प्रभावित कर सकता है
- अनुवाद गुणवत्ता पर निर्भरता: विधि की प्रभावशीलता Google अनुवाद की गुणवत्ता पर अत्यधिक निर्भर है
- कोड-मिश्रित पाठ का सीधा प्रसंस्करण: Roman Urdu को सीधे संभालने में सक्षम LLM विकसित करना, अनुवाद की आवश्यकता के बिना
- शून्य-शॉट और कुछ-शॉट शिक्षा: टिप्पणीकृत डेटा पर निर्भरता को कम करना
- क्रॉस-भाषा स्थानांतरण अनुकूलन: कोड-मिश्रित विशेषताओं को बेहतर ढंग से संरक्षित करने के लिए क्रॉस-भाषा स्थानांतरण विधियों में सुधार
- वास्तविक समय अनुकूलन: वास्तविक तैनाती आवश्यकताओं के लिए अनुमान गति को अनुकूलित करना
- विधि नवाचार: Roman Urdu आक्रामक भाषा पता लगाने के लिए पहली बार QLoRA तकनीक लागू की, नई समस्या-समाधान सोच प्रदान की
- प्रयोग की व्यापकता: विभिन्न आकार और आर्किटेक्चर के कई मॉडलों की तुलना की, व्यापक प्रदर्शन बेंचमार्क प्रदान किए
- व्यावहारिक मूल्य: सोशल मीडिया सामग्री समीक्षा के लिए व्यवहार्य तकनीकी समाधान प्रदान किया
- तकनीकी उन्नति: नवीनतम पैरामीटर-कुशल फाइन-ट्यूनिंग तकनीकों का उपयोग किया, संसाधन-सीमित वातावरण में अच्छा प्रदर्शन प्राप्त किया
- विधि सीमाएं: अनुवाद पूर्व-प्रसंस्करण रणनीति व्यावहारिक है, लेकिन कोड-मिश्रण के सार को खो देती है
- डेटासेट सीमाएं: डेटासेट अपेक्षाकृत छोटा है, और केवल विशिष्ट प्लेटफॉर्म से प्राप्त है, जो सामान्यीकरण को प्रभावित कर सकता है
- मूल्यांकन आयाम: विभिन्न प्रकार की आक्रामक भाषा का सूक्ष्म-दानेदार विश्लेषण नहीं है
- सैद्धांतिक योगदान: मुख्य रूप से इंजीनियरिंग कार्यान्वयन, सैद्धांतिक नवाचार अपेक्षाकृत सीमित है
- शैक्षणिक योगदान: कम-संसाधन कोड-मिश्रित भाषा के आक्रामक सामग्री पता लगाने के लिए प्रभावी विधि प्रदान की
- व्यावहारिक अनुप्रयोग: Roman Urdu सोशल मीडिया सामग्री समीक्षा के लिए सीधे लागू किया जा सकता है
- तकनीकी प्रचार: विशिष्ट डोमेन कार्यों में QLoRA के अनुप्रयोग क्षमता प्रदर्शित की
- अनुसंधान प्रेरणा: अन्य कम-संसाधन भाषाओं के समान कार्यों के लिए संदर्भ ढांचा प्रदान किया
- सोशल मीडिया प्लेटफॉर्म: Facebook, Twitter आदि प्लेटफॉर्म पर Roman Urdu सामग्री समीक्षा
- ऑनलाइन समुदाय प्रबंधन: पाकिस्तान और भारत क्षेत्र के ऑनलाइन फोरम और समुदायों
- शैक्षणिक अनुप्रयोग: साइबरबुलिंग पता लगाने और रोकथाम प्रणाली
- अनुसंधान आधार: बहुभाषी आक्रामक भाषा पता लगाने प्रणाली विकास का आधार
पेपर में 46 संबंधित संदर्भ उद्धृत किए गए हैं, जो आक्रामक भाषा पता लगाने, बड़े भाषा मॉडल, कोड-मिश्रित भाषा प्रसंस्करण और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।
समग्र मूल्यांकन: यह पेपर तकनीकी कार्यान्वयन में परिपक्व है, प्रयोग डिजाइन उचित है, और परिणाम प्रेरक हैं। हालांकि सैद्धांतिक नवाचार के संदर्भ में अपेक्षाकृत सीमित है, लेकिन कम-संसाधन कोड-मिश्रित भाषा के व्यावहारिक अनुप्रयोग के लिए मूल्यवान समाधान प्रदान करता है, जिसमें अच्छी व्यावहारिक मूल्य और प्रचार महत्व है।