2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.

The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.

academic

QLoRA के साथबड़े भाषा मॉडल को फाइन-ट्यूनिंग करना: Roman Urdu-English कोड-मिश्रित पाठ में आक्रामक भाषा का पता लगाना

मूल जानकारी

पेपर ID: 2510.03683
शीर्षक: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
लेखक: Nisar Hussain, Amna Qasim, Gull Mehak, Muhammad Usman, Muhammad Zain, Momina Hafeez, Grigori Sidorov
संस्थान: Instituto Politécnico Nacional (IPN), Centro de Investigación en Computación (CIC), Mexico
वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
पेपर लिंक: https://arxiv.org/abs/2510.03683

सारांश

यह अनुसंधान Roman Urdu-English कोड-मिश्रित पाठ में आक्रामक भाषा के पता लगाने की समस्या के लिए QLoRA-आधारित बड़े भाषा मॉडल फाइन-ट्यूनिंग ढांचा प्रस्तावित करता है। Roman Urdu भाषा में व्याकरणिक अनियमितता, वर्तनी असंगति और टिप्पणीकृत डेटा की कमी जैसी चुनौतियों के कारण, शोधकर्ताओं ने Google अनुवाद का उपयोग करके कोड-मिश्रित पाठ को अंग्रेजी में परिवर्तित किया ताकि अंग्रेजी बड़े भाषा मॉडल की क्षमता का पूरी तरह से उपयोग किया जा सके। प्रयोग कई मॉडलों पर किए गए, जिनमें Meta-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT और RoBERTa शामिल हैं। परिणाम दर्शाते हैं कि Meta-LLaMA-3-8B ने 91.45% की सर्वोच्च F1 स्कोर प्राप्त किया, Mistral-7B ने 89.66% प्राप्त किया, दोनों पारंपरिक Transformer आधारभूत मॉडल से आगे निकल गए।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान Roman Urdu-English कोड-मिश्रित पाठ में आक्रामक भाषा के पता लगाने की मूल समस्या को हल करता है। Roman Urdu पाकिस्तान और भारत के कुछ क्षेत्रों में डिजिटल संचार का प्रमुख रूप है, जहां उपयोगकर्ता लैटिन वर्णमाला में उर्दू लिखते हैं और अक्सर अंग्रेजी शब्दों को मिलाते हैं।

समस्या की महत्ता

सोशल मीडिया सुरक्षा की आवश्यकता: Twitter, Facebook, YouTube और अन्य प्लेटफॉर्म के प्रसार के साथ, आक्रामक और हानिकारक सामग्री का प्रसार तेजी से बढ़ रहा है। ऐसी सामग्री की पहचान और कमी डिजिटल स्वास्थ्य बनाए रखने और उपयोगकर्ताओं को मनोवैज्ञानिक नुकसान से बचाने के लिए महत्वपूर्ण है।
कोड-मिश्रित भाषा की विशेष चुनौतियां: Roman Urdu-English कोड-मिश्रित पाठ में गैर-मानक व्याकरण, वर्तनी असंगति और टिप्पणीकृत डेटासेट की कमी जैसी विशेषताएं हैं, जो पारंपरिक NLP मॉडल की सटीकता को महत्वपूर्ण रूप से कम करती हैं।

मौजूदा विधियों की सीमाएं

पारंपरिक मशीन लर्निंग विधियां: प्रारंभिक अवस्था में SVM, नैवे बेयस, लॉजिस्टिक रिग्रेशन जैसी विधियों का उपयोग TF-IDF या n-gram विशेषताओं के साथ किया जाता था, लेकिन विभिन्न संदर्भों और भाषाओं में सामान्यीकरण क्षमता कमजोर है, विशेष रूप से अनौपचारिक, शोरगुल या कोड-मिश्रित डेटा पर खराब प्रदर्शन करते हैं।
गहन शिक्षण मॉडल: CNN और RNN संदर्भ जानकारी को पकड़ने में पारंपरिक विधियों से बेहतर हैं, लेकिन Roman Urdu जैसी रूपात्मक रूप से समृद्ध कम-संसाधन भाषाओं के लिए अभी भी चुनौतियों का सामना करते हैं।
पूर्व-प्रशिक्षित मॉडल की कमी: Roman Urdu में विशेष पूर्व-प्रशिक्षित मॉडल या बड़े पैमाने पर टिप्पणीकृत कॉर्पस की कमी है, जो मौजूदा विधियों के अनुप्रयोग को सीमित करती है।

मुख्य योगदान

Roman Urdu-English आक्रामक भाषा पता लगाने के लिए एक अंत-से-अंत पाइपलाइन प्रस्तावित किया: डेटा पूर्व-प्रसंस्करण से मॉडल मूल्यांकन तक एक संपूर्ण प्रसंस्करण प्रवाह बनाया।
LLaMA और Mistral मॉडलों के लिए QLoRA लागू किया: Roman Urdu आक्रामक भाषा पता लगाने के कार्य के लिए पहली बार परिमाणित निम्न-रैंक अनुकूलन तकनीक लागू की।
व्यापक तुलनात्मक मूल्यांकन किया: QLoRA फाइन-ट्यून किए गए बड़े भाषा मॉडलों की तुलना पारंपरिक फाइन-ट्यून किए गए ModernBERT और RoBERTa मॉडलों के प्रदर्शन से की।
अनुवाद-आधारित पूर्व-प्रसंस्करण रणनीति अपनाई: कम-संसाधन कोड-मिश्रित पाठ को संभालने के लिए अनुवाद विधि के माध्यम से अंग्रेजी बड़े भाषा मॉडल का उपयोग किया।

विधि विस्तार

कार्य परिभाषा

इनपुट: Roman Urdu-English कोड-मिश्रित पाठ आउटपुट: द्विआधारी वर्गीकरण लेबल (आक्रामक/गैर-आक्रामक) बाधाएं: कम-संसाधन, गैर-मानक व्याकरण, कोड-मिश्रित विशेषताओं को संभालना

मॉडल आर्किटेक्चर

समग्र प्रवाह

अनुसंधान एक व्यवस्थित प्रसंस्करण पाइपलाइन अपनाता है:

डेटा संग्रह और पूर्व-प्रसंस्करण
- डेटासेट में 46,026 नमूने हैं (24,026 "आक्रामक", 22,000 "गैर-आक्रामक")
- मुख्य रूप से Facebook सार्वजनिक टिप्पणियों और YouTube प्रतिक्रियाओं से प्राप्त
- तीन द्विभाषी एनोटेटर द्वारा मैन्युअल रूप से टिप्पणीकृत, Cohen's Kappa सहमति 0.86
अनुवाद प्रसंस्करण
- deep_translator पैकेज में GoogleTranslator लाइब्रेरी का उपयोग
- Roman Urdu पाठ को अंग्रेजी में अनुवादित करके अंग्रेजी LLM का लाभ उठाया
- अनुवाद चरण तक मूल कोड-मिश्रित विशेषताओं को बनाए रखा
डेटासेट विभाजन और एनोटेशन
- लेबल मैपिंग: "आक्रामक"→1, "गैर-आक्रामक"→0
- स्तरीकृत नमूनाकरण का उपयोग करके 80% प्रशिक्षण, 20% परीक्षण विभाजन
- डिकोडर मॉडलों के लिए, इनपुट को प्रॉम्प्ट शैली में स्वरूपित किया

मॉडल चयन

प्रदर्शन मूल्यांकन के लिए विविध मॉडलों का चयन किया:

बड़े भाषा मॉडल: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), QLoRA फाइन-ट्यूनिंग का उपयोग
पारंपरिक Transformer: RoBERTa और ModernBERT, पारंपरिक पर्यवेक्षित शिक्षण विधि फाइन-ट्यूनिंग का उपयोग

QLoRA फाइन-ट्यूनिंग तकनीक

मुख्य पैरामीटर सेटिंग्स:

rank (r=8)
alpha (32)
dropout (0.05)
अनुकूलन परतें: q_proj और v_proj

तकनीकी लाभ:

निम्न-रैंक अनुकूलक और परिमाणित वजन के माध्यम से मेमोरी-कुशल फाइन-ट्यूनिंग
प्रदर्शन बनाए रखते हुए GPU मेमोरी उपयोग में महत्वपूर्ण कमी

तकनीकी नवाचार

परिमाणित निम्न-रैंक अनुकूलन का अनुप्रयोग: Roman Urdu आक्रामक भाषा पता लगाने के लिए पहली बार QLoRA तकनीक लागू की, बड़े मॉडलों की कुशल फाइन-ट्यूनिंग प्राप्त की।
अनुवाद-सहायता प्राप्त क्रॉस-भाषा स्थानांतरण: अनुवाद रणनीति के माध्यम से भाषा अंतराल को पाटा, मॉडल की अंतर्निहित शब्दार्थ समझ में सुधार।
बहु-मॉडल तुलना ढांचा: LLM और पारंपरिक Transformer मॉडलों का एक व्यवस्थित तुलनात्मक मूल्यांकन ढांचा स्थापित किया।

प्रायोगिक सेटअप

डेटासेट

आकार: 46,026 नमूने
स्रोत: Facebook टिप्पणियां और YouTube प्रतिक्रियाएं
एनोटेशन: तीन द्विभाषी एनोटेटर, Cohen's Kappa = 0.86
विभाजन: 80% प्रशिक्षण, 20% परीक्षण (स्तरीकृत नमूनाकरण)
पूर्व-प्रसंस्करण: संदर्भ पूर्णता बनाए रखने के लिए न्यूनतम सफाई

मूल्यांकन मेट्रिक्स

सटीकता (Accuracy)
परिशुद्धता (Precision)
पुनरावृत्ति (Recall)
F1 स्कोर (F1 Score)

तुलनात्मक विधियां

LLaMA 3 (8B) + QLoRA
Mistral 7B + QLoRA
LLaMA 2 (7B) + QLoRA
RoBERTa (पारंपरिक फाइन-ट्यूनिंग)
ModernBERT (पारंपरिक फाइन-ट्यूनिंग)

कार्यान्वयन विवरण

हार्डवेयर: NVIDIA A100 (80GB VRAM), 128GB RAM, 32-कोर CPU
सॉफ्टवेयर पर्यावरण: Python 3.13.2, PyTorch, Transformers, PEFT आदि
हाइपरपैरामीटर: सीखने की दर 2e-5, बैच आकार 2, प्रशिक्षण एपोक्स 10, वजन क्षय 0.01
अनुकूलन रणनीति: ग्रेडिएंट चेकपॉइंटिंग, प्रारंभिक रोक तंत्र

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडल	सटीकता	परिशुद्धता	पुनरावृत्ति	F1 स्कोर
LLaMA 3 (8B)	91.62	91.4	91.5	91.45
Mistral 7B	89.88	89.5	89.8	89.66
LLaMA 2 (7B)	88.74	88.2	88.6	88.4
RoBERTa	85.65	85.2	85.7	85.44
ModernBERT	83.92	83.1	84.0	83.55

मुख्य निष्कर्ष:

LLaMA 3 (8B) ने सर्वोत्तम प्रदर्शन प्राप्त किया, F1 स्कोर 91.45% तक पहुंचा
QLoRA-आधारित बड़े भाषा मॉडल पारंपरिक Transformer मॉडलों से महत्वपूर्ण रूप से बेहतर हैं
प्रदर्शन अंतर कोड-मिश्रित भाषा कार्यों पर QLoRA फाइन-ट्यूनिंग के लाभ को प्रदर्शित करता है

प्रशिक्षण व्यवहार विश्लेषण

अभिसरण गति: सर्वोत्तम मॉडल 2-3 एपोक्स के भीतर सर्वोत्तम सत्यापन F1 स्कोर तक पहुंचता है
प्रशिक्षण स्थिरता: सभी मॉडल सुचारु नुकसान में कमी दिखाते हैं, कोई अतिफिटिंग संकेत नहीं
मेमोरी दक्षता: QLoRA बड़े मॉडल फाइन-ट्यूनिंग की मेमोरी आवश्यकताओं को महत्वपूर्ण रूप से कम करता है

अनुमान दक्षता तुलना

LLaMA 3 (8B): लगभग 1.0 सेकंड/1000 नमूने
Mistral 7B: लगभग 0.80 सेकंड/1000 नमूने
LLaMA 2 (7B): लगभग 0.78 सेकंड/1000 नमूने
RoBERTa: लगभग 0.35 सेकंड/1000 नमूने
ModernBERT: लगभग 0.30 सेकंड/1000 नमूने

मॉडल आकार और अनुमान गति के बीच व्यापार-बंद को प्रदर्शित करता है।

मॉडल व्याख्यात्मकता विश्लेषण

LIME और SHAP विश्लेषण के माध्यम से पाया गया:

उच्च प्रभाव आक्रामक शब्दावली: "saalon", "naacho", "maaregi" आदि
मॉडल निर्णय पैटर्न: LLaMA 3 संदर्भ आक्रामक भाषा पर ध्यान केंद्रित करता है, पारंपरिक मॉडल वजन आवंटन अधिक बिखरा हुआ है
पूर्वाग्रह पहचान: कुछ तटस्थ शब्दावली वर्गीकरण को गुमराह कर सकते हैं, डेटा गुणवत्ता के महत्व को उजागर करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

QLoRA फाइन-ट्यूनिंग की प्रभावशीलता: Roman Urdu-English कोड-मिश्रित पाठ आक्रामक भाषा पता लगाने के कार्य में, QLoRA फाइन-ट्यून किए गए बड़े भाषा मॉडल पारंपरिक विधियों से महत्वपूर्ण रूप से बेहतर हैं
अनुवाद रणनीति की व्यवहार्यता: अनुवाद पूर्व-प्रसंस्करण के माध्यम से कम-संसाधन कोड-मिश्रित भाषा को संभालने के लिए अंग्रेजी LLM का प्रभावी ढंग से उपयोग किया जा सकता है
मॉडल आकार की महत्ता: जटिल NLP कार्यों में बड़े मॉडल पैरामीटर आकार स्पष्ट लाभ प्रदर्शित करते हैं

सीमाएं

कोड-मिश्रित विशेषताओं का नुकसान: अनुवाद प्रक्रिया मूल कोड-स्विचिंग संरचना के नुकसान की ओर जाता है, मॉडल वास्तव में मूल कोड-मिश्रित पाठ के बजाय अंग्रेजी अनुवादित संस्करण को संभालता है
कम्प्यूटेशनल संसाधन आवश्यकताएं: बड़े भाषा मॉडलों की अनुमान विलंबता अधिक है, जो वास्तविक समय अनुप्रयोगों को सीमित कर सकता है
डेटासेट आकार: अपेक्षाकृत छोटा डेटासेट मॉडल सामान्यीकरण क्षमता को प्रभावित कर सकता है
अनुवाद गुणवत्ता पर निर्भरता: विधि की प्रभावशीलता Google अनुवाद की गुणवत्ता पर अत्यधिक निर्भर है

भविष्य की दिशाएं

कोड-मिश्रित पाठ का सीधा प्रसंस्करण: Roman Urdu को सीधे संभालने में सक्षम LLM विकसित करना, अनुवाद की आवश्यकता के बिना
शून्य-शॉट और कुछ-शॉट शिक्षा: टिप्पणीकृत डेटा पर निर्भरता को कम करना
क्रॉस-भाषा स्थानांतरण अनुकूलन: कोड-मिश्रित विशेषताओं को बेहतर ढंग से संरक्षित करने के लिए क्रॉस-भाषा स्थानांतरण विधियों में सुधार
वास्तविक समय अनुकूलन: वास्तविक तैनाती आवश्यकताओं के लिए अनुमान गति को अनुकूलित करना

गहन मूल्यांकन

शक्तियां

विधि नवाचार: Roman Urdu आक्रामक भाषा पता लगाने के लिए पहली बार QLoRA तकनीक लागू की, नई समस्या-समाधान सोच प्रदान की
प्रयोग की व्यापकता: विभिन्न आकार और आर्किटेक्चर के कई मॉडलों की तुलना की, व्यापक प्रदर्शन बेंचमार्क प्रदान किए
व्यावहारिक मूल्य: सोशल मीडिया सामग्री समीक्षा के लिए व्यवहार्य तकनीकी समाधान प्रदान किया
तकनीकी उन्नति: नवीनतम पैरामीटर-कुशल फाइन-ट्यूनिंग तकनीकों का उपयोग किया, संसाधन-सीमित वातावरण में अच्छा प्रदर्शन प्राप्त किया

कमियां

विधि सीमाएं: अनुवाद पूर्व-प्रसंस्करण रणनीति व्यावहारिक है, लेकिन कोड-मिश्रण के सार को खो देती है
डेटासेट सीमाएं: डेटासेट अपेक्षाकृत छोटा है, और केवल विशिष्ट प्लेटफॉर्म से प्राप्त है, जो सामान्यीकरण को प्रभावित कर सकता है
मूल्यांकन आयाम: विभिन्न प्रकार की आक्रामक भाषा का सूक्ष्म-दानेदार विश्लेषण नहीं है
सैद्धांतिक योगदान: मुख्य रूप से इंजीनियरिंग कार्यान्वयन, सैद्धांतिक नवाचार अपेक्षाकृत सीमित है

प्रभाव

शैक्षणिक योगदान: कम-संसाधन कोड-मिश्रित भाषा के आक्रामक सामग्री पता लगाने के लिए प्रभावी विधि प्रदान की
व्यावहारिक अनुप्रयोग: Roman Urdu सोशल मीडिया सामग्री समीक्षा के लिए सीधे लागू किया जा सकता है
तकनीकी प्रचार: विशिष्ट डोमेन कार्यों में QLoRA के अनुप्रयोग क्षमता प्रदर्शित की
अनुसंधान प्रेरणा: अन्य कम-संसाधन भाषाओं के समान कार्यों के लिए संदर्भ ढांचा प्रदान किया

लागू परिदृश्य

सोशल मीडिया प्लेटफॉर्म: Facebook, Twitter आदि प्लेटफॉर्म पर Roman Urdu सामग्री समीक्षा
ऑनलाइन समुदाय प्रबंधन: पाकिस्तान और भारत क्षेत्र के ऑनलाइन फोरम और समुदायों
शैक्षणिक अनुप्रयोग: साइबरबुलिंग पता लगाने और रोकथाम प्रणाली
अनुसंधान आधार: बहुभाषी आक्रामक भाषा पता लगाने प्रणाली विकास का आधार

संदर्भ

पेपर में 46 संबंधित संदर्भ उद्धृत किए गए हैं, जो आक्रामक भाषा पता लगाने, बड़े भाषा मॉडल, कोड-मिश्रित भाषा प्रसंस्करण और अन्य कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।

समग्र मूल्यांकन: यह पेपर तकनीकी कार्यान्वयन में परिपक्व है, प्रयोग डिजाइन उचित है, और परिणाम प्रेरक हैं। हालांकि सैद्धांतिक नवाचार के संदर्भ में अपेक्षाकृत सीमित है, लेकिन कम-संसाधन कोड-मिश्रित भाषा के व्यावहारिक अनुप्रयोग के लिए मूल्यवान समाधान प्रदान करता है, जिसमें अच्छी व्यावहारिक मूल्य और प्रचार महत्व है।