2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.

The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.

academic

ضبط النماذج اللغوية الكبيرة باستخدام QLoRA لكشف اللغة المسيئة في النصوص المختلطة بين الأردية الرومانية والإنجليزية

المعلومات الأساسية

معرّف الورقة: 2510.03683
العنوان: ضبط النماذج اللغوية الكبيرة باستخدام QLoRA لكشف اللغة المسيئة في النصوص المختلطة بين الأردية الرومانية والإنجليزية
المؤلفون: نيسار حسين، أمنة قاسم، جول مهك، محمد عثمان، محمد زين، مومينة حفيظ، جريجوري سيدوروف
المؤسسات: المعهد السياسي الوطني (IPN)، مركز أبحاث الحوسبة (CIC)، المكسيك
التصنيف: cs.CL (اللسانيات الحاسوبية)
رابط الورقة: https://arxiv.org/abs/2510.03683

الملخص

تتناول هذه الدراسة مشكلة كشف اللغة المسيئة في النصوص المختلطة بين الأردية الرومانية والإنجليزية، وتقترح إطار عمل لضبط النماذج اللغوية الكبيرة باستخدام تقنية QLoRA. نظراً للتحديات التي تواجه اللغة الأردية الرومانية مثل عدم انتظام القواعد النحوية وعدم اتساق الإملاء وندرة البيانات المُعلَّمة، اعتمد الباحثون على ترجمة Google لتحويل النصوص المختلطة إلى اللغة الإنجليزية للاستفادة الكاملة من قدرات النماذج اللغوية الإنجليزية. أُجريت التجارب على عدة نماذج تشمل Meta-LLaMA-3-8B و Mistral-7B-v0.1 و LLaMA 2-7B و ModernBERT و RoBERTa. أظهرت النتائج أن Meta-LLaMA-3-8B حقق أعلى درجة F1 بنسبة 91.45%، بينما وصل Mistral-7B إلى 89.66%، وكلاهما تجاوز نماذج Transformer الأساسية التقليدية.

الخلفية البحثية والدافع

تعريف المشكلة

تركز هذه الدراسة على حل مشكلة أساسية وهي كشف اللغة المسيئة في النصوص المختلطة بين الأردية الرومانية والإنجليزية. تُعتبر الأردية الرومانية الشكل الرئيسي للتواصل الرقمي في باكستان وأجزاء من الهند، حيث يستخدم المستخدمون الأحرف اللاتينية لكتابة اللغة الأردية ويخلطونها بشكل متكرر مع كلمات إنجليزية.

أهمية المشكلة

متطلبات سلامة وسائل التواصل الاجتماعي: مع انتشار منصات مثل Twitter و Facebook و YouTube، أصبح انتشار المحتوى المسيء والضار أكثر خطورة. يُعتبر تحديد وتقليل هذا المحتوى أمراً حاسماً للحفاظ على الصحة الرقمية ومنع الأذى النفسي للمستخدمين.
التحديات الخاصة باللغات المختلطة: يتميز النص المختلط بين الأردية الرومانية والإنجليزية بقواعد نحوية غير قياسية وعدم اتساق الإملاء ونقص مجموعات البيانات المُعلَّمة، مما يؤدي إلى انخفاض كبير في دقة نماذج معالجة اللغات الطبيعية التقليدية.

قيود الطرق الموجودة

طرق التعلم الآلي التقليدية: استخدمت الطرق المبكرة نماذج مثل SVM والبايز الساذج والانحدار اللوجستي مع ميزات TF-IDF أو n-gram، لكنها تفتقر إلى القدرة على التعميم عبر السياقات المختلفة واللغات، خاصة على البيانات غير الرسمية والمزعجة أو المختلطة.
نماذج التعلم العميق: بينما تتفوق نماذج CNN و RNN على الطرق التقليدية في التقاط المعلومات السياقية، إلا أنها لا تزال تواجه تحديات مع اللغات منخفضة الموارد الغنية بالصيغ مثل الأردية الرومانية.
ندرة النماذج المُدرَّبة مسبقاً: تفتقر الأردية الرومانية إلى نماذج مُدرَّبة مسبقاً متخصصة أو مجموعات بيانات مُعلَّمة واسعة النطاق، مما يحد من تطبيق الطرق الموجودة.

المساهمات الأساسية

اقتراح خط أنابيب شامل لكشف اللغة المسيئة في النصوص المختلطة بين الأردية الرومانية والإنجليزية: بناء عملية معالجة كاملة من معالجة البيانات إلى تقييم النموذج.
تطبيق QLoRA على نماذج LLaMA و Mistral: أول تطبيق لتقنية التكيف منخفض الرتبة المُكمَّم على مهمة كشف اللغة المسيئة في الأردية الرومانية.
إجراء تقييم مقارن شامل: مقارنة أداء النماذج اللغوية الكبيرة المضبوطة باستخدام QLoRA مع نماذج ModernBERT و RoBERTا المضبوطة بشكل تقليدي.
اعتماد استراتيجية معالجة مسبقة قائمة على الترجمة: استخدام طرق الترجمة للاستفادة من النماذج اللغوية الإنجليزية الكبيرة في معالجة النصوص المختلطة منخفضة الموارد.

شرح الطريقة

تعريف المهمة

الإدخال: نص مختلط بين الأردية الرومانية والإنجليزية الإخراج: تصنيف ثنائي (مسيء/غير مسيء) القيود: التعامل مع الخصائص منخفضة الموارد والقواعد النحوية غير القياسية والمختلطة

معمارية النموذج

العملية الشاملة

اعتمدت الدراسة على خط أنابيب معالجة منظم:

جمع البيانات والمعالجة المسبقة
- تحتوي مجموعة البيانات على 46,026 عينة (24,026 "مسيء"، 22,000 "غير مسيء")
- تم جمعها بشكل أساسي من التعليقات العامة على Facebook والردود على YouTube
- تم تعليمها يدوياً من قبل ثلاثة معلِّمين ثنائيي اللغة بمعامل اتفاق Cohen's Kappa قدره 0.86
معالجة الترجمة
- استخدام مكتبة GoogleTranslator من حزمة deep_translator
- ترجمة نصوص الأردية الرومانية إلى اللغة الإنجليزية للاستفادة من نماذج LLM الإنجليزية
- الحفاظ على خصائص الخلط الأصلية حتى مرحلة الترجمة
تقسيم مجموعة البيانات والتعليم
- تعيين التسميات: "مسيء"→1، "غير مسيء"→0
- استخدام العينات الطبقية لتقسيم 80% تدريب و 20% اختبار
- بالنسبة لنماذج فك التشفير، يتم تنسيق الإدخال بأسلوب الفحص

اختيار النموذج

تم اختيار نماذج متنوعة لتقييم الأداء:

النماذج اللغوية الكبيرة: LLaMA 3 (8B) و LLaMA 2 (7B) و Mistral (7B)، مع ضبط باستخدام QLoRA
نماذج Transformer التقليدية: RoBERTa و ModernBERT، مع ضبط باستخدام طرق التعلم الخاضع للإشراف التقليدية

تقنية ضبط QLoRA

إعدادات المعاملات الأساسية:

الرتبة (r=8)
ألفا (32)
الإسقاط (0.05)
طبقات التكيف: q_proj و v_proj

المزايا التقنية:

تحقيق ضبط فعال من حيث الذاكرة من خلال محولات منخفضة الرتبة والأوزان المُكمَّمة
الحفاظ على الأداء مع تقليل استخدام ذاكرة GPU بشكل كبير

نقاط الابتكار التقني

تطبيق التكيف منخفض الرتبة المُكمَّم: أول تطبيق لتقنية QLoRA على كشف اللغة المسيئة في الأردية الرومانية، مما يحقق ضبطاً فعالاً للنماذج الكبيرة.
نقل معرفة عبر اللغات بمساعدة الترجمة: استخدام استراتيجية الترجمة لسد الفجوة اللغوية وتحسين فهم النموذج للدلالات الأساسية.
إطار عمل مقارن متعدد النماذج: إنشاء إطار عمل لتقييم منظم ومقارن بين نماذج LLM ونماذج Transformer التقليدية.

إعداد التجارب

مجموعة البيانات

الحجم: 46,026 عينة
المصدر: تعليقات Facebook وردود YouTube
التعليم: ثلاثة معلِّمين ثنائيي اللغة، Cohen's Kappa = 0.86
التقسيم: 80% تدريب، 20% اختبار (عينات طبقية)
المعالجة المسبقة: تنظيف بسيط للحفاظ على اكتمال السياق

مقاييس التقييم

الدقة (Accuracy)
الدقة الموجبة (Precision)
الاستدعاء (Recall)
درجة F1 (F1 Score)

الطرق المقارنة

LLaMA 3 (8B) + QLoRA
Mistral 7B + QLoRA
LLaMA 2 (7B) + QLoRA
RoBERTa (ضبط تقليدي)
ModernBERT (ضبط تقليدي)

تفاصيل التنفيذ

الأجهزة: NVIDIA A100 (80GB VRAM)، 128GB RAM، 32 نواة CPU
بيئة البرمجيات: Python 3.13.2، PyTorch، Transformers، PEFT وغيرها
المعاملات الفائقة: معدل التعلم 2e-5، حجم الدفعة 2، عدد الحقب 10، تحلل الأوزان 0.01
استراتيجيات التحسين: نقاط تفتيش التدرج، آلية الإيقاف المبكر

نتائج التجارب

النتائج الرئيسية

النموذج	الدقة	الدقة الموجبة	الاستدعاء	درجة F1
LLaMA 3 (8B)	91.62	91.4	91.5	91.45
Mistral 7B	89.88	89.5	89.8	89.66
LLaMA 2 (7B)	88.74	88.2	88.6	88.4
RoBERTa	85.65	85.2	85.7	85.44
ModernBERT	83.92	83.1	84.0	83.55

النتائج الرئيسية:

حقق LLaMA 3 (8B) أفضل أداء بدرجة F1 تبلغ 91.45%
تفوقت النماذج اللغوية الكبيرة المستندة إلى QLoRA بشكل كبير على نماذج Transformer التقليدية
تعكس فجوة الأداء مزايا ضبط QLoRA في مهام اللغات المختلطة

تحليل سلوك التدريب

سرعة التقارب: وصل أفضل نموذج إلى أفضل درجة F1 للتحقق في 2-3 حقب
استقرار التدريب: أظهرت جميع النماذج انخفاضاً سلساً في الخسارة بدون علامات إفراط في التدريب
كفاءة الذاكرة: قلل QLoRA بشكل كبير من متطلبات الذاكرة لضبط النماذج الكبيرة

مقارنة كفاءة الاستدلال

LLaMA 3 (8B): حوالي 1.0 ثانية/1000 عينة
Mistral 7B: حوالي 0.80 ثانية/1000 عينة
LLaMA 2 (7B): حوالي 0.78 ثانية/1000 عينة
RoBERTa: حوالي 0.35 ثانية/1000 عينة
ModernBERT: حوالي 0.30 ثانية/1000 عينة

يعكس المقارنة المقايضة بين حجم النموذج وسرعة الاستدلال.

تحليل قابلية تفسير النموذج

من خلال تحليل LIME و SHAP، تم اكتشاف:

الكلمات المسيئة ذات التأثير العالي: "saalon"، "naacho"، "maaregi" وغيرها
أنماط قرارات النموذج: يركز LLaMA 3 على اللغة المسيئة السياقية، بينما توزع النماذج التقليدية الأوزان بشكل أكثر تشتتاً
تحديد الانحيازات: قد تضلل بعض الكلمات المحايدة التصنيف، مما يبرز أهمية جودة البيانات

الأعمال ذات الصلة

أبحاث كشف اللغة المسيئة

الطرق التقليدية: طرق التعلم الآلي المستندة إلى الميزات اليدوية (SVM والبايز الساذج وغيرها)
طرق التعلم العميق: معمارية CNN و RNN و Transformer (BERT ومتغيراتها)
المعالجة متعددة اللغات: طرق نقل التعلم عبر اللغات والتعلم بدون عينات

معالجة اللغات منخفضة الموارد

أبحاث الأردية الرومانية: عدد قليل من الباحثين بنوا مجموعات بيانات وطرق تضمين للأردية الرومانية
معالجة الخلط اللغوي: طرق التضمين متعددة اللغات والترجمة الآلية المساعدة
تحديات ندرة الموارد: نقص النماذج المُدرَّبة مسبقاً ومجموعات البيانات المُعلَّمة الكبيرة

ضبط النماذج اللغوية الكبيرة

الضبط الفعال من حيث المعاملات: تطور تقنيات QLoRA و LoRA وغيرها
تطبيقات LLM: تطبيق GPT و LLaMA و Mistral على مهام تصنيف النصوص
تقنيات التكميم: تقليل متطلبات الموارد الحسابية مع الحفاظ على الأداء

الخلاصة والنقاش

الاستنتاجات الرئيسية

فعالية ضبط QLoRA: في مهمة كشف اللغة المسيئة في النصوص المختلطة بين الأردية الرومانية والإنجليزية، تفوقت النماذج اللغوية الكبيرة المضبوطة باستخدام QLoRA بشكل كبير على الطرق التقليدية
جدوى استراتيجية الترجمة: يمكن لمعالجة الترجمة المسبقة أن تستفيد بفعالية من نماذج LLM الإنجليزية في معالجة اللغات المختلطة منخفضة الموارد
أهمية حجم النموذج: يُظهر حجم معاملات النموذج الأكبر مزايا واضحة في مهام معالجة اللغات الطبيعية المعقدة

القيود

فقدان خصائص الخلط اللغوي: تؤدي عملية الترجمة إلى فقدان هيكل التبديل الأصلي، حيث يعالج النموذج فعلياً نسخة إنجليزية مترجمة بدلاً من النص المختلط الأصلي
متطلبات الموارد الحسابية: يؤدي تأخير الاستدلال للنماذج اللغوية الكبيرة إلى قد يحد من التطبيقات في الوقت الفعلي
حجم مجموعة البيانات: قد يؤثر حجم مجموعة البيانات الصغير نسبياً على قدرة النموذج على التعميم
الاعتماد على جودة الترجمة: تعتمد فعالية الطريقة بشكل كبير على جودة ترجمة Google

الاتجاهات المستقبلية

المعالجة المباشرة للنصوص المختلطة: تطوير نماذج LLM قادرة على معالجة الأردية الرومانية مباشرة بدون الحاجة إلى ترجمة
التعلم بدون عينات والتعلم بعينات قليلة: تقليل الاعتماد على البيانات المُعلَّمة
تحسين نقل التعلم عبر اللغات: تحسين طرق نقل التعلم عبر اللغات للحفاظ بشكل أفضل على خصائص الخلط اللغوي
تحسين الوقت الفعلي: تحسين سرعة الاستدلال لتلبية احتياجات النشر الفعلي

التقييم المتعمق

المزايا

ابتكار الطريقة: أول تطبيق لتقنية QLoRA على كشف اللغة المسيئة في الأردية الرومانية، مما يوفر منظوراً جديداً للحل
شمولية التجارب: مقارنة نماذج متعددة بأحجام وبنى مختلفة، توفير معايير أداء شاملة
القيمة العملية: توفير حل تقني قابل للتطبيق لمراجعة محتوى وسائل التواصل الاجتماعي
التقدم التقني: استخدام أحدث تقنيات الضبط الفعال من حيث المعاملات، تحقيق أداء جيدة في بيئات الموارد المحدودة

أوجه القصور

قيود الطريقة: بينما تتمتع استراتيجية معالجة الترجمة المسبقة بالعملية، إلا أنها تفقد الخصائص الأساسية للخلط اللغوي
قيود مجموعة البيانات: حجم مجموعة البيانات نسبياً صغير، ومصدرها محدود بمنصات معينة، مما قد يؤثر على القدرة على التعميم
أبعاد التقييم: تفتقر إلى تحليل دقيق متعدد المستويات لأنواع مختلفة من اللغة المسيئة
المساهمة النظرية: تركز بشكل أساسي على التنفيذ الهندسي، مع ابتكار نظري محدود نسبياً

التأثير

المساهمة الأكاديمية: توفير طريقة فعالة لكشف المحتوى المسيء في اللغات المختلطة منخفضة الموارد
التطبيق العملي: يمكن تطبيقها مباشرة على مراجعة محتوى وسائل التواصل الاجتماعي بالأردية الرومانية
تعزيز التكنولوجيا: توضيح إمكانيات تطبيق QLoRA في مهام المجالات المحددة
الإلهام البحثي: توفير إطار عمل مرجعي للمهام المماثلة في اللغات منخفضة الموارد الأخرى

السيناريوهات القابلة للتطبيق

منصات وسائل التواصل الاجتماعي: مراجعة محتوى الأردية الرومانية على Facebook و Twitter وغيرها
إدارة المجتمعات الإلكترونية: المنتديات والمجتمعات الإلكترونية في منطقة باكستان والهند
التطبيقات التعليمية: أنظمة كشف والوقاية من التنمر الإلكتروني
أساس البحث: أساس تطوير أنظمة كشف اللغة المسيئة متعددة اللغات

المراجع

تستشهد الورقة بـ 46 مرجعاً ذا صلة، تغطي مجالات متعددة تشمل كشف اللغة المسيئة والنماذج اللغوية الكبيرة ومعالجة اللغات المختلطة وغيرها، مما يوفر أساساً نظرياً وتقنياً متيناً للبحث.

التقييم الشامل: تتمتع هذه الورقة بنضج معقول في التنفيذ التقني، وتصميم تجريبي معقول، ونتائج مقنعة. بينما يكون الابتكار النظري محدوداً نسبياً، إلا أنها توفر حلاً قيماً وعملياً للتطبيقات الفعلية للغات المختلطة منخفضة الموارد، مع قيمة عملية وأهمية نشر جيدة.