2025-11-18T17:28:20.387006

Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text

Hussain, Qasim, Mehak et al.
The use of derogatory terms in languages that employ code mixing, such as Roman Urdu, presents challenges for Natural Language Processing systems due to unstated grammar, inconsistent spelling, and a scarcity of labeled data. In this work, we propose a QLoRA based fine tuning framework to improve offensive language detection in Roman Urdu-English text. We translated the Roman Urdu-English code mixed dataset into English using Google Translate to leverage English LLMs, while acknowledging that this translation reduces direct engagement with code mixing features. Our focus is on classification performance using English translated low resource inputs. We fine tuned several transformers and large language models, including Meta LLaMA 3 8B, Mistral 7B v0.1, LLaMA 2 7B, ModernBERT, and RoBERTa, with QLoRA for memory efficient adaptation. Models were trained and evaluated on a manually annotated Roman Urdu dataset for offensive vs non offensive content. Of all tested models, the highest F1 score of 91.45 was attained by Meta LLaMA 3 8B, followed by Mistral 7B at 89.66, surpassing traditional transformer baselines. These results demonstrate the efficacy of QLoRA in fine tuning high performing models for low resource environments such as code mixed offensive language detection, and confirm the potential of LLMs for this task. This work advances a scalable approach to Roman Urdu moderation and paves the way for future multilingual offensive detection systems based on LLMs.
academic

রোমান উর্দু-ইংরেজি কোড-মিক্সড টেক্সটে আক্রমণাত্মক ভাষা সনাক্তকরণের জন্য QLoRA দিয়ে বড় ভাষা মডেল ফাইন-টিউনিং

মৌলিক তথ্য

  • পেপার আইডি: 2510.03683
  • শিরোনাম: Fine-Tuning Large Language Models with QLoRA for Offensive Language Detection in Roman Urdu-English Code-Mixed Text
  • লেখক: নিসার হোসেইন, আমনা কাসিম, গুল মেহক, মুহাম্মদ উসমান, মুহাম্মদ জেইন, মোমিনা হাফিজ, গ্রিগরি সিডোরভ
  • প্রতিষ্ঠান: ইনস্টিটিউটো পলিটেকনিকো ন্যাশনাল (IPN), সেন্ট্রো ডি ইনভেস্টিগেশন এন কম্পিউটেশন (CIC), মেক্সিকো
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.03683

সারসংক্ষেপ

এই গবেষণা রোমান উর্দু-ইংরেজি কোড-মিক্সড টেক্সটে আক্রমণাত্মক ভাষা সনাক্তকরণের সমস্যার সমাধানের জন্য QLoRA-ভিত্তিক বড় ভাষা মডেল ফাইন-টিউনিং ফ্রেমওয়ার্ক প্রস্তাব করে। রোমান উর্দু ভাষায় ব্যাকরণগত অনিয়ম, বানান অসামঞ্জস্য এবং টীকাকৃত ডেটার স্বল্পতার চ্যালেঞ্জের কারণে, গবেষকরা গুগল অনুবাদ ব্যবহার করে কোড-মিক্সড টেক্সটকে ইংরেজিতে রূপান্তরিত করেছেন যাতে ইংরেজি বড় ভাষা মডেলের ক্ষমতা সম্পূর্ণভাবে কাজে লাগানো যায়। মেটা-LLaMA-3-8B, Mistral-7B-v0.1, LLaMA 2-7B, ModernBERT এবং RoBERTa সহ একাধিক মডেলে পরীক্ষা-নিরীক্ষা পরিচালিত হয়েছে। ফলাফল দেখায় যে Meta-LLaMA-3-8B সর্বোচ্চ F1 স্কোর 91.45% অর্জন করেছে, Mistral-7B 89.66% পৌঁছেছে, উভয়ই ঐতিহ্যবাহী Transformer বেসলাইন মডেলকে অতিক্রম করেছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণা যে মূল সমস্যার সমাধান করতে চায় তা হল রোমান উর্দু-ইংরেজি কোড-মিক্সড টেক্সটে আক্রমণাত্মক ভাষা সনাক্তকরণ। রোমান উর্দু পাকিস্তান এবং ভারতের কিছু অঞ্চলে প্রধান ডিজিটাল যোগাযোগের মাধ্যম, যেখানে ব্যবহারকারীরা ল্যাটিন অক্ষর দিয়ে উর্দু লেখেন এবং প্রায়ই ইংরেজি শব্দ মিশ্রিত করেন।

সমস্যার গুরুত্ব

  1. সোশ্যাল মিডিয়া নিরাপত্তার চাহিদা: টুইটার, ফেসবুক, ইউটিউব এবং অন্যান্য প্ল্যাটফর্মের বিস্তারের সাথে, আক্রমণাত্মক এবং ক্ষতিকারক সামগ্রীর প্রসার ক্রমবর্ধমান গুরুতর হয়ে উঠছে, এই ধরনের সামগ্রী সনাক্ত এবং হ্রাস করা ডিজিটাল স্বাস্থ্য বজায় রাখা এবং ব্যবহারকারীর মানসিক ক্ষতি প্রতিরোধের জন্য অত্যন্ত গুরুত্বপূর্ণ।
  2. কোড-মিক্সড ভাষার বিশেষ চ্যালেঞ্জ: রোমান উর্দু-ইংরেজি কোড-মিক্সড টেক্সটে অ-মানক ব্যাকরণ, বানান অসামঞ্জস্য, টীকাকৃত ডেটাসেটের অভাব ইত্যাদি বৈশিষ্ট্য রয়েছে, যা ঐতিহ্যবাহী NLP মডেলের নির্ভুলতা উল্লেখযোগ্যভাবে হ্রাস করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. ঐতিহ্যবাহী মেশিন লার্নিং পদ্ধতি: প্রাথমিক পর্যায়ে SVM, নাইভ বেইজ, লজিস্টিক রিগ্রেশন ইত্যাদি পদ্ধতি TF-IDF বা n-gram বৈশিষ্ট্যের সাথে ব্যবহৃত হয়েছিল, কিন্তু বিভিন্ন প্রসঙ্গ এবং ভাষা জুড়ে সাধারণীকরণ ক্ষমতা দুর্বল, বিশেষত অনানুষ্ঠানিক, শব্দযুক্ত বা কোড-মিক্সড ডেটায় খারাপ পারফরম্যান্স দেখায়।
  2. গভীর শিক্ষার মডেল: CNN এবং RNN প্রসঙ্গ তথ্য ক্যাপচার করার ক্ষেত্রে ঐতিহ্যবাহী পদ্ধতির চেয়ে উন্নত, কিন্তু রোমান উর্দুর মতো রূপগতভাবে সমৃদ্ধ নিম্ন-সম্পদ ভাষার জন্য এখনও চ্যালেঞ্জের সম্মুখীন।
  3. প্রাক-প্রশিক্ষিত মডেলের স্বল্পতা: রোমান উর্দুতে বিশেষায়িত প্রাক-প্রশিক্ষিত মডেল বা বড় আকারের টীকাকৃত কর্পাস নেই, যা বিদ্যমান পদ্ধতির প্রয়োগ সীমিত করে।

মূল অবদান

  1. রোমান উর্দু-ইংরেজি আক্রমণাত্মক ভাষা সনাক্তকরণের জন্য একটি সম্পূর্ণ পাইপলাইন প্রস্তাব করা: ডেটা প্রাক-প্রক্রিয়াকরণ থেকে মডেল মূল্যায়ন পর্যন্ত সম্পূর্ণ প্রক্রিয়াকরণ প্রবাহ তৈরি করা।
  2. LLaMA এবং Mistral মডেলে QLoRA প্রয়োগ করা: রোমান উর্দু আক্রমণাত্মক ভাষা সনাক্তকরণ কাজে পরিমাণায়িত নিম্ন-র‍্যাঙ্ক অভিযোজন প্রযুক্তি প্রয়োগ করা প্রথম।
  3. ব্যাপক তুলনামূলক মূল্যায়ন পরিচালনা করা: QLoRA ফাইন-টিউনড বড় ভাষা মডেল এবং ঐতিহ্যবাহী ফাইন-টিউনড ModernBERT এবং RoBERTa মডেলের কর্মক্ষমতা তুলনা করা।
  4. অনুবাদ-ভিত্তিক প্রাক-প্রক্রিয়াকরণ কৌশল গ্রহণ করা: অনুবাদ পদ্ধতির মাধ্যমে নিম্ন-সম্পদ কোড-মিক্সড টেক্সট প্রক্রিয়া করতে ইংরেজি বড় ভাষা মডেল ব্যবহার করা।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: রোমান উর্দু-ইংরেজি কোড-মিক্সড টেক্সট আউটপুট: দ্বিমুখী শ্রেণীবিভাগ লেবেল (আক্রমণাত্মক/অ-আক্রমণাত্মক) সীমাবদ্ধতা: নিম্ন-সম্পদ, অ-মানক ব্যাকরণ, কোড-মিক্সড বৈশিষ্ট্য পরিচালনা করা

মডেল আর্কিটেকচার

সামগ্রিক প্রবাহ

গবেষণা একটি সিস্টেমেটিক প্রক্রিয়াকরণ পাইপলাইন গ্রহণ করেছে:

  1. ডেটা সংগ্রহ এবং প্রাক-প্রক্রিয়াকরণ
    • ডেটাসেটে 46,026টি নমুনা রয়েছে (24,026টি "আক্রমণাত্মক", 22,000টি "অ-আক্রমণাত্মক")
    • প্রধানত ফেসবুক জনসাধারণ মন্তব্য এবং ইউটিউব উত্তর থেকে স্ক্র্যাপ করা
    • তিনজন দ্বিভাষিক টীকাকারী দ্বারা ম্যানুয়ালি টীকাকৃত, Cohen's Kappa সামঞ্জস্য 0.86
  2. অনুবাদ প্রক্রিয়াকরণ
    • deep_translator প্যাকেজে GoogleTranslator লাইব্রেরি ব্যবহার করা
    • রোমান উর্দু টেক্সটকে ইংরেজিতে অনুবাদ করা যাতে ইংরেজি LLM কাজে লাগানো যায়
    • অনুবাদ পর্যায় পর্যন্ত মূল কোড-মিক্সড বৈশিষ্ট্য বজায় রাখা
  3. ডেটাসেট বিভাজন এবং টীকাকরণ
    • লেবেল ম্যাপিং: "আক্রমণাত্মক"→1, "অ-আক্রমণাত্মক"→0
    • স্তরযুক্ত নমুনা ব্যবহার করে 80% প্রশিক্ষণ, 20% পরীক্ষা বিভাজন
    • ডিকোডার মডেলের জন্য, ইনপুট প্রম্পট শৈলীতে ফর্ম্যাট করা

মডেল নির্বাচন

কর্মক্ষমতা মূল্যায়নের জন্য বৈচিত্র্যময় মডেল নির্বাচন করা হয়েছে:

  • বড় ভাষা মডেল: LLaMA 3 (8B), LLaMA 2 (7B), Mistral (7B), QLoRA ফাইন-টিউনিং ব্যবহার করে
  • ঐতিহ্যবাহী Transformer: RoBERTa এবং ModernBERT, ঐতিহ্যবাহী তত্ত্বাবধানকৃত শিক্ষা পদ্ধতি ফাইন-টিউনিং ব্যবহার করে

QLoRA ফাইন-টিউনিং প্রযুক্তি

মূল প্যারামিটার সেটিংস:

  • rank (r=8)
  • alpha (32)
  • dropout (0.05)
  • অভিযোজন স্তর: q_proj এবং v_proj

প্রযুক্তিগত সুবিধা:

  • নিম্ন-র‍্যাঙ্ক অ্যাডাপ্টার এবং পরিমাণায়িত ওজনের মাধ্যমে মেমরি-দক্ষ ফাইন-টিউনিং বাস্তবায়ন
  • কর্মক্ষমতা বজায় রেখে GPU মেমরি ব্যবহার উল্লেখযোগ্যভাবে হ্রাস করা

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. পরিমাণায়িত নিম্ন-র‍্যাঙ্ক অভিযোজনের প্রয়োগ: রোমান উর্দু আক্রমণাত্মক ভাষা সনাক্তকরণে QLoRA প্রযুক্তি প্রথমবারের মতো প্রয়োগ করা, বড় মডেলের দক্ষ ফাইন-টিউনিং বাস্তবায়ন করা।
  2. অনুবাদ-সহায়ক ক্রস-ভাষা স্থানান্তর: অনুবাদ কৌশলের মাধ্যমে ভাষা ব্যবধান পূরণ করা, মডেলের অন্তর্নিহিত শব্দার্থ বোঝার উন্নতি করা।
  3. বহু-মডেল তুলনা ফ্রেমওয়ার্ক: LLM এবং ঐতিহ্যবাহী Transformer মডেলের সিস্টেমেটিক তুলনামূলক মূল্যায়ন ফ্রেমওয়ার্ক প্রতিষ্ঠা করা।

পরীক্ষা-নিরীক্ষা সেটআপ

ডেটাসেট

  • আকার: 46,026টি নমুনা
  • উৎস: ফেসবুক মন্তব্য এবং ইউটিউব উত্তর
  • টীকাকরণ: তিনজন দ্বিভাষিক টীকাকার, Cohen's Kappa = 0.86
  • বিভাজন: 80% প্রশিক্ষণ, 20% পরীক্ষা (স্তরযুক্ত নমুনা)
  • প্রাক-প্রক্রিয়াকরণ: প্রসঙ্গ সম্পূর্ণতা বজায় রাখতে ন্যূনতম পরিষ্কার করা

মূল্যায়ন মেট্রিক্স

  • নির্ভুলতা (Accuracy)
  • নির্ভুলতা (Precision)
  • স্মরণ (Recall)
  • F1 স্কোর (F1 Score)

তুলনামূলক পদ্ধতি

  • LLaMA 3 (8B) + QLoRA
  • Mistral 7B + QLoRA
  • LLaMA 2 (7B) + QLoRA
  • RoBERTa (ঐতিহ্যবাহী ফাইন-টিউনিং)
  • ModernBERT (ঐতিহ্যবাহী ফাইন-টিউনিং)

বাস্তবায়ন বিবরণ

  • হার্ডওয়্যার: NVIDIA A100 (80GB VRAM), 128GB RAM, 32-কোর CPU
  • সফটওয়্যার পরিবেশ: Python 3.13.2, PyTorch, Transformers, PEFT ইত্যাদি
  • হাইপারপ্যারামিটার: শিক্ষার হার 2e-5, ব্যাচ আকার 2, প্রশিক্ষণ যুগ 10, ওজন ক্ষয় 0.01
  • অপ্টিমাইজেশন কৌশল: গ্রেডিয়েন্ট চেকপয়েন্ট, প্রাথমিক থামার প্রক্রিয়া

পরীক্ষা-নিরীক্ষার ফলাফল

প্রধান ফলাফল

মডেলনির্ভুলতানির্ভুলতাস্মরণF1 স্কোর
LLaMA 3 (8B)91.6291.491.591.45
Mistral 7B89.8889.589.889.66
LLaMA 2 (7B)88.7488.288.688.4
RoBERTa85.6585.285.785.44
ModernBERT83.9283.184.083.55

মূল আবিষ্কার:

  1. LLaMA 3 (8B) সর্বোত্তম কর্মক্ষমতা অর্জন করেছে, F1 স্কোর 91.45% পৌঁছেছে
  2. QLoRA-ভিত্তিক বড় ভাষা মডেল ঐতিহ্যবাহী Transformer মডেলের চেয়ে উল্লেখযোগ্যভাবে উন্নত
  3. কর্মক্ষমতা পার্থক্য কোড-মিক্সড ভাষা কাজে QLoRA ফাইন-টিউনিংয়ের সুবিধা প্রতিফলিত করে

প্রশিক্ষণ আচরণ বিশ্লেষণ

  • সংমিশ্রণ গতি: সর্বোত্তম মডেল 2-3টি যুগের মধ্যে সর্বোত্তম যাচাইকরণ F1 স্কোর অর্জন করে
  • প্রশিক্ষণ স্থিতিশীলতা: সমস্ত মডেল মসৃণ ক্ষতি হ্রাস প্রদর্শন করে, কোন অতিফিটিং চিহ্ন নেই
  • মেমরি দক্ষতা: QLoRA বড় মডেল ফাইন-টিউনিংয়ের মেমরি প্রয়োজন উল্লেখযোগ্যভাবে হ্রাস করে

অনুমান দক্ষতা তুলনা

  • LLaMA 3 (8B): প্রায় 1.0 সেকেন্ড/1000 নমুনা
  • Mistral 7B: প্রায় 0.80 সেকেন্ড/1000 নমুনা
  • LLaMA 2 (7B): প্রায় 0.78 সেকেন্ড/1000 নমুনা
  • RoBERTa: প্রায় 0.35 সেকেন্ড/1000 নমুনা
  • ModernBERT: প্রায় 0.30 সেকেন্ড/1000 নমুনা

মডেল আকার এবং অনুমান গতির মধ্যে ট্রেড-অফ প্রতিফলিত করে।

মডেল ব্যাখ্যাযোগ্যতা বিশ্লেষণ

LIME এবং SHAP বিশ্লেষণের মাধ্যমে আবিষ্কৃত:

  • উচ্চ প্রভাব আক্রমণাত্মক শব্দভাণ্ডার: "saalon", "naacho", "maaregi" ইত্যাদি
  • মডেল সিদ্ধান্ত প্যাটার্ন: LLaMA 3 প্রসঙ্গ আক্রমণাত্মক ভাষায় ফোকাস করে, ঐতিহ্যবাহী মডেল ওজন বরাদ্দ আরও বিক্ষিপ্ত
  • পক্ষপাত সনাক্তকরণ: কিছু নিরপেক্ষ শব্দ শ্রেণীবিভাগকে বিভ্রান্ত করতে পারে, ডেটা গুণমানের গুরুত্ব তুলে ধরে

সম্পর্কিত কাজ

আক্রমণাত্মক ভাষা সনাক্তকরণ গবেষণা

  1. ঐতিহ্যবাহী পদ্ধতি: হাতে তৈরি বৈশিষ্ট্য-ভিত্তিক মেশিন লার্নিং পদ্ধতি (SVM, নাইভ বেইজ ইত্যাদি)
  2. গভীর শিক্ষা পদ্ধতি: CNN, RNN এবং Transformer আর্কিটেকচার (BERT এবং এর বৈকল্পিক)
  3. বহুভাষিক প্রক্রিয়াকরণ: ক্রস-ভাষা স্থানান্তর শিক্ষা এবং শূন্য-শট শিক্ষা পদ্ধতি

নিম্ন-সম্পদ ভাষা প্রক্রিয়াকরণ

  1. রোমান উর্দু গবেষণা: কয়েকজন গবেষক রোমান উর্দু ডেটাসেট এবং এমবেডিং পদ্ধতি তৈরি করেছেন
  2. কোড-মিক্সড প্রক্রিয়াকরণ: বহুভাষিক এমবেডিং এবং মেশিন অনুবাদ-সহায়ক পদ্ধতি
  3. সম্পদ স্বল্পতা চ্যালেঞ্জ: প্রাক-প্রশিক্ষিত মডেল এবং বড় আকারের টীকাকৃত কর্পাসের অভাব

বড় ভাষা মডেল ফাইন-টিউনিং

  1. প্যারামিটার-দক্ষ ফাইন-টিউনিং: QLoRA, LoRA ইত্যাদি প্রযুক্তির উন্নয়ন
  2. LLM প্রয়োগ: GPT, LLaMA, Mistral টেক্সট শ্রেণীবিভাগ কাজে প্রয়োগ
  3. পরিমাণায়ন প্রযুক্তি: কর্মক্ষমতা বজায় রেখে গণনা সম্পদ প্রয়োজন হ্রাস করা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. QLoRA ফাইন-টিউনিংয়ের কার্যকারিতা: রোমান উর্দু-ইংরেজি কোড-মিক্সড টেক্সট আক্রমণাত্মক ভাষা সনাক্তকরণ কাজে, QLoRA ফাইন-টিউনড বড় ভাষা মডেল ঐতিহ্যবাহী পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে উন্নত
  2. অনুবাদ কৌশলের সম্ভাব্যতা: অনুবাদ প্রাক-প্রক্রিয়াকরণের মাধ্যমে নিম্ন-সম্পদ কোড-মিক্সড ভাষা প্রক্রিয়া করতে ইংরেজি LLM কার্যকরভাবে ব্যবহার করা যায়
  3. মডেল আকারের গুরুত্ব: জটিল NLP কাজে বৃহত্তর মডেল প্যারামিটার আকার স্পষ্ট সুবিধা প্রদর্শন করে

সীমাবদ্ধতা

  1. কোড-মিক্সড বৈশিষ্ট্য হারানো: অনুবাদ প্রক্রিয়া মূল কোড-সুইচিং কাঠামো হারায়, মডেল প্রকৃতপক্ষে ইংরেজি অনুবাদ সংস্করণ প্রক্রিয়া করে মূল কোড-মিক্সড টেক্সট নয়
  2. গণনা সম্পদ প্রয়োজন: বড় ভাষা মডেলের অনুমান বিলম্ব বেশি, যা রিয়েল-টাইম প্রয়োগ সীমিত করতে পারে
  3. ডেটাসেট আকার: তুলনামূলক ছোট ডেটাসেট মডেল সাধারণীকরণ ক্ষমতা প্রভাবিত করতে পারে
  4. অনুবাদ গুণমান নির্ভরতা: পদ্ধতির কার্যকারিতা Google অনুবাদের গুণমানের উপর অত্যন্ত নির্ভরশীল

ভবিষ্যত দিকনির্দেশনা

  1. সরাসরি কোড-মিক্সড টেক্সট প্রক্রিয়াকরণ: অনুবাদ ছাড়াই সরাসরি রোমান উর্দু প্রক্রিয়া করতে সক্ষম LLM উন্নয়ন
  2. শূন্য-শট এবং কম-শট শিক্ষা: টীকাকৃত ডেটার উপর নির্ভরতা হ্রাস করা
  3. ক্রস-ভাষা স্থানান্তর অপ্টিমাইজেশন: কোড-মিক্সড বৈশিষ্ট্য আরও ভালভাবে সংরক্ষণ করতে ক্রস-ভাষা স্থানান্তর পদ্ধতি উন্নত করা
  4. রিয়েল-টাইম অপ্টিমাইজেশন: প্রকৃত স্থাপনা প্রয়োজনের জন্য অনুমান গতি অপ্টিমাইজ করা

গভীর মূল্যায়ন

শক্তি

  1. পদ্ধতি উদ্ভাবনী: রোমান উর্দু আক্রমণাত্মক ভাষা সনাক্তকরণে QLoRA প্রযুক্তি প্রথমবারের মতো প্রয়োগ, নতুন সমাধান চিন্তাভাবনা প্রদান করে
  2. পরীক্ষা-নিরীক্ষা ব্যাপকতা: বিভিন্ন আকার এবং আর্কিটেকচারের একাধিক মডেল তুলনা, ব্যাপক কর্মক্ষমতা বেঞ্চমার্ক প্রদান করে
  3. ব্যবহারিক মূল্য: সোশ্যাল মিডিয়া সামগ্রী পর্যালোচনার জন্য সম্ভাব্য প্রযুক্তিগত সমাধান প্রদান করে
  4. প্রযুক্তি অগ্রগামী: সর্বশেষ প্যারামিটার-দক্ষ ফাইন-টিউনিং প্রযুক্তি গ্রহণ, সম্পদ-সীমিত পরিবেশে ভাল কর্মক্ষমতা অর্জন করে

অপূর্ণতা

  1. পদ্ধতি সীমাবদ্ধতা: অনুবাদ প্রাক-প্রক্রিয়াকরণ কৌশল ব্যবহারিক হলেও কোড-মিক্সড সারমর্ম হারায়
  2. ডেটাসেট সীমাবদ্ধতা: ডেটাসেট তুলনামূলক ছোট এবং শুধুমাত্র নির্দিষ্ট প্ল্যাটফর্ম থেকে, সাধারণীকরণ প্রভাবিত করতে পারে
  3. মূল্যায়ন মাত্রা: বিভিন্ন ধরনের আক্রমণাত্মক ভাষার সূক্ষ্ম-দানাদার বিশ্লেষণের অভাব
  4. তাত্ত্বিক অবদান: প্রধানত প্রকৌশল বাস্তবায়ন, তাত্ত্বিক উদ্ভাবন তুলনামূলক সীমিত

প্রভাব

  1. একাডেমিক অবদান: নিম্ন-সম্পদ কোড-মিক্সড ভাষার আক্রমণাত্মক সামগ্রী সনাক্তকরণের জন্য কার্যকর পদ্ধতি প্রদান করে
  2. ব্যবহারিক প্রয়োগ: রোমান উর্দু সোশ্যাল মিডিয়া সামগ্রী পর্যালোচনায় সরাসরি প্রয়োগ করা যায়
  3. প্রযুক্তি প্রচার: নির্দিষ্ট ডোমেন কাজে QLoRA প্রয়োগের সম্ভাবনা প্রদর্শন করে
  4. গবেষণা অনুপ্রেরণা: অন্যান্য নিম্ন-সম্পদ ভাষার অনুরূপ কাজের জন্য রেফারেন্স ফ্রেমওয়ার্ক প্রদান করে

প্রযোজ্য দৃশ্যকল্প

  1. সোশ্যাল মিডিয়া প্ল্যাটফর্ম: ফেসবুক, টুইটার ইত্যাদি প্ল্যাটফর্মের রোমান উর্দু সামগ্রী পর্যালোচনা
  2. অনলাইন সম্প্রদায় ব্যবস্থাপনা: পাকিস্তান এবং ভারত অঞ্চলের অনলাইন ফোরাম এবং সম্প্রদায়
  3. শিক্ষা প্রয়োগ: অনলাইন বুলিং সনাক্তকরণ এবং প্রতিরোধ ব্যবস্থা
  4. গবেষণা ভিত্তি: বহুভাষিক আক্রমণাত্মক ভাষা সনাক্তকরণ ব্যবস্থা উন্নয়নের ভিত্তি

সংদর্ভ

পেপারটি 46টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা আক্রমণাত্মক ভাষা সনাক্তকরণ, বড় ভাষা মডেল, কোড-মিক্সড ভাষা প্রক্রিয়াকরণ ইত্যাদি একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, গবেষণার জন্য দৃঢ় তাত্ত্বিক ভিত্তি এবং প্রযুক্তিগত সহায়তা প্রদান করে।


সামগ্রিক মূল্যায়ন: এই পেপারটি প্রযুক্তি বাস্তবায়নে পরিপক্ক, পরীক্ষা-নিরীক্ষা ডিজাইন যুক্তিসঙ্গত, ফলাফল প্রভাবশালী। যদিও তাত্ত্বিক উদ্ভাবনে তুলনামূলক সীমিত, তবে নিম্ন-সম্পদ কোড-মিক্সড ভাষার ব্যবহারিক প্রয়োগের জন্য মূল্যবান সমাধান প্রদান করে, ভাল ব্যবহারিক মূল্য এবং প্রচার তাৎপর্য রয়েছে।