2025-11-14T00:07:11.264849

Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification

Malik, Sharma, Bhatt et al.
Large Language Models (LLMs) offer a lucrative promise for scalable content moderation, including hate speech detection. However, they are also known to be brittle and biased against marginalised communities and dialects. This requires their applications to high-stakes tasks like hate speech detection to be critically scrutinized. In this work, we investigate the robustness of hate speech classification using LLMs particularly when explicit and implicit markers of the speaker's ethnicity are injected into the input. For explicit markers, we inject a phrase that mentions the speaker's linguistic identity. For the implicit markers, we inject dialectal features. By analysing how frequently model outputs flip in the presence of these markers, we reveal varying degrees of brittleness across 3 LLMs and 1 LM and 5 linguistic identities. We find that the presence of implicit dialect markers in inputs causes model outputs to flip more than the presence of explicit markers. Further, the percentage of flips varies across ethnicities. Finally, we find that larger models are more robust. Our findings indicate the need for exercising caution in deploying LLMs for high-stakes tasks like hate speech detection.
academic

কে কথা বলে তা গুরুত্বপূর্ণ: ঘৃণা শ্রেণীবিভাগে বক্তার জাতিসত্তার প্রভাব বিশ্লেষণ

মৌলিক তথ্য

  • পেপার আইডি: 2410.20490
  • শিরোনাম: Who Speaks Matters: Analysing the Influence of the Speaker's Ethnicity on Hate Classification
  • লেখক: অনন্যা মালিক (নর্থইস্টার্ন বিশ্ববিদ্যালয়), কার্তিক শর্মা (জর্জিয়া প্রযুক্তি প্রতিষ্ঠান), শৈলী ভট্ট (কার্নেগি মেলন বিশ্ববিদ্যালয়), লিনেট হুই জিয়ান এনজি (কার্নেগি মেলন বিশ্ববিদ্যালয়)
  • শ্রেণীবিভাগ: cs.CL cs.AI
  • প্রকাশনার সময়: ২০২৫ সালের অক্টোবর ১২ (arXiv v2)
  • পেপার লিংক: https://arxiv.org/abs/2410.20490

সারসংক্ষেপ

বৃহৎ ভাষা মডেল (LLMs) বিষয়বস্তু পর্যালোচনা এবং ঘৃণা বক্তৃতা সনাক্তকরণে বিশাল প্রয়োগের সম্ভাবনা রাখে। তবে এই মডেলগুলি প্রান্তিক সম্প্রদায় এবং উপভাষার প্রতি দুর্বলতা এবং পক্ষপাত প্রদর্শন করে। এই গবেষণা ইনপুটে বক্তার জাতিসত্তার স্পষ্ট এবং অন্তর্নিহিত চিহ্ন প্রবেশ করিয়ে ঘৃণা বক্তৃতা শ্রেণীবিভাগে LLMs-এর স্থিতিস্থাপকতা অনুসন্ধান করে। গবেষণা দেখায় যে অন্তর্নিহিত উপভাষা চিহ্ন স্পষ্ট চিহ্নের চেয়ে মডেল আউটপুট উল্টানোর জন্য আরও সহজ, উল্টানোর শতাংশ জাতিসত্তা অনুযায়ী পরিবর্তিত হয় এবং বৃহত্তর মডেলগুলি আরও স্থিতিস্থাপক পারফরম্যান্স প্রদর্শন করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই গবেষণা যে মূল সমস্যাটি সমাধান করতে চায় তা হল: যখন ইনপুট পাঠে বক্তার জাতিসত্তার পরিচয় তথ্য অন্তর্ভুক্ত থাকে, তখন বৃহৎ ভাষা মডেলগুলি ঘৃণা বক্তৃতা সনাক্তকরণ কাজে কীভাবে কাজ করে?

গুরুত্ব

১. ব্যবহারিক প্রয়োগের চাহিদা: ভাষা প্রযুক্তি ক্রমবর্ধমানভাবে বিষয়বস্তু পর্যালোচনা কাজে ব্যবহৃত হচ্ছে, যার মধ্যে ঘৃণা বক্তৃতা সনাক্তকরণ রয়েছে, কারণ তারা বিশাল পরিমাণ ডেটা পরিচালনা করতে পারে ২. উচ্চ ঝুঁকির কাজ: ঘৃণা বক্তৃতা সনাক্তকরণ একটি উচ্চ ঝুঁকির কাজ যার জন্য LLMs সাবধানে স্থাপন করা প্রয়োজন ३. বৈশ্বিক চ্যালেঞ্জ: বিশ্বব্যাপী LLMs গ্রহণের সাথে সাথে, সমস্ত জাতীয়তার মানুষের প্রতি অন্তর্ভুক্তিমূলক থাকার প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

१. পক্ষপাত সমস্যা: LLMs প্রান্তিক সম্প্রদায় এবং উপভাষার প্রতি পক্ষপাতী হওয়ার জন্য পরিচিত, যা অন্যায্য আচরণ এবং প্রতিনিধিত্ব ক্ষতির দিকে পরিচালিত করে २. দুর্বলতা: LLMs কাজের সাথে সম্পর্কহীন অতিরিক্ত তথ্য উপস্থিত থাকলে দুর্বল, পক্ষপাতী এবং অনিশ্চিত পারফরম্যান্স প্রদর্শন করে ३. উপভাষা পছন্দ: বিদ্যমান গবেষণা দেখায় যে এই মডেলগুলি আমেরিকান ইংরেজির দিকে পক্ষপাতী, যদিও বিভিন্ন ভৌগোলিক অবস্থান বিভিন্ন ইংরেজি উপভাষা ব্যবহার করে

গবেষণা প্রেরণা

উপরোক্ত সমস্যাগুলির উপর ভিত্তি করে, এই পেপারটি বক্তার পরিচয়ের প্রভাব সিস্টেমেটিকভাবে বিশ্লেষণ করার লক্ষ্য রাখে LLMs ঘৃণা বক্তৃতা শ্রেণীবিভাগে, ব্যবহারকারীর পরিচয়ের প্রভাব সম্পর্কে বিদ্যমান গবেষণায় ফাঁক পূরণ করে।

মূল অবদান

१. প্রথম সিস্টেমেটিক গবেষণা: বক্তার পরিচয়ের LLMs ঘৃণা বক্তৃতা সনাক্তকরণে প্রভাবের উপর একটি উপন্যাস গবেষণা পরিচালনা করা হয়েছে २. দ্বৈত চিহ্ন পদ্ধতি: বক্তার পরিচয় সম্পর্কে মডেলকে অবহিত করার জন্য স্পষ্ট এবং অন্তর্নিহিত চিহ্ন ব্যবহার করার একটি সিস্টেমেটিক পদ্ধতি প্রস্তাব করা হয়েছে ३. ব্যাপক পরীক্ষামূলক মূল্যায়ন: ৪টি ভাষা মডেল এবং ২টি ডেটাসেটে ব্যাপক পরীক্ষা পরিচালনা করা হয়েছে, যা বিভিন্ন সেটিংসে মডেলের দুর্বলতা প্রকাশ করে ४. গুরুত্বপূর্ণ আবিষ্কার: অন্তর্নিহিত উপভাষা চিহ্ন স্পষ্ট চিহ্নের চেয়ে আউটপুট উল্টানোর জন্য আরও সহজ, এবং উল্টানোর হার জাতিসত্তা অনুযায়ী পরিবর্তিত হয়

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: ইংরেজি বাক্য + বক্তার জাতিসত্তা পরিচয় চিহ্ন (স্পষ্ট বা অন্তর্নিহিত) আউটপুট: ঘৃণা বক্তৃতা শ্রেণীবিভাগ (ঘৃণাপূর্ণ/অ-ঘৃণাপূর্ণ) লক্ষ্য: পরিচয় চিহ্নের শ্রেণীবিভাগ ফলাফলে প্রভাবের মাত্রা বিশ্লেষণ করা

পরীক্ষামূলক ডিজাইন

१. ভাষা পরিচয় নির্বাচন

বিভিন্ন ইংরেজি উপভাষা সহ ৫টি জাতীয়তা/গোষ্ঠী নির্বাচন করা হয়েছে:

  • ভারতীয় (Indian)
  • সিঙ্গাপুরীয় (Singaporean)
  • ব্রিটিশ (British)
  • জ্যামাইকান (Jamaican)
  • আফ্রিকান-আমেরিকান (African-American)

२. চিহ্ন প্রবেশ পদ্ধতি

স্পষ্ট চিহ্ন (Explicit Marker): প্রম্পটে সরাসরি ভাষা পরিচয় উল্লেখ করা

উদাহরণ: The [ethnicity] person said, "[input]"

অন্তর্নিহিত চিহ্ন (Implicit Marker): উপভাষা বৈশিষ্ট্য প্রবেশ করিয়ে বক্তার পরিচয় অন্তর্নিহিতভাবে নির্দেশ করা, যার মধ্যে রয়েছে:

  • নির্দিষ্ট স্থানীয় শব্দভাণ্ডার (যেমন সিঙ্গাপুরের "mah", ব্রিটিশের "mate")
  • সাংস্কৃতিক বিষয় এবং বাক্যাংশ
  • কোড মিশ্রণ ভাষা
  • আঞ্চলিক নির্দিষ্ট বানান

३. উপভাষা ডেটা প্রজন্ম

Llama-3-70B ব্যবহার করে কম-নমুনা শিক্ষার মাধ্যমে উপভাষা ডেটা তৈরি করা হয়েছে:

  • নিশ্চিত আউটপুটের জন্য তাপমাত্রা সেটিং ০
  • বিষয়বস্তু ফিল্টারিং এড়ানোর নির্দেশনা অন্তর্ভুক্ত
  • গুণমান নিশ্চিত করতে মানব যাচাইকরণ পরিচালনা করা হয়েছে

গুণমান যাচাইকরণ

উৎপন্ন উপভাষা ডেটা বহুমাত্রিক মূল্যায়নের মধ্য দিয়ে যায়: १. উপভাষা নির্ভুলতা: শব্দভাণ্ডার প্রদত্ত ভাষা পরিচয়ের উপভাষা সঠিকভাবে প্রতিফলিত করে কিনা २. প্রসঙ্গ সংরক্ষণ: মূল অর্থ এবং উপভাষা সংরক্ষিত থাকে কিনা ३. প্রবাহিততা এবং ব্যাকরণ: উৎপন্ন পাঠ প্রবাহিত এবং ব্যাকরণগতভাবে সঠিক কিনা ४. ল্যাটিন লিপি ব্যবহার: উৎপন্ন বাক্য ইংরেজি লিপি ব্যবহার করে কিনা

মানব মূল্যায়ন ফলাফল গড় উপভাষা নির্ভুলতা ৪/৫ স্কোর দেখায়, কম বৈচিত্র্য সহ, যা উচ্চ উৎপাদন গুণমান নির্দেশ করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. MPBHSD: টুইটার, ৪চ্যান এবং রেডিট থেকে, ৬০০টি ঘৃণা বক্তৃতা এবং ২৪০০টি অ-ঘৃণা বক্তৃতা অন্তর্ভুক্ত २. HateXplain: টুইটার এবং গ্যাব থেকে, ৩০০০টি বাক্য নমুনা, ২০৯৪টি ঘৃণা বক্তৃতা এবং ৯০৬টি অ-ঘৃণা বক্তৃতা সহ

মডেল

  • LLMs: Llama-3-8B, Llama-3-70B, GPT-4o
  • ঐতিহ্যবাহী মডেল: HateXplain ডেটাসেটে সূক্ষ্ম-সুর করা BERT মডেল
  • প্রম্পট কৌশল: শূন্য-নমুনা শ্রেণীবিভাগ এবং প্রসঙ্গ শিক্ষা (ICL)

মূল্যায়ন মেট্রিক্স

  • প্রধান মেট্রিক: মডেল আউটপুট উল্টানোর শতাংশ
  • উল্টানোর প্রকার:
    • NH→H: অ-ঘৃণা থেকে ঘৃণায় রূপান্তর (মিথ্যা ইতিবাচক হার)
    • H→NH: ঘৃণা থেকে অ-ঘৃণায় রূপান্তর (মিথ্যা নেতিবাচক হার)

পরীক্ষামূলক ফলাফল

মৌলিক পারফরম্যান্স

পরিচয় চিহ্ন ছাড়াই, মডেলগুলি ভালভাবে পারফর্ম করে:

  • MPBHSD ডেটাসেট: ৯০% পর্যন্ত নির্ভুলতা
  • HateXplain ডেটাসেট: ৮০% নির্ভুলতা

প্রধান আবিষ্কার

१. চিহ্ন প্রকার প্রভাব

  • অন্তর্নিহিত চিহ্ন স্পষ্ট চিহ্নের চেয়ে মডেল আউটপুট উল্টানোর জন্য আরও সহজ
  • Llama-3-8B ছাড়া সমস্ত মডেলে অন্তর্নিহিত চিহ্নের অধীনে উল্টানোর হার উল্লেখযোগ্যভাবে বেশি (p < 0.05)

२. মডেল আকার প্রভাব

  • বৃহত্তর এবং আরও আপডেট মডেল (যেমন Llama-3-70B এবং GPT-4o) আরও স্থিতিস্থাপক পারফরম্যান্স প্রদর্শন করে
  • উল্টানোর শতাংশ কম, পারফরম্যান্স আরও স্থিতিশীল

३. প্রম্পট কৌশল প্রভাব

  • প্রসঙ্গ শিক্ষা (ICL) সাধারণত শূন্য-নমুনা শিক্ষার চেয়ে কম উল্টানোর হার উৎপাদন করে
  • উদাহরণ প্রদান আরও স্থিতিশীল এবং সামঞ্জস্যপূর্ণ মডেল আউটপুট নিয়ে আসতে পারে

४. জাতিসত্তা পার্থক্য

বিভিন্ন জাতিসত্তা পরিচয়ের উল্টানোর হারে উল্লেখযোগ্য পার্থক্য রয়েছে:

  • বৃহত্তর মডেলে, ব্রিটিশ এবং আফ্রিকান-আমেরিকান উপভাষা ডেটা উচ্চতর H→NH উল্টানোর হার দেখায়
  • McNemar পরীক্ষা সমস্ত মডেলে বক্তার পরিচয় শ্রেণীবিভাগ ফলাফলে উল্লেখযোগ্য প্রভাব দেখায় (p < 0.05)

५. মূল লেবেল প্রভাব

  • অ-ঘৃণা (NH) পূর্বাভাস সাধারণত বিভিন্ন মডেল এবং বক্তার পরিচয় জুড়ে অ-ঘৃণা বজায় রাখে
  • ঘৃণা (H) পূর্বাভাস অ-ঘৃণায় রূপান্তরিত হওয়ার জন্য আরও সহজ, মিথ্যা নেতিবাচক হার বৃদ্ধি করে

६. লক্ষ্য গোষ্ঠী বিশ্লেষণ

  • HateXplain-BERT ধর্মীয় গোষ্ঠী লক্ষ্যে নির্দিষ্ট উপভাষা আরও বেশি উল্টায়
  • GPT-4o যৌন অভিযোজন সম্পর্কিত লক্ষ্যে সমস্ত উপভাষা জুড়ে উল্টায়

বিশেষ কেস: Llama-3-8B

এই মডেল অস্বাভাবিকভাবে উচ্চ উল্টানোর হার প্রদর্শন করে:

  • MPBHSD ডেটাসেট ICL ভেরিয়েন্ট প্রায় ৪০% উল্টানোর হার
  • প্রায়শই বিদ্রূপের স্পষ্ট এবং অন্তর্নিহিত সংকেত সনাক্ত করতে ব্যর্থ হয়
  • নেতিবাচক ফ্রেমওয়ার্কে অতিরিক্ত প্রতিক্রিয়া করে
  • ছোট ইনপুটে আরও ঘন ঘন ভুল শ্রেণীবিভাগ করে

বিলোপন পরীক্ষা

ভাষা পরিচয় সনাক্তকরণ নির্ভুলতা

GPT-4o মূল্যায়নকারী ব্যবহার করে উপভাষা সনাক্ত করার মডেলের ক্ষমতা পরীক্ষা করা হয়েছে:

  • আফ্রিকান-আমেরিকান: ৯৬.३%
  • ব্রিটিশ: ৯९.८%
  • ভারতীয়: १००%
  • সিঙ্গাপুরীয়: ९९.८%
  • জ্যামাইকান: १००%

উচ্চ সনাক্তকরণ নির্ভুলতা উপভাষা বৈশিষ্ট্যের কার্যকারিতা প্রমাণ করে।

সিন্থেটিক সংশোধন তুলনা

অন্যান্য সিন্থেটিক সংশোধনের উল্টানোর হারে প্রভাব পরীক্ষা করা হয়েছে (পুনর্লিখন, ভয়েস পরিবর্তন, দৈর্ঘ্য সীমাবদ্ধতা):

  • পুনর্লিখন: H→NH ০.१७%, NH→H ०.०%
  • ভয়েস পরিবর্তন: H→NH ०.०८%, NH→H ०.०२%
  • দৈর্ঘ্য সীমাবদ্ধতা: H→NH ०.१६%, NH→H ०.०१%

এই সংশোধনগুলির উল্টানোর হার উপভাষা প্রবেশের চেয়ে অনেক কম, পরিচয় চিহ্নের বিশেষ প্রভাব প্রমাণ করে।

সম্পর্কিত কাজ

প্রধান গবেষণা দিকনির্দেশনা

१. LLM পক্ষপাত গবেষণা: বিস্তৃত সাহিত্য প্রান্তিক সম্প্রদায় এবং উপভাষার প্রতি পক্ষপাত নথিভুক্ত করে २. ঘৃণা বক্তৃতা সনাক্তকরণ: ঐতিহ্যবাহী পদ্ধতি প্রধানত বিষয়বস্তুতে ফোকাস করে, বক্তার পরিচয় কম বিবেচনা করে ३. ক্রস-সাংস্কৃতিক NLP: বিভিন্ন সাংস্কৃতিক পটভূমিতে ভাষা প্রক্রিয়াকরণ পার্থক্য গবেষণা করে ४. উপভাষা প্রক্রিয়াকরণ: NLP কাজে বিভিন্ন ইংরেজি উপভাষার পারফরম্যান্সে ফোকাস করে

এই পেপারের উদ্ভাবন

  • বক্তার পরিচয়ের ঘৃণা বক্তৃতা শ্রেণীবিভাগে প্রভাবের প্রথম সিস্টেমেটিক গবেষণা
  • স্পষ্ট এবং অন্তর্নিহিত চিহ্নের দ্বৈত পদ্ধতি প্রস্তাব করে
  • একাধিক মডেল এবং ডেটাসেট জুড়ে ব্যাপক মূল্যায়ন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. দুর্বলতা সর্বজনীন: পরীক্ষিত সমস্ত LLMs বক্তার পরিচয় চিহ্ন প্রবেশের পরে বিভিন্ন মাত্রার দুর্বলতা প্রদর্শন করে २. অন্তর্নিহিত প্রভাব বৃহত্তর: উপভাষা বৈশিষ্ট্য স্পষ্ট পরিচয় উল্লেখের চেয়ে মডেলে আরও বেশি প্রভাব ফেলে ३. স্কেল স্থিতিস্থাপকতা বৃদ্ধি করে: বৃহত্তর মডেলগুলি আরও স্থিতিস্থাপক পারফরম্যান্স প্রদর্শন করে, তবে পক্ষপাত এখনও বিদ্যমান ४. জাতিসত্তা পার্থক্য উল্লেখযোগ্য: বিভিন্ন জাতিসত্তা পরিচয় উল্টানোর হারে উল্লেখযোগ্য পার্থক্য সৃষ্টি করে ५. মিথ্যা নেতিবাচক ঝুঁকি: মডেলগুলি ঘৃণা বক্তৃতা অ-ঘৃণায় ভুল শ্রেণীবিভাগ করার প্রবণতা রাখে, যা ক্ষতিকারক বিষয়বস্তু সনাক্ত না করার দিকে পরিচালিত করতে পারে

সীমাবদ্ধতা

१. উপভাষা ডেটা সীমাবদ্ধতা: বিভিন্ন উপভাষায় মানব-মন্তব্যকৃত ঘৃণা বক্তৃতা ডেটার অভাব २. মডেল পরিসীমা সীমিত: গণনা সম্পদ সীমাবদ্ধতার কারণে Claude এর মতো আরও "নিরাপদ" মডেল পরীক্ষা করতে অক্ষম ३. ডেটাসেট সীমাবদ্ধতা: শুধুমাত্র ইংরেজি মিশ্রিত উপভাষা ডেটাসেটে সীমাবদ্ধ ४. সিন্থেটিক ডেটা পক্ষপাত: উৎপন্ন উপভাষা ডেটা অজানা লেখক পক্ষপাত অন্তর্ভুক্ত করতে পারে

ভবিষ্যত দিকনির্দেশনা

१. বহুভাষিক সম্প্রসারণ: বহুভাষিক ডেটাসেট এবং অন্যান্য ঘৃণা বক্তৃতা ডেটাসেটে সম্প্রসারণ २. ব্যাখ্যাযোগ্যতা গবেষণা: আরও ব্যাখ্যাযোগ্যতা গবেষণা পরিচালনা করে নির্দিষ্ট বাক্যাংশের মডেল পূর্বাভাস প্যাটার্নে সুনির্দিষ্ট প্রভাব মূল্যায়ন করা ३. প্রশমন কৌশল: পরিচয় পক্ষপাত হ্রাস করার পদ্ধতি এবং প্রযুক্তি বিকাশ করা ४. বৃহত্তর স্কেল মূল্যায়ন: আরও মডেল এবং বৃহত্তর ডেটাসেটে মূল্যায়ন পরিচালনা করা

গভীর মূল্যায়ন

শক্তি

१. সমস্যার গুরুত্ব: AI নৈতিকতা এবং ন্যায্যতা ক্ষেত্রে একটি গুরুত্বপূর্ণ সমস্যা অধ্যয়ন করেছে २. পদ্ধতি উদ্ভাবন: স্পষ্ট এবং অন্তর্নিহিত চিহ্নের সিস্টেমেটিক পদ্ধতি প্রস্তাব করেছে ३. ব্যাপক পরীক্ষা: একাধিক মডেল, ডেটাসেট এবং জাতিসত্তা পরিচয় জুড়ে ব্যাপক মূল্যায়ন ४. বিশ্বাসযোগ্য ফলাফল: পরিসংখ্যানগত পরীক্ষার মাধ্যমে ফলাফলের তাৎপর্য যাচাই করা হয়েছে ५. ব্যবহারিক মূল্য: উচ্চ-ঝুঁকির কাজে LLMs স্থাপনের জন্য গুরুত্বপূর্ণ সতর্কতা প্রদান করে

অপূর্ণতা

१. কারণ সম্পর্ক: যদিও উল্টানো ঘটনা পর্যবেক্ষণ করা হয়েছে, নির্দিষ্ট কারণ প্রক্রিয়ার গভীর বিশ্লেষণের অভাব २. প্রশমন সমাধান: প্রধানত সমস্যা নির্দেশ করে, কিন্তু নির্দিষ্ট সমাধান প্রদান করে না ३. মূল্যায়ন সীমাবদ্ধতা: মানব মূল্যায়ন নমুনা তুলনামূলকভাবে ছোট (প্রতিটি উপভাষায় ৫০টি নমুনা) ४. উপভাষা প্রতিনিধিত্ব: নির্বাচিত উপভাষা প্রতিটি অঞ্চলের মাইক্রো-উপভাষা এবং সম্প্রদায়কে সম্পূর্ণভাবে প্রতিনিধিত্ব করতে পারে না

প্রভাব

१. একাডেমিক অবদান: LLM ন্যায্যতা গবেষণায় নতুন দৃষ্টিভঙ্গি এবং পদ্ধতি প্রদান করে २. ব্যবহারিক তাৎপর্য: বিষয়বস্তু পর্যালোচনা সিস্টেমের ডিজাইন এবং স্থাপনায় গুরুত্বপূর্ণ নির্দেশনা ३. নীতি প্রভাব: AI সিস্টেমের নিয়ন্ত্রণ এবং মান নির্ধারণকে প্রভাবিত করতে পারে ४. পরবর্তী গবেষণা: সম্পর্কিত ক্ষেত্রে পরবর্তী গবেষণার ভিত্তি স্থাপন করে

প্রযোজ্য দৃশ্যকল্প

१. বিষয়বস্তু পর্যালোচনা সিস্টেম: সোশ্যাল মিডিয়া প্ল্যাটফর্মের ঘৃণা বক্তৃতা সনাক্তকরণ সিস্টেম २. AI নৈতিকতা মূল্যায়ন: LLM ন্যায্যতা এবং পক্ষপাত মূল্যায়ন ३. বহু-সাংস্কৃতিক AI সিস্টেম: বৈশ্বিক ব্যবহারকারীদের জন্য AI প্রয়োগ ४. নিয়ন্ত্রক সম্মতি: AI সিস্টেমের ন্যায্যতা অডিট এবং সম্মতি পরীক্ষা

সংদর্ভ

পেপারটি একাধিক গুরুত্বপূর্ণ গবেষণা উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Sap et al. (2019): ঘৃণা বক্তৃতা সনাক্তকরণে জাতিসত্তা পক্ষপাত ঝুঁকি
  • Field et al. (2021, 2023): NLP-তে জাতিবাদ অনুসন্ধান
  • Harris et al. (2022): ঘৃণা বক্তৃতা শ্রেণীবিভাগে আফ্রিকান-আমেরিকান ইংরেজি পক্ষপাত
  • Ribeiro et al. (2020): NLP মডেলের আচরণ পরীক্ষার ফ্রেমওয়ার্ক CheckList

সামগ্রিক মূল্যায়ন: এটি AI নৈতিকতা এবং ন্যায্যতা ক্ষেত্রে উল্লেখযোগ্য গুরুত্বের একটি গবেষণা পেপার। সিস্টেমেটিক পরীক্ষামূলক ডিজাইন এবং ব্যাপক মূল্যায়নের মাধ্যমে, এটি ঘৃণা বক্তৃতা সনাক্তকরণ কাজে LLMs-এ বিদ্যমান পরিচয় পক্ষপাত সমস্যা প্রকাশ করে। যদিও সমাধান দিকে আরও শক্তিশালী হওয়ার প্রয়োজন, তবে এটি ক্ষেত্রের গবেষণা এবং অনুশীলনের জন্য মূল্যবান অন্তর্দৃষ্টি এবং সতর্কতা প্রদান করে।