Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.
- পেপার আইডি: 2508.21164
- শিরোনাম: বড় ভাষা মডেলের স্ব- এবং ক্রস-মূল্যায়নে লেবেল-প্ররোচিত পক্ষপাত পরিমাপ করা
- লেখক: মুস্কান সারাফ, সাজ্জাদ রেজভানি বোরুজেনি, জাস্টিন বিউড্রি, হোসেইন আবেদি, টম বুশ
- শ্রেণীবিভাগ: cs.CL, cs.AI
- প্রকাশনার সময়: ২০২৫ সালের ৯ অক্টোবর (arXiv v3)
- পেপার লিংক: https://arxiv.org/abs/2508.21164v3
এই গবেষণা তিনটি প্রধান বড় ভাষা মডেল (ChatGPT, Gemini এবং Claude) এর স্ব-মূল্যায়ন এবং ক্রস-মূল্যায়নে সিস্টেমেটিক পক্ষপাত তদন্ত করে। গবেষণা একটি নিয়ন্ত্রিত পরীক্ষা ডিজাইন করেছে যেখানে প্রতিটি মডেল চারটি লেবেল শর্তে (কোন লেবেল নেই, সত্য লেবেল, দুটি মিথ্যা লেবেল পরিস্থিতি) বিভিন্ন মডেল দ্বারা উৎপাদিত ব্লগ নিবন্ধ মূল্যায়ন করে। মূল্যায়ন সামগ্রিক পছন্দের ভোট এবং তিনটি মাত্রা (সুসংগততা, তথ্যপূর্ণতা, সংক্ষিপ্ততা) জুড়ে সূক্ষ্ম-দানাদার গুণমান স্কোর ব্যবহার করে, সমস্ত স্কোর সরাসরি তুলনার জন্য শতাংশে স্বাভাবিক করা হয়। গবেষণা মডেল বিচারে উল্লেখযোগ্য অপ্রতিসমতা খুঁজে পায়: "Claude" লেবেল প্রকৃত লেখক যাই হোক না কেন স্কোর বৃদ্ধি করে, যখন "Gemini" লেবেল সিস্টেমেটিকভাবে স্কোর হ্রাস করে। মিথ্যা লেবেল প্রায়শই পছন্দের ক্রম বিপরীত করে, ভোটের ফলাফলে ৫০ শতাংশ পয়েন্ট পর্যন্ত পরিবর্তন এবং গুণমান স্কোরে ১২ শতাংশ পয়েন্ট পর্যন্ত পরিবর্তন তৈরি করে।
বড় ভাষা মডেলগুলি ক্রমবর্ধমানভাবে পাঠ্য গুণমান মূল্যায়ন সরঞ্জাম হিসাবে স্থাপন করা হচ্ছে, তাদের বিচারের বৈধতা এখনও পর্যাপ্তভাবে অন্বেষণ করা হয়নি। এই গবেষণা প্রধানত নিম্নলিখিত সমস্যাগুলি সমাধান করে:
- LLM মূল্যায়ন পক্ষপাত সমস্যা: LLM কি আউটপুট ন্যায্যভাবে মূল্যায়ন করতে পারে, নাকি অনুভূত লেখক পরিচয় দ্বারা প্রভাবিত হয়?
- লেবেল-প্ররোচিত পক্ষপাত: মডেলের নাম কি মূল্যায়নের ফলাফল প্রভাবিত করে, প্রকৃত গুণমান নির্বিশেষে?
- স্ব-পছন্দ পক্ষপাত: মডেলগুলি কি তাদের নিজস্ব আউটপুটকে উচ্চতর স্কোর দিতে প্রবণ?
এই সমস্যার গুরুত্ব নিম্নে প্রতিফলিত হয়:
- স্বয়ংক্রিয় পাঠ্য মূল্যায়নে LLM-as-judge প্যারাডাইম ক্রমবর্ধমান জনপ্রিয়
- মূল্যায়ন পক্ষপাত বেঞ্চমার্ক পরীক্ষার ফলাফল বিকৃত করতে পারে
- মডেল তুলনা এবং নির্বাচনের ন্যায্যতা প্রভাবিত করে
- AI সিস্টেমের নির্ভরযোগ্যতা এবং স্বচ্ছতার জন্য চ্যালেঞ্জ তৈরি করে
বিদ্যমান গবেষণা প্রধানত একক ধরনের পক্ষপাত বা সীমিত সংখ্যক মডেলের উপর দৃষ্টি নিবদ্ধ করে, যা অভাব রয়েছে:
- বহু-মডেল, বহু-শর্ত নিয়ন্ত্রিত তুলনামূলক বিশ্লেষণ
- পছন্দ এবং গুণমান মাত্রা জুড়ে লেবেল প্রভাব তুলনা করার জন্য পরিমাণগত প্রমাণ
- সিস্টেমেটিক পক্ষপাত প্রশমন সুপারিশ
- নিয়ন্ত্রিত বহু-শর্ত বিশ্লেষণ: স্ব- এবং ক্রস-মডেল মূল্যায়ন পক্ষপাতের জন্য নিয়ন্ত্রিত, বহু-শর্ত বিশ্লেষণ কাঠামো প্রদান করে
- পরিমাণগত পক্ষপাত প্রমাণ: পছন্দ এবং গুণমান মাত্রা জুড়ে লেবেল প্রভাব তুলনা করার জন্য পরিমাণগত প্রমাণ প্রদান করে
- পক্ষপাত প্রশমন সুপারিশ: অন্ধ পর্যালোচনা বা বহু-মডেল মূল্যায়ন প্রোটোকলের মাধ্যমে পক্ষপাত প্রশমনের জন্য সুপারিশ প্রদান করে
- দ্বৈত স্কোরিং পদ্ধতি: শতাংশ পছন্দ স্কোর এবং পয়েন্ট-ভিত্তিক গুণমান স্কোর দুটি পরিপূরক পদ্ধতি ব্যবহার করে
- লেবেল অপ্রতিসমতা আবিষ্কার: "Claude" লেবেল ধারাবাহিকভাবে স্কোর বৃদ্ধি করে, "Gemini" লেবেল সিস্টেমেটিকভাবে স্কোর হ্রাস করে
এই গবেষণা তিন-পর্যায়ের নিয়ন্ত্রিত বহু-মডেল, বহু-শর্ত ডিজাইন ব্যবহার করে:
- মডেল: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
- কাজ: স্থির প্রম্পট টেমপ্লেট ব্যবহার করে প্রায় ২০০ শব্দের ব্লগ নিবন্ধ তৈরি করা
- প্রম্পট টেমপ্লেট: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
- ডেটা: ১০টি বিভিন্ন বিষয়ের শিরোনাম, প্রতিটি মডেল প্রতিটি শিরোনামের জন্য একটি ব্লগ তৈরি করে, মোট ৩০টি ব্লগ
চারটি লেবেল শর্ত:
- কোন লেবেল নেই: কোন লেখক অ্যাট্রিবিউশন নেই
- সত্য লেবেল: সঠিক অ্যাট্রিবিউশন
- মিথ্যা লেবেল পরিস্থিতি ১: ChatGPT কে Gemini হিসাবে চিহ্নিত করা, Gemini কে Claude হিসাবে, Claude কে ChatGPT হিসাবে
- মিথ্যা লেবেল পরিস্থিতি ২: ChatGPT কে Claude হিসাবে চিহ্নিত করা, Gemini কে ChatGPT হিসাবে, Claude কে Gemini হিসাবে
- শতাংশ পছন্দ স্কোর: প্রতিটি আউটপুট "সেরা" হিসাবে নির্বাচিত হওয়ার ফ্রিকোয়েন্সি পরিমাপ করে
- পয়েন্ট-ভিত্তিক গুণমান স্কোর: সুসংগততা, তথ্যপূর্ণতা, সংক্ষিপ্ততা তিনটি মাত্রায় ০-১০ স্কোর, শতাংশে রূপান্তরিত
- শর্ত-মধ্যে বিশ্লেষণ: শর্ত-মধ্যে তুলনা
- ক্রস-শর্ত বিশ্লেষণ: ক্রস-শর্ত পরিবর্তন ট্র্যাক করা
- মেট্রিক-নির্দিষ্ট বিশ্লেষণ: প্রতিটি মান জুড়ে পক্ষপাতের প্রভাব পরীক্ষা করা
- স্কেল: ৩০টি ব্লগ নিবন্ধ (৩টি মডেল × ১০টি শিরোনাম)
- বিষয়: বৈচিত্র্যময় বিষয় জুড়ে, অনুরূপ জটিলতা
- দৈর্ঘ্য: প্রায় ২০০ শব্দ, অনলাইন দর্শকদের জন্য উপযুক্ত
- সামগ্রিক পছন্দ ভোট: শতাংশ ফর্ম্যাটে "সেরা পছন্দ" ফ্রিকোয়েন্সি
- গুণমান মাত্রা স্কোর:
- সুসংগততা (Coherence): নিবন্ধের যুক্তিসঙ্গত কাঠামো এবং প্রবাহ
- তথ্যপূর্ণতা (Informativeness): বিষয়বস্তুর তথ্য মূল্য এবং গভীরতা
- সংক্ষিপ্ততা (Conciseness): অভিব্যক্তির দক্ষতা এবং পরিশোধন
- কোন লেবেল শর্ত বেসলাইন হিসাবে
- সত্য লেবেল শর্ত
- দুটি মিথ্যা লেবেল পরিস্থিতি
- সমস্ত তিনটি মডেল হালকা স্ব-পছন্দ প্রদর্শন করে
- ChatGPT নিজের আউটপুট নির্বাচন করার ফ্রিকোয়েন্সি: ৫০%
- Gemini: ৪৫.৩%
- Claude: ৪৬.৭%
- Gemini ক্রস-মডেল স্কোরিংয়ে ধারাবাহিকভাবে কম মূল্যায়িত হয় (৭%-১২%)
- Claude স্ব-পছন্দ বৃদ্ধি: স্ব-মূল্যায়ন স্কোর ৪৬.৭% থেকে ৬০% বৃদ্ধি পায়
- Gemini গুরুতর স্ব-অবমূল্যায়ন:
- Claude থেকে স্কোর: ০%
- ChatGPT থেকে স্কোর: ১.৩৪%
- স্ব-মূল্যায়ন: ১১.৩২%
- ChatGPT মধ্যম স্ব-পছন্দ: ৪৪.৬৬%, কিন্তু Gemini কে গুরুতরভাবে শাস্তি দেয়
পরিস্থিতি ১ ফলাফল:
- Claude হিসাবে চিহ্নিত বিষয়বস্তুর জন্য Gemini পছন্দ ১১.৩২% থেকে ৫১.৩৫% বৃদ্ধি পায়
- ChatGPT হিসাবে চিহ্নিত বিষয়বস্তুর জন্য Claude পছন্দ ৫৪.১৫% এ পৌঁছায়
- মিথ্যা "নিজের" লেবেলের অধীনে তথ্যপূর্ণতা স্কোর ৮-১০ শতাংশ পয়েন্ট বৃদ্ধি পায়
পরিস্থিতি ২ ফলাফল:
- "Claude" লেবেল সর্বোচ্চ একক-আইটেম স্কোর তৈরি করে: Gemini ChatGPT-as-Claude কে ৬০.৭% দেয়
- "Gemini" লেবেল আবার স্কোর হ্রাস করে: Claude-as-Gemini সত্য লেবেলের অধীনে ৬০% থেকে ১৮.৪৮% এ হ্রাস পায়
- পছন্দ ভোট পরিবর্তন: ৫০ শতাংশ পয়েন্ট পর্যন্ত ওঠানামা
- গুণমান স্কোর পরিবর্তন: ১২ শতাংশ পয়েন্ট পর্যন্ত পরিবর্তন
- সবচেয়ে সংবেদনশীল মাত্রা: লেবেলের প্রতি তথ্যপূর্ণতা স্কোর সবচেয়ে সংবেদনশীল
- সবচেয়ে স্থিতিশীল মাত্রা: সংক্ষিপ্ততা স্কোর তুলনামূলকভাবে স্থিতিশীল
- Claude: সত্য লেবেলের অধীনে শক্তিশালী স্ব-পছন্দ (+১৩ পয়েন্ট), Gemini হিসাবে ভুলভাবে চিহ্নিত হলে গুরুতর শাস্তি (-২৮ পয়েন্ট)
- Gemini: সত্য লেবেলের অধীনে কঠোর স্ব-মূল্যায়ন, কিন্তু "Claude" লেবেল বিষয়বস্তুতে উল্লেখযোগ্য বোনাস (+২১ পয়েন্ট পর্যন্ত)
- ChatGPT: ক্রস-শর্ত জুড়ে Gemini লেবেল বিষয়বস্তু ধারাবাহিকভাবে শাস্তি দেয়
- Panickssery এবং অন্যরা প্রমাণ করেন যে LLM তাদের নিজস্ব আউটপুট পছন্দ করে, পরিমাপযোগ্য স্ব-স্বীকৃতি ক্ষমতা সহ
- Wataoka এবং অন্যরা LLM-as-judge এ স্ব-পছন্দ পক্ষপাত অধ্যয়ন করেন
- Wang এবং অন্যরা প্রমাণ করেন যে প্রতিক্রিয়া অবস্থানের উপর ভিত্তি করে সিস্টেমেটিক পক্ষপাত র্যাঙ্কিং ম্যানিপুলেট করতে পারে
- Chen এবং অন্যরা তদন্ত করেন স্ব-পছন্দ প্রকৃত উচ্চতর বা সংকেত পক্ষপাত প্রতিফলিত করে কিনা
- অন্তর্নিহিত এবং স্পষ্ট মূল্যায়ন গতিশীলতার মধ্যে অসামঞ্জস্য
- গভীর শেখার সিস্টেমে কাঠামোগত পক্ষপাত সমস্যা
- লেবেল পরিচয় বিষয়বস্তু গুণমানের চেয়ে শক্তিশালী: অনুভূত মডেল পরিচয় প্রকৃত বিষয়বস্তু গুণমান নির্বিশেষে বিচার উল্লেখযোগ্যভাবে বিকৃত করতে পারে
- অপ্রতিসম লেবেল প্রভাব: "Claude" লেবেল ধারাবাহিকভাবে স্কোর বৃদ্ধি করে, "Gemini" লেবেল সিস্টেমেটিকভাবে স্কোর হ্রাস করে
- মূল্যায়ন স্তর পার্থক্য: উচ্চ-স্তরের "সেরা পছন্দ" বিচার বিস্তারিত গুণমান মূল্যায়নের চেয়ে পক্ষপাতের জন্য আরও সংবেদনশীল
- মাত্রা সংবেদনশীলতা পার্থক্য: তথ্যপূর্ণতা লেবেল প্রভাবের জন্য সবচেয়ে সংবেদনশীল মাত্রা, সংক্ষিপ্ততা তুলনামূলকভাবে স্থিতিশীল
- মডেল পরিসীমা সীমাবদ্ধতা: শুধুমাত্র তিনটি মডেল অধ্যয়ন, সাধারণীকরণ যাচাইকরণের অপেক্ষায়
- কাজের ডোমেইন একক: শুধুমাত্র ব্লগ লেখার কাজ ব্যবহার করা
- মূল্যায়ন মাত্রা সীমিত: শুধুমাত্র তিনটি গুণমান মাত্রা বিবেচনা করা
- পক্ষপাত উৎস অস্পষ্ট: প্রশিক্ষণ ডেটা বা সারিবদ্ধকরণ প্রোগ্রাম থেকে পক্ষপাতের উৎস গভীরভাবে অন্বেষণ করা হয়নি
- অন্ধ পর্যালোচনা প্রোটোকল: মডেল নামের উপর ভিত্তি করে অ্যাঙ্করিং প্রতিরোধ করতে মডেল পরিচয় লুকান
- বহু-মডেল সম্মতি: বহু-মডেল বা সম্মতি-ভিত্তিক মূল্যায়ন সিস্টেম ব্যবহার করুন
- মূল্যায়ন ধরন বিভাজন: পছন্দ বিচার বিস্তারিত গুণমান স্কোর থেকে আলাদা করুন
- পক্ষপাত-সচেতন সমন্বয়: পক্ষপাত-সচেতন স্কোরিং সমন্বয় প্রক্রিয়া বিকাশ করুন
- কঠোর পরীক্ষামূলক ডিজাইন: নিয়ন্ত্রিত বহু-শর্ত, বহু-মডেল ডিজাইন ফলাফলের নির্ভরযোগ্যতা নিশ্চিত করে
- পদ্ধতি উদ্ভাবন: দ্বৈত স্কোরিং সিস্টেম (পছন্দ + গুণমান) ব্যাপক দৃষ্টিভঙ্গি প্রদান করে
- আবিষ্কারের তাৎপর্য: LLM মূল্যায়নে সিস্টেমেটিক পক্ষপাত প্রকাশ করে, AI মূল্যায়ন ক্ষেত্রে গুরুত্বপূর্ণ প্রভাব রয়েছে
- পর্যাপ্ত পরিমাণগত বিশ্লেষণ: বিস্তারিত সংখ্যাগত প্রমাণ এবং পরিসংখ্যানগত বিশ্লেষণ প্রদান করে
- উচ্চ ব্যবহারিক মূল্য: LLM মূল্যায়ন উন্নত করার জন্য নির্দিষ্ট সুপারিশ প্রদান করে
- সীমিত নমুনা আকার: ৩০টি ব্লগ নিবন্ধের নমুনা আকার তুলনামূলকভাবে ছোট
- কাজের একক: শুধুমাত্র ব্লগ লেখায় সীমাবদ্ধ, কাজের বৈচিত্র্য যাচাইকরণের অভাব
- পক্ষপাত প্রক্রিয়া অস্পষ্ট: অপ্রতিসম পক্ষপাত সৃষ্টির মূল কারণ গভীরভাবে অন্বেষণ করা হয়নি
- দীর্ঘমেয়াদী প্রভাব অজানা: সময়ের সাথে পক্ষপাত প্যাটার্নের পরিবর্তন বিবেচনা করা হয়নি
- একাডেমিক অবদান: LLM মূল্যায়ন পক্ষপাত গবেষণায় গুরুত্বপূর্ণ অভিজ্ঞতামূলক প্রমাণ প্রদান করে
- ব্যবহারিক মূল্য: LLM বেঞ্চমার্ক এবং মূল্যায়ন প্রোটোকল ডিজাইনকে সরাসরি প্রভাবিত করে
- নীতি তাৎপর্য: AI সিস্টেম ন্যায্যতা এবং স্বচ্ছতা নীতির জন্য বৈজ্ঞানিক ভিত্তি প্রদান করে
- পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা স্পষ্ট, পুনরুৎপাদন এবং সম্প্রসারণ সহজ করে
- LLM বেঞ্চমার্কিং: বিদ্যমান মূল্যায়ন কাঠামোর ন্যায্যতা উন্নত করা
- স্বয়ংক্রিয় মূল্যায়ন সিস্টেম: নিরপেক্ষ পাঠ্য গুণমান মূল্যায়ন সরঞ্জাম ডিজাইন করা
- মডেল তুলনা গবেষণা: মডেল কর্মক্ষমতা তুলনার উদ্দেশ্যমূলকতা নিশ্চিত করা
- AI নৈতিকতা গবেষণা: AI সিস্টেম পক্ষপাত সনাক্তকরণ এবং প্রশমনের জন্য পদ্ধতি প্রদান করা
- মডেল পরিসীমা সম্প্রসারণ: আরও ব্যাপক পক্ষপাত প্যাটার্ন গবেষণার জন্য আরও বেশি LLM অন্তর্ভুক্ত করা
- বহু-কাজ যাচাইকরণ: বিভিন্ন ধরনের কাজে লেবেল প্রভাবের সাধারণীকরণ যাচাই করা
- পক্ষপাত উৎস অন্বেষণ: প্রশিক্ষণ ডেটা, সারিবদ্ধকরণ প্রোগ্রাম পক্ষপাত গঠনে প্রভাব গভীরভাবে অধ্যয়ন করা
- প্রশমন কৌশল উন্নয়ন: আরও কার্যকর পক্ষপাত প্রশমন কৌশল ডিজাইন এবং পরীক্ষা করা
- গতিশীল পক্ষপাত গবেষণা: সময় এবং মডেল আপডেটের সাথে পক্ষপাত প্যাটার্ন পরিবর্তন অধ্যয়ন করা
সারসংক্ষেপ: এই গবেষণা কঠোর পরীক্ষামূলক ডিজাইনের মাধ্যমে LLM মূল্যায়নে বিদ্যমান গুরুতর লেবেল-প্ররোচিত পক্ষপাত প্রকাশ করে, AI মূল্যায়নের ন্যায্যতা এবং নির্ভরযোগ্যতা উন্নত করার জন্য গুরুত্বপূর্ণ বৈজ্ঞানিক ভিত্তি প্রদান করে। গবেষণার আবিষ্কার শুধুমাত্র উল্লেখযোগ্য একাডেমিক মূল্য নয়, বরং বাস্তব AI সিস্টেম স্থাপনা এবং মূল্যায়নের জন্য সরাসরি নির্দেশনামূলক তাৎপর্য রয়েছে।