2025-11-20T05:37:14.741052

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Saraf, Boroujeni, Beaudry et al.

Large language models (LLMs) are increasingly deployed as evaluators of text quality, yet the validity of their judgments remains underexplored. This study investigates systematic bias in self- and cross-model evaluations across three prominent LLMs: ChatGPT, Gemini, and Claude. We designed a controlled experiment in which blog posts authored by each model were evaluated by all three models under four labeling conditions: no attribution, true attribution, and two false-attribution scenarios. Evaluations employed both holistic preference voting and granular quality ratings across three dimensions Coherence, Informativeness, and Conciseness with all scores normalized to percentages for direct comparison. Our findings reveal pronounced asymmetries in model judgments: the "Claude" label consistently elevated scores regardless of actual authorship, while the "Gemini" label systematically depressed them. False attribution frequently reversed preference rankings, producing shifts of up to 50 percentage points in voting outcomes and up to 12 percentage points in quality ratings. Notably, Gemini exhibited severe self-deprecation under true labels, while Claude demonstrated intensified self-preference. These results demonstrate that perceived model identity can substantially distort both high-level judgments and fine-grained quality assessments, independent of content quality. Our findings challenge the reliability of LLM-as-judge paradigms and underscore the critical need for blind evaluation protocols and diverse multi-model validation frameworks to ensure fairness and validity in automated text evaluation and LLM benchmarking.

academic

बड़े भाषा मॉडल के स्व- और क्रॉस-मूल्यांकन में लेबल-प्रेरित पूर्वाग्रह का परिमाणीकरण

बुनियादी जानकारी

पेपर ID: 2508.21164
शीर्षक: बड़े भाषा मॉडल के स्व- और क्रॉस-मूल्यांकन में लेबल-प्रेरित पूर्वाग्रह का परिमाणीकरण
लेखक: मुस्कान सराफ, साजाद रेज़वानी बोरूजेनी, जस्टिन बॉड्री, होसेन अबेदी, टॉम बुश
वर्गीकरण: cs.CL, cs.AI
प्रकाशन समय: 9 अक्टूबर 2025 (arXiv v3)
पेपर लिंक: https://arxiv.org/abs/2508.21164v3

सारांश

यह अनुसंधान तीन प्रमुख बड़े भाषा मॉडल (ChatGPT, Gemini और Claude) में स्व-मूल्यांकन और क्रॉस-मूल्यांकन में व्यवस्थित पूर्वाग्रहों की जांच करता है। अनुसंधान ने एक नियंत्रित प्रयोग डिज़ाइन किया जहाँ प्रत्येक मॉडल चार लेबल स्थितियों के तहत (बिना लेबल, वास्तविक लेबल, दो नकली लेबल परिदृश्य) विभिन्न मॉडल द्वारा उत्पन्न ब्लॉग लेख का मूल्यांकन करता है। मूल्यांकन में समग्र वरीयता मतदान और तीन आयाम (सुसंगतता, सूचनात्मकता, संक्षिप्तता) पर सूक्ष्म-दानेदार गुणवत्ता स्कोर शामिल हैं, सभी स्कोर प्रत्यक्ष तुलना के लिए प्रतिशत में सामान्यीकृत हैं। अनुसंधान मॉडल निर्णय में महत्वपूर्ण असमरूपता पाता है: "Claude" लेबल वास्तविक लेखक कौन भी हो, स्कोर को बढ़ाता है, जबकि "Gemini" लेबल व्यवस्थित रूप से स्कोर को कम करता है। नकली लेबल अक्सर वरीयता क्रम को उलट देते हैं, मतदान परिणामों में 50 प्रतिशत अंक तक और गुणवत्ता स्कोर में 12 प्रतिशत अंक तक परिवर्तन उत्पन्न करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

जैसे-जैसे बड़े भाषा मॉडल को पाठ गुणवत्ता मूल्यांकन उपकरण के रूप में तेजी से तैनात किया जा रहा है, उनके निर्णयों की वैधता अभी भी पर्याप्त रूप से अन्वेषित नहीं है। यह अनुसंधान मुख्य रूप से निम्नलिखित समस्याओं को संबोधित करता है:

LLM मूल्यांकन पूर्वाग्रह समस्या: क्या LLM आउटपुट का निष्पक्ष रूप से मूल्यांकन कर सकते हैं, या क्या वे माना जाने वाला लेखक पहचान से प्रभावित होते हैं?
लेबल-प्रेरित पूर्वाग्रह: क्या मॉडल नाम मूल्यांकन परिणामों को प्रभावित करते हैं, वास्तविक गुणवत्ता से स्वतंत्र?
स्व-वरीयता पूर्वाग्रह: क्या मॉडल अपने स्वयं के आउटपुट को उच्च स्कोर देने की प्रवृत्ति रखते हैं?

महत्व

इस समस्या का महत्व इसमें निहित है:

LLM-as-judge प्रतिमान स्वचालित पाठ मूल्यांकन में तेजी से लोकप्रिय हो रहा है
मूल्यांकन पूर्वाग्रह बेंचमार्क परिणामों को विकृत कर सकते हैं
मॉडल तुलना और चयन की निष्पक्षता को प्रभावित करता है
AI प्रणालियों की विश्वसनीयता और पारदर्शिता के लिए चुनौती उत्पन्न करता है

मौजूदा अनुसंधान की सीमाएं

मौजूदा अनुसंधान मुख्य रूप से एकल प्रकार के पूर्वाग्रह या सीमित संख्या में मॉडल पर ध्यान केंद्रित करता है, जिसमें कमी है:

बहु-मॉडल, बहु-स्थिति नियंत्रित तुलनात्मक विश्लेषण
लेबल प्रभाव को वरीयता और गुणवत्ता आयामों पर तुलना करने के लिए मात्रात्मक साक्ष्य
व्यवस्थित पूर्वाग्रह शमन सुझाव

मुख्य योगदान

नियंत्रित बहु-स्थिति विश्लेषण: स्व- और क्रॉस-मॉडल मूल्यांकन पूर्वाग्रह के लिए नियंत्रित, बहु-स्थिति विश्लेषण ढांचा प्रदान करता है
मात्रात्मक पूर्वाग्रह साक्ष्य: लेबल प्रभाव को वरीयता और गुणवत्ता आयामों पर तुलना करने के लिए मात्रात्मक साक्ष्य प्रदान करता है
पूर्वाग्रह शमन सुझाव: अंधा मूल्यांकन या बहु-मॉडल मूल्यांकन प्रोटोकॉल के माध्यम से पूर्वाग्रह को कम करने के लिए सुझाव प्रदान करता है
दोहरी स्कोरिंग विधि: प्रतिशत वरीयता स्कोरिंग और बिंदु-आधारित गुणवत्ता स्कोरिंग के दो पूरक तरीकों का उपयोग करता है
लेबल असमरूपता खोज: "Claude" लेबल सुसंगत रूप से स्कोर बढ़ाता है, "Gemini" लेबल व्यवस्थित रूप से स्कोर कम करता है

विधि विवरण

प्रयोग डिजाइन

यह अनुसंधान तीन-चरणीय नियंत्रित बहु-मॉडल, बहु-स्थिति डिजाइन अपनाता है:

चरण 1: ब्लॉग पीढ़ी

मॉडल: ChatGPT-4o, Gemini 2.5 Flash, Claude Sonnet 4
कार्य: निश्चित प्रॉम्प्ट टेम्पलेट का उपयोग करके लगभग 200 शब्दों का ब्लॉग लेख उत्पन्न करना
प्रॉम्प्ट टेम्पलेट: "You are a professional blog writer. Write a concise blog post (around 200 words) for the title ''. The style should be engaging and suitable for an online audience. Return only the blog content, no extra text."
डेटा: 10 विभिन्न विषय शीर्षक, प्रत्येक मॉडल प्रत्येक शीर्षक के लिए एक ब्लॉग उत्पन्न करता है, कुल 30 ब्लॉग

चरण 2: लेबल स्थिति सेटअप

चार लेबल स्थितियां:

बिना लेबल: कोई लेखक आरोपण नहीं
वास्तविक लेबल: सही आरोपण
नकली लेबल परिदृश्य 1: ChatGPT को Gemini के रूप में चिह्नित, Gemini को Claude के रूप में, Claude को ChatGPT के रूप में
नकली लेबल परिदृश्य 2: ChatGPT को Claude के रूप में चिह्नित, Gemini को ChatGPT के रूप में, Claude को Gemini के रूप में

चरण 3: दोहरी स्कोरिंग प्रणाली

प्रतिशत वरीयता स्कोरिंग: प्रत्येक आउटपुट को "सर्वश्रेष्ठ" के रूप में चुने जाने की आवृत्ति को मापता है
बिंदु-आधारित गुणवत्ता स्कोरिंग: सुसंगतता, सूचनात्मकता, संक्षिप्तता तीन आयामों पर 0-10 स्कोर, प्रतिशत में परिवर्तित

विश्लेषण स्तर

स्थिति-भीतर विश्लेषण: स्थिति के भीतर तुलना
क्रॉस-स्थिति विश्लेषण: स्थितियों में परिवर्तन को ट्रैक करना
मेट्रिक-विशिष्ट विश्लेषण: प्रत्येक मानदंड पर पूर्वाग्रह के प्रभाव की जांच

प्रयोग सेटअप

डेटासेट विशेषताएं

स्केल: 30 ब्लॉग लेख (3 मॉडल × 10 शीर्षक)
विषय: विविध विषयों को कवर करते हुए, समान जटिलता
लंबाई: लगभग 200 शब्द, ऑनलाइन दर्शकों के लिए उपयुक्त

मूल्यांकन मेट्रिक्स

समग्र वरीयता मतदान: "सर्वश्रेष्ठ विकल्प" आवृत्ति प्रतिशत रूप में
गुणवत्ता आयाम स्कोरिंग:
- सुसंगतता (Coherence): लेख की तार्किक संरचना और प्रवाह
- सूचनात्मकता (Informativeness): सामग्री का सूचना मूल्य और गहराई
- संक्षिप्तता (Conciseness): अभिव्यक्ति की दक्षता और परिशोधन

तुलना स्थितियां

बिना लेबल स्थिति आधारभूत के रूप में
वास्तविक लेबल स्थिति
दो नकली लेबल परिदृश्य

प्रयोग परिणाम

मुख्य निष्कर्ष

बिना लेबल स्थिति आधारभूत

सभी तीन मॉडल हल्के स्व-वरीयता प्रदर्शित करते हैं
ChatGPT अपने आउटपुट को चुनने की आवृत्ति: 50%
Gemini: 45.3%
Claude: 46.7%
Gemini को क्रॉस-मॉडल स्कोरिंग में सुसंगत रूप से कम आंका जाता है (7%-12%)

वास्तविक लेबल स्थिति में पूर्वाग्रह प्रवर्धन

Claude स्व-वरीयता वृद्धि: स्व-मूल्यांकन स्कोर 46.7% से 60% तक बढ़ता है
Gemini गंभीर स्व-अवमूल्यन:
- Claude से स्कोरिंग: 0%
- ChatGPT से स्कोरिंग: 1.34%
- स्व-स्कोरिंग: 11.32%
ChatGPT मध्यम स्व-वरीयता: 44.66%, लेकिन Gemini को गंभीर रूप से दंडित करता है

नकली लेबल का मजबूत प्रभाव

परिदृश्य 1 परिणाम:

Claude के रूप में चिह्नित सामग्री के लिए Gemini की वरीयता 11.32% से 51.35% तक बढ़ती है
Claude के रूप में चिह्नित सामग्री के लिए Claude की वरीयता 54.15% तक पहुंचती है
नकली "स्वयं" लेबल के तहत सूचनात्मकता स्कोर 8-10 प्रतिशत अंक बढ़ता है

परिदृश्य 2 परिणाम:

"Claude" लेबल उच्चतम एकल-आइटम स्कोर उत्पन्न करता है: Gemini ChatGPT-as-Claude को 60.7% देता है
"Gemini" लेबल फिर से स्कोर को कम करता है: Claude-as-Gemini वास्तविक लेबल के तहत 60% से 18.48% तक गिरता है

मात्रात्मक पूर्वाग्रह प्रभाव

वरीयता मतदान परिवर्तन: 50 प्रतिशत अंक तक का झूलना
गुणवत्ता स्कोरिंग परिवर्तन: 12 प्रतिशत अंक तक का परिवर्तन
सबसे संवेदनशील आयाम: सूचनात्मकता स्कोर लेबल के प्रति सबसे संवेदनशील है
सबसे स्थिर आयाम: संक्षिप्तता स्कोर अपेक्षाकृत स्थिर है

मॉडल-विशिष्ट व्यवहार पैटर्न

Claude: वास्तविक लेबल के तहत सबसे मजबूत स्व-वरीयता (+13 अंक), Gemini के रूप में गलत चिह्नित होने पर गंभीर दंड (-28 अंक)
Gemini: वास्तविक लेबल के तहत कठोर स्व-मूल्यांकन, लेकिन "Claude" लेबल सामग्री को बड़े अंक देता है (+21 अंक तक)
ChatGPT: स्थितियों में Gemini लेबल सामग्री को सुसंगत रूप से दंडित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

लेबल पहचान सामग्री गुणवत्ता से अधिक मजबूत है: माना जाने वाला मॉडल पहचान वास्तविक सामग्री गुणवत्ता से स्वतंत्र निर्णय को महत्वपूर्ण रूप से विकृत कर सकती है
असमरूप लेबल प्रभाव: "Claude" लेबल सुसंगत रूप से स्कोर बढ़ाता है, "Gemini" लेबल व्यवस्थित रूप से स्कोर कम करता है
मूल्यांकन स्तर अंतर: उच्च-स्तरीय "सर्वश्रेष्ठ विकल्प" निर्णय विस्तृत गुणवत्ता मूल्यांकन की तुलना में पूर्वाग्रह के लिए अधिक संवेदनशील हैं
आयाम संवेदनशीलता अंतर: सूचनात्मकता लेबल प्रभाव के लिए सबसे संवेदनशील आयाम है, संक्षिप्तता अपेक्षाकृत स्थिर है

सीमाएं

मॉडल रेंज सीमा: केवल तीन मॉडल का अध्ययन, सामान्यीकरण की पुष्टि की आवश्यकता है
कार्य डोमेन एकल: केवल ब्लॉग लेखन कार्य का उपयोग
मूल्यांकन आयाम सीमित: केवल तीन गुणवत्ता आयामों पर विचार
पूर्वाग्रह स्रोत अस्पष्ट: प्रशिक्षण डेटा या संरेखण प्रक्रिया स्रोत से पूर्वाग्रह के गहन अन्वेषण की कमी

व्यावहारिक सुझाव

अंधा मूल्यांकन प्रोटोकॉल: मॉडल नाम के आधार पर एंकरिंग को रोकने के लिए मॉडल पहचान छिपाएं
बहु-मॉडल सहमति: बहु-मॉडल या सहमति-आधारित मूल्यांकन प्रणाली का उपयोग करें
मूल्यांकन प्रकार अलग करें: वरीयता निर्णय को विस्तृत गुणवत्ता स्कोरिंग से अलग करें
पूर्वाग्रह-जागरूक समायोजन: पूर्वाग्रह-जागरूक स्कोरिंग समायोजन तंत्र विकसित करें

गहन मूल्यांकन

शक्तियां

कठोर प्रयोग डिजाइन: नियंत्रित बहु-स्थिति, बहु-मॉडल डिजाइन परिणाम विश्वसनीयता सुनिश्चित करता है
विधि नवाचार: दोहरी स्कोरिंग प्रणाली (वरीयता + गुणवत्ता) व्यापक दृष्टिकोण प्रदान करती है
महत्वपूर्ण खोज: LLM मूल्यांकन में व्यवस्थित पूर्वाग्रह प्रकट करता है, AI मूल्यांकन क्षेत्र के लिए महत्वपूर्ण प्रभाव
पर्याप्त मात्रात्मक विश्लेषण: विस्तृत संख्यात्मक साक्ष्य और सांख्यिकीय विश्लेषण प्रदान करता है
उच्च व्यावहारिक मूल्य: LLM मूल्यांकन में सुधार के लिए ठोस सुझाव प्रदान करता है

कमियां

नमूना आकार सीमित: 30 ब्लॉग लेखों का नमूना आकार अपेक्षाकृत छोटा है
कार्य एकरूपता: केवल ब्लॉग लेखन तक सीमित, कार्य विविधता सत्यापन की कमी
पूर्वाग्रह तंत्र अस्पष्ट: असमरूप पूर्वाग्रह के मूल कारणों का गहन अन्वेषण नहीं
दीर्घकालीन प्रभाव अज्ञात: समय के साथ बदलते पूर्वाग्रह पैटर्न पर विचार नहीं

प्रभाव मूल्यांकन

शैक्षणिक योगदान: LLM मूल्यांकन पूर्वाग्रह अनुसंधान के लिए महत्वपूर्ण अनुभवजन्य साक्ष्य प्रदान करता है
व्यावहारिक मूल्य: LLM बेंचमार्क और मूल्यांकन प्रोटोकॉल डिजाइन को सीधे प्रभावित करता है
नीति महत्व: AI प्रणाली निष्पक्षता और पारदर्शिता नीति के लिए वैज्ञानिक आधार प्रदान करता है
पुनरुत्पादनीयता: विधि विवरण स्पष्ट, पुनरुत्पादन और विस्तार के लिए सुविधाजनक

लागू परिदृश्य

LLM बेंचमार्किंग: मौजूदा मूल्यांकन ढांचे की निष्पक्षता में सुधार
स्वचालित मूल्यांकन प्रणाली: निष्पक्ष पाठ गुणवत्ता मूल्यांकन उपकरण डिजाइन करें
मॉडल तुलना अनुसंधान: मॉडल प्रदर्शन तुलना की वस्तुनिष्ठता सुनिश्चित करें
AI नैतिकता अनुसंधान: AI प्रणाली पूर्वाग्रह पहचान और शमन के लिए विधि प्रदान करें

भविष्य अनुसंधान दिशाएं

मॉडल रेंज विस्तार: अधिक व्यापक पूर्वाग्रह पैटर्न अनुसंधान के लिए अधिक LLM शामिल करें
बहु-कार्य सत्यापन: विभिन्न प्रकार के कार्यों में लेबल प्रभाव के सामान्यीकरण को सत्यापित करें
पूर्वाग्रह स्रोत अन्वेषण: प्रशिक्षण डेटा, पूर्वाग्रह गठन पर संरेखण प्रक्रिया के प्रभाव का गहन अध्ययन करें
शमन रणनीति विकास: अधिक प्रभावी पूर्वाग्रह शमन तकनीकें डिजाइन और परीक्षण करें
गतिशील पूर्वाग्रह अनुसंधान: समय और मॉडल अपडेट के साथ पूर्वाग्रह पैटर्न परिवर्तन का अध्ययन करें

सारांश: यह अनुसंधान कठोर प्रयोग डिजाइन के माध्यम से LLM मूल्यांकन में गंभीर लेबल-प्रेरित पूर्वाग्रह प्रकट करता है, AI मूल्यांकन की निष्पक्षता और विश्वसनीयता में सुधार के लिए महत्वपूर्ण वैज्ञानिक साक्ष्य प्रदान करता है। अनुसंधान निष्कर्ष न केवल महत्वपूर्ण शैक्षणिक मूल्य रखते हैं, बल्कि व्यावहारिक AI प्रणाली तैनाती और मूल्यांकन के लिए सीधे मार्गदर्शन प्रदान करते हैं।

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

बड़े भाषा मॉडल के स्व- और क्रॉस-मूल्यांकन में लेबल-प्रेरित पूर्वाग्रह का परिमाणीकरण

बुनियादी जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या

महत्व

मौजूदा अनुसंधान की सीमाएं

मुख्य योगदान

विधि विवरण

प्रयोग डिजाइन

चरण 1: ब्लॉग पीढ़ी

चरण 2: लेबल स्थिति सेटअप

चरण 3: दोहरी स्कोरिंग प्रणाली

विश्लेषण स्तर

प्रयोग सेटअप

डेटासेट विशेषताएं

मूल्यांकन मेट्रिक्स

तुलना स्थितियां

प्रयोग परिणाम

मुख्य निष्कर्ष

बिना लेबल स्थिति आधारभूत

वास्तविक लेबल स्थिति में पूर्वाग्रह प्रवर्धन

नकली लेबल का मजबूत प्रभाव

मात्रात्मक पूर्वाग्रह प्रभाव

मॉडल-विशिष्ट व्यवहार पैटर्न

संबंधित कार्य

स्व-वरीयता पूर्वाग्रह अनुसंधान

लेबल-प्रेरित मूल्यांकन पूर्वाग्रह

मूल्यांकन गतिविधि अनुसंधान

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

व्यावहारिक सुझाव

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव मूल्यांकन

लागू परिदृश्य

भविष्य अनुसंधान दिशाएं