2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

बेंचमार्किंग टूटा हुआ है -- AI को अपना न्यायाधीश बनने दें

बुनियादी जानकारी

  • पेपर ID: 2510.07575
  • शीर्षक: Benchmarking is Broken -- Don't Let AI be its Own Judge
  • लेखक: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • वर्गीकरण: cs.AI cs.LG
  • प्रकाशन समय/सम्मेलन: 39वां न्यूरल इनफॉर्मेशन प्रोसेसिंग सिस्टम्स सम्मेलन (NeurIPS 2025)
  • पेपर लिंक: https://arxiv.org/abs/2510.07575

सारांश

AI तकनीक के तीव्र विकास और बाजार मूल्य की तेजी से वृद्धि के साथ, AI मूल्यांकन गंभीर चुनौतियों का सामना कर रहा है। वर्तमान बेंचमार्क परीक्षण डेटा प्रदूषण और मॉडल विकासकर्ताओं द्वारा चयनात्मक रिपोर्टिंग सहित गंभीर खामियों को उजागर करते हैं, जो अतिशयोक्ति को बढ़ावा देते हैं, और अपर्याप्त डेटा गुणवत्ता नियंत्रण पूर्वाग्रहपूर्ण मूल्यांकन का कारण बन सकता है। AI क्षेत्र में बड़ी संख्या में प्रतिभागियों के आने के संदर्भ में, यह "जंगली पश्चिम" शैली का मूल्यांकन दृष्टिकोण वास्तविक प्रगति और अतिशयोक्तिपूर्ण दावों के बीच अंतर करना असाधारण रूप से कठिन बनाता है। यह पेपर तर्क देता है कि वर्तमान मुक्त-बाजार दृष्टिकोण अस्थिर है, और वास्तविक AI प्रगति के लिए एक एकीकृत, वास्तविक समय, गुणवत्ता-नियंत्रित बेंचमार्किंग ढांचे की आवश्यकता है। इसके लिए, यह पेपर वर्तमान AI मूल्यांकन की प्रणालीगत खामियों का विश्लेषण करता है, अगली पीढ़ी के मूल्यांकन के लिए मौलिक आवश्यकताओं का प्रस्ताव करता है, और PeerBench का परिचय देता है -- एक सामुदायिक-शासित, पर्यवेक्षित मूल्यांकन खाका।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

यह अनुसंधान AI बेंचमार्किंग क्षेत्र की प्रणालीगत समस्याओं को हल करना चाहता है:

  1. डेटा प्रदूषण: सार्वजनिक बेंचमार्क परीक्षण प्रशिक्षण सेट में लीक हो सकते हैं, जिससे परीक्षण सेट स्मृति और अतिरंजित स्कोर होते हैं
  2. चयनात्मक रिपोर्टिंग: मॉडल निर्माता केवल अनुकूल कार्य उपसमुच्चय के परिणाम रिपोर्ट कर सकते हैं
  3. मूल्यांकन विखंडन: एकीकृत मूल्यांकन मानकों और इंटरफेस की कमी
  4. निष्पक्षता सुरक्षा की कमी: मानव उच्च-जोखिम परीक्षाओं की तुलना में, AI मूल्यांकन में निरीक्षण और पहचान सत्यापन की कमी है

समस्या की महत्ता

  • AI तकनीक का सामाजिक प्रभाव गहरा हो रहा है, जिसके लिए विश्वसनीय मूल्यांकन तंत्र की आवश्यकता है
  • वर्तमान मूल्यांकन पारिस्थितिकी तंत्र की खामियां वैज्ञानिक संकेतों को धुंधला करती हैं और जनता के विश्वास को कमजोर करती हैं
  • वित्तीय बाजारों के विश्वसनीय नियामकों की आवश्यकता के अनुरूप, AI क्षेत्र को भी विश्वसनीय मूल्यांकन मानकों की आवश्यकता है

मौजूदा विधियों की सीमाएं

  1. स्थिर बेंचमार्क: MMLU, GSM8K आदि जैसे तेजी से संतृप्त होते हैं, स्मृति के लिए आसान होते हैं
  2. गतिशील बेंचमार्क: LiveBench जैसे निरंतर अपडेट होते हैं, लेकिन एकल टीम पर निर्भर होते हैं, सीमित पैमाने पर होते हैं
  3. निजी बेंचमार्क: प्रदूषण कम करते हैं लेकिन पारदर्शिता की कमी होती है, पूर्वाग्रह का जोखिम होता है
  4. भीड़ द्वारा संचालित मूल्यांकन: Chatbot Arena जैसे पहचान सत्यापन की कमी होती है, हेराफेरी के लिए आसान होते हैं

मुख्य योगदान

  1. प्रणालीगत आलोचना: वर्तमान बेंचमार्किंग की संरचनात्मक खामियों का व्यापक विश्लेषण, जिसमें प्रदूषण, विखंडन और एकाधिकार समस्याएं शामिल हैं
  2. स्थिति विवरण: AI मूल्यांकन को सुरक्षित, मानकीकृत परीक्षा के रूप में पुनः स्थापित करने का दृष्टिकोण, और खुलेपन और कठोरता को संतुलित करने के डिजाइन सिद्धांत
  3. प्रोटोटाइप आर्किटेक्चर: PeerBench सिस्टम का डिजाइन, जिसमें विशिष्ट दस-चरणीय कार्यप्रवाह, क्रिप्टोग्राफिक हस्ताक्षर कलाकृतियां, हल्के-फुल्के प्रतिष्ठा तंत्र और स्कोर सामान्यीकरण विधियां शामिल हैं
  4. व्यावहारिक कार्यान्वयन: PeerBench का प्रोटोटाइप कार्यान्वयन (https://peerbench.ai) प्रदान करता है, जो अवधारणा की व्यवहार्यता प्रदर्शित करता है

विधि विवरण

नए प्रतिमान के सात सिद्धांत

  1. गुप्त परीक्षण सेट: मूल्यांकन आइटम चलाने से पहले अप्रकाशित रहते हैं
  2. पर्यवेक्षित निष्पादन: मॉडल एकीकृत सील किए गए सैंडबॉक्स में मूल्यांकन किए जाते हैं, सभी इनपुट/आउटपुट रिकॉर्ड और क्रिप्टोग्राफिक रूप से हस्ताक्षरित होते हैं
  3. सामुदायिक शासन: बहु-हितधारक सत्यापनकर्ता नेटवर्क नियमों और शासन को लागू करता है
  4. निरंतर अपडेट और सक्रियता: प्रत्येक दौर में परीक्षण के एक निश्चित अनुपात को सेवानिवृत्त और प्रतिस्थापित किया जाता है
  5. ऑडिटेबिलिटी और अखंडता: सत्यापनकर्ता प्रकाशन से पहले परीक्षण और उत्तर हैश मान पूर्व-प्रस्तुत करते हैं
  6. न्यायसंगत पहुंच: कोई भी वास्तविक टीम मॉडल जमा कर सकती है, बस कम्प्यूटेशनल मुआवजे के लिए भुगतान करना होगा
  7. बहु-मेट्रिक रिपोर्टिंग: डोमेन-विशिष्ट उप-स्कोर और प्रतिशतक रैंकिंग प्रदान करता है

PeerBench आर्किटेक्चर डिजाइन

प्रतिभागी भूमिकाएं

  • डेटा योगदानकर्ता: निजी परीक्षण सूट और निष्पादन योग्य स्कोरिंग फ़ंक्शन बनाते हैं
  • समीक्षक: प्रस्तुत परीक्षणों की गुणवत्ता का मूल्यांकन करते हैं, क्रमिक रेटिंग उत्पन्न करते हैं
  • मॉडल निर्माता: अनुमान समापन बिंदु उजागर करते हैं और विशिष्ट प्रवाह पंजीकृत करते हैं
  • समन्वय सर्वर: अपलोड को प्रमाणित करता है, सक्रिय लाइब्रेरी प्रबंधित करता है, समकक्ष समीक्षा शेड्यूल करता है
  • अंतिम उपयोगकर्ता: वास्तविक समय लीडरबोर्ड से परामर्श लेने वाले शोधकर्ता, पत्रकार आदि

तीन लीडरबोर्ड सिस्टम

  1. डेटा योगदानकर्ता लीडरबोर्ड:
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. समीक्षक लीडरबोर्ड:
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. मॉडल लीडरबोर्ड:
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

अंत-से-अंत कार्यप्रवाह

सेटअप चरण

  • प्रतिभागी सत्यापन योग्य क्रेडेंशियल का उपयोग करके पंजीकृत होते हैं
  • सार्वजनिक कुंजी हस्ताक्षर कुंजी उत्पन्न करते हैं
  • योगदानकर्ता और समीक्षक जमानत रखते हैं

निरंतर मूल्यांकन प्रक्रिया

T1. परीक्षण प्रस्तुति और प्रतिबद्धता: योगदानकर्ता परीक्षण T^(c) और स्कोरिंग फ़ंक्शन F^(c) प्रस्तुत करते हैं, सिस्टम बाध्यकारी प्रतिबद्धता h = Com(T^(c), F^(c)) रिकॉर्ड करता है

T2. मॉडल मूल्यांकन: सर्वर सभी वर्तमान पंजीकृत मॉडल के लिए तुरंत क्वेरी शेड्यूल करता है

T3. समीक्षा प्रक्रिया: समीक्षकों को यादृच्छिक रूप से असाइन किया जाता है, कम से कम तीन वैध समीक्षाओं की आवश्यकता होती है

T4. वजन गणना:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. लाइब्रेरी प्रबंधन: नए परीक्षण सक्रिय लाइब्रेरी में शामिल होते हैं, शून्य-वजन परीक्षणों को सेवानिवृत्त करने को प्राथमिकता दी जाती है

T6. प्रतिष्ठा अपडेट: प्रत्येक दौर के बाद सभी संबंधित प्रतिभागियों की प्रतिष्ठा अपडेट की जाती है

प्रायोगिक सेटअप

समय निष्पक्षता दुविधा

पेपर दो डिजाइन विकल्पों की पहचान करता है:

  • विकल्प A: मांग पर तत्काल स्कोरिंग: मॉडल अनुरोध करने पर तुरंत स्कोर किया जाता है, प्रतिक्रियाशीलता को अधिकतम करता है
  • विकल्प B: आवधिक सिंक्रोनाइज्ड मूल्यांकन: मॉडल पूर्वनिर्धारित मूल्यांकन विंडो में पंजीकृत होते हैं, निष्पक्षता का सबसे मजबूत रूप सुनिश्चित करते हैं

PeerBench एक हाइब्रिड दृष्टिकोण अपनाता है, दोनों प्रतिमानों का समर्थन करता है, प्रोटोटाइप में तत्काल स्कोरिंग की लचीलापन को प्राथमिकता देता है।

सुरक्षा और ऑडिट तंत्र

  • आंशिक प्रकटीकरण: समीक्षकों को केवल-पढ़ने, गैर-प्रतिलिपि प्रारूप में परीक्षण के छोटे यादृच्छिक अंश दिखाता है
  • पूर्ण प्रकाशन: सेवानिवृत्ति के बाद परीक्षण, लॉग और मॉडल प्रतिक्रियाएं प्रकाशित करता है
  • कटौती तंत्र: सीमा से नीचे प्रतिष्ठा वाले प्रतिभागियों को हटाया जाता है, दुर्भावनापूर्ण व्यवहार जमानत में कटौती का कारण बनता है

प्रायोगिक परिणाम

प्रोटोटाइप कार्यान्वयन

पेपर PeerBench का वास्तविक प्रोटोटाइप कार्यान्वयन (https://peerbench.ai) प्रदान करता है, जो प्रदर्शित करता है:

  • पूर्ण कार्यप्रवाह कार्यान्वयन
  • प्रतिष्ठा प्रणाली की कार्यप्रणाली
  • बहु-प्रवाह मूल्यांकन समर्थन (गणित, कोड जनरेशन, अनुवाद आदि)

डिजाइन विकल्पों की प्रभावशीलता

पेपर आर्किटेक्चर डिजाइन के माध्यम से सामान्य समस्याओं को हल करता है:

  • डेटा प्रदूषण और चयन: सत्यापनकर्ता परीक्षण सेट के लिए पूर्व-प्रतिबद्ध होते हैं, दौर के अंत तक निजी रहते हैं
  • निजी डेटा धोखाधड़ी: सार्वजनिक यादृच्छिक स्रोत प्रकटीकरण के लिए क्वेरी निर्धारित करता है, सत्यापनकर्ताओं को ऑडिट आइटम की प्रत्याशा से रोकता है
  • परीक्षण गुणवत्ता: प्रत्येक परीक्षण को कई स्वतंत्र समीक्षाएं प्राप्त होती हैं, डेटा गुणवत्ता अंतिम स्कोर में इसके वजन को निर्धारित करती है
  • पहुंच: सभी भूमिकाओं के लिए पंजीकरण हल्का-फुल्का है, व्यापक भागीदारी का समर्थन करता है

संबंधित कार्य

स्थिर बेंचमार्क और लीडरबोर्ड

  • MMLU, GSM8K, SuperGLUE आदि प्रगति के स्पष्ट स्नैपशॉट प्रदान करते हैं, लेकिन तेजी से संतृप्त होते हैं और प्रशिक्षण कॉर्पस में लीक होते हैं
  • BIG-Bench कार्य कवरेज का विस्तार करता है, लेकिन कार्य प्रकाशन पर सार्वजनिक हो जाते हैं
  • HELM कई मेट्रिक्स जोड़ता है, लेकिन प्रकाशन अंतराल के बीच स्थिर रहता है

गतिशील या प्रदूषण-प्रतिरोधी बेंचमार्क

  • LiveBench कार्यों को निरंतर ताज़ा करता है, लेकिन एकल केंद्रीकृत टीम पर निर्भर करता है
  • Dynabench मानव-लूप में प्रतिकूल डेटा संग्रह की खोज करता है
  • प्रतिकूल "मॉडल-तोड़ने वाली" प्रतियोगिताएं कमजोरियों को उजागर करती हैं लेकिन व्यवस्थित स्कोर एकत्रीकरण की कमी होती है

मानव वरीयता और खुली मूल्यांकन प्लेटफॉर्म

  • Chatbot Arena की Elo सीढ़ी और OpenAI Evals खुलेपन को बढ़ावा देते हैं
  • HuggingFace खुली LLM लीडरबोर्ड उपयोगकर्ताओं को परीक्षण स्क्रिप्ट अपलोड करने की अनुमति देती है
  • लेकिन ये प्लेटफॉर्म स्पैम, बॉट वोटिंग और अनट्रैक किए गए प्रदूषण के लिए असुरक्षित हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. वर्तमान AI बेंचमार्किंग प्रणाली में प्रणालीगत खामियां हैं, प्रतिमान परिवर्तन की आवश्यकता है
  2. मानव मानकीकृत परीक्षाओं से प्रेरित पर्यवेक्षित मूल्यांकन प्रतिमान एक व्यवहार्य समाधान है
  3. PeerBench सामुदायिक शासन, प्रदूषण-प्रतिरोधी मूल्यांकन की व्यावहारिकता प्रदर्शित करता है
  4. खुलेपन और कठोरता के बीच संतुलन खोजने की आवश्यकता है

सीमाएं

  1. समय निष्पक्षता: तत्काल मूल्यांकन और सिंक्रोनाइज्ड मूल्यांकन के बीच मौलिक तनाव
  2. कार्यान्वयन लागत: निरंतर उच्च-गुणवत्ता परीक्षण निर्माण और बुनियादी ढांचे रखरखाव की आवश्यकता
  3. भागीदारी प्रोत्साहन: समीक्षक भागीदारी बनाए रखने के लिए उपयुक्त आर्थिक प्रोत्साहन की आवश्यकता
  4. शासन जटिलता: बहु-हितधारक शासन समन्वय चुनौतियों का सामना कर सकता है

भविष्य की दिशाएं

  1. तंत्र डिजाइन: ढांचे की आर्थिक और प्रतिकूल मजबूती को मजबूत करने के लिए खेल सिद्धांत सुरक्षा विश्लेषण में आगे अनुसंधान
  2. शासन अनुकूलन: बहु-संस्थागत शासन संरचना और घूर्णन सदस्यता में सुधार
  3. लागत अनुकूलन: कंटेनरीकृत अनुमान प्रस्तुतियों जैसे परिचालन लागत कम करने के तरीकों की खोज
  4. मानकीकरण: NIST या MLCommons जैसे मौजूदा तटस्थ संगठनों के साथ सहयोग को बढ़ावा देना

गहन मूल्यांकन

शक्तियां

  1. समस्या पहचान सटीक: वर्तमान AI मूल्यांकन पारिस्थितिकी तंत्र की मुख्य समस्याओं की सटीक पहचान
  2. समाधान नवाचार: स्थिर लीडरबोर्ड से पर्यवेक्षित परीक्षा में प्रतिमान परिवर्तन का प्रस्ताव
  3. व्यावहारिकता: ठोस कार्यान्वयन प्रोटोटाइप और विस्तृत कार्यप्रवाह प्रदान करता है
  4. ठोस सैद्धांतिक आधार: मानव मानकीकृत परीक्षाओं के परिपक्व अनुभव से उधार लेता है
  5. सामुदायिक-केंद्रित: सामुदायिक शासन और विकेंद्रीकरण पर जोर, एकल विफलता बिंदु से बचता है

कमियां

  1. स्केलेबिलिटी चुनौतियां: बड़े पैमाने पर कार्यान्वयन प्रतिभागी समन्वय और प्रोत्साहन समस्याओं का सामना कर सकता है
  2. कोल्ड स्टार्ट समस्या: नई प्रणाली को विश्वसनीयता स्थापित करने के लिए पर्याप्त प्रारंभिक प्रतिभागियों की आवश्यकता है
  3. अधूरा आर्थिक मॉडल: कटौती तंत्र का उल्लेख किया गया है, लेकिन आर्थिक प्रोत्साहन के विवरण को आगे परिष्कृत करने की आवश्यकता है
  4. तकनीकी कार्यान्वयन जटिलता: क्रिप्टोग्राफिक हस्ताक्षर, प्रतिष्ठा प्रणाली आदि तकनीकी घटकों के कार्यान्वयन में उच्च जटिलता

प्रभाव

  1. शैक्षणिक योगदान: AI मूल्यांकन क्षेत्र के लिए नया सैद्धांतिक ढांचा और व्यावहारिक दिशा प्रदान करता है
  2. औद्योगिक प्रभाव: AI उद्योग को अधिक न्यायसंगत और विश्वसनीय मूल्यांकन मानकों की स्थापना को बढ़ावा दे सकता है
  3. नीति महत्व: AI विनियमन और मानक निर्धारण के लिए तकनीकी आधार प्रदान करता है
  4. दीर्घकालिक मूल्य: टिकाऊ AI मूल्यांकन पारिस्थितिकी तंत्र का खाका स्थापित करता है

लागू परिदृश्य

  1. उच्च-जोखिम AI अनुप्रयोग मूल्यांकन: विशेष रूप से उच्च विश्वसनीयता की आवश्यकता वाली AI प्रणालियों के मूल्यांकन के लिए उपयुक्त
  2. शैक्षणिक अनुसंधान: अनुसंधान समुदाय के लिए निष्पक्ष मॉडल तुलना प्लेटफॉर्म प्रदान करता है
  3. औद्योगिक मानक निर्धारण: उद्योग मानक मूल्यांकन ढांचे के आधार के रूप में काम कर सकता है
  4. नियामक अनुपालन: AI प्रणालियों के नियामक मूल्यांकन के लिए तकनीकी समर्थन प्रदान करता है

संदर्भ

पेपर 56 संबंधित संदर्भों का हवाला देता है, जो AI मूल्यांकन, बेंचमार्किंग, डेटा प्रदूषण, प्रतिष्ठा प्रणाली और अन्य क्षेत्रों के महत्वपूर्ण कार्यों को कवर करता है, इसके दृष्टिकोण के लिए पर्याप्त सैद्धांतिक समर्थन प्रदान करता है।


समग्र मूल्यांकन: यह महत्वपूर्ण महत्व का एक दृष्टिकोण पेपर है, जो न केवल वर्तमान AI मूल्यांकन प्रणाली की समस्याओं का गहन विश्लेषण करता है, बल्कि ठोस व्यवहार्य समाधान भी प्रस्तावित करता है। PeerBench का डिजाइन लेखकों द्वारा AI मूल्यांकन के भविष्य विकास के बारे में गहन सोच को प्रतिबिंबित करता है, और इसका प्रोटोटाइप कार्यान्वयन अवधारणा की व्यवहार्यता प्रदर्शित करता है। हालांकि बड़े पैमाने पर कार्यान्वयन में अभी भी चुनौतियां हैं, लेकिन यह AI मूल्यांकन क्षेत्र के विकास के लिए दिशा निर्धारित करता है।