2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.

The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.

academic

বেঞ্চমার্কিং ভাঙা আছে -- এআইকে নিজের বিচারক হতে দেবেন না

মৌলিক তথ্য

পেপার আইডি: 2510.07575
শিরোনাম: Benchmarking is Broken -- Don't Let AI be its Own Judge
লেখক: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
শ্রেণীবিভাগ: cs.AI cs.LG
প্রকাশনার সময়/সম্মেলন: ৩৯তম নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম সম্মেলন (NeurIPS 2025)
পেপার লিংক: https://arxiv.org/abs/2510.07575

সারসংক্ষেপ

এআই প্রযুক্তির দ্রুত উন্নয়ন এবং বাজার মূল্যের দ্রুত বৃদ্ধির সাথে সাথে, এআই মূল্যায়ন গুরুতর চ্যালেঞ্জের সম্মুখীন। বর্তমান বেঞ্চমার্ক পরীক্ষাগুলি ডেটা দূষণ এবং মডেল বিকাশকারীদের নির্বাচনী রিপোর্টিং সহ গুরুতর ত্রুটি প্রকাশ করে, যা হাইপকে উৎসাহিত করে এবং ডেটা গুণমান নিয়ন্ত্রণের অভাব পক্ষপাতমূলক মূল্যায়নের দিকে পরিচালিত করতে পারে। এআই ক্ষেত্রে বিপুল সংখ্যক অংশগ্রহণকারীর প্রবেশের প্রেক্ষাপটে, এই "বন্য পশ্চিম" শৈলীর মূল্যায়ন পদ্ধতি প্রকৃত অগ্রগতি এবং অতিরঞ্জিত দাবির মধ্যে পার্থক্য করা অত্যন্ত কঠিন করে তোলে। এই পেপারটি যুক্তি দেয় যে বর্তমান অবাধ পদ্ধতি টেকসই নয় এবং প্রকৃত এআই অগ্রগতির জন্য একটি একীভূত, রিয়েল-টাইম, গুণমান-নিয়ন্ত্রিত বেঞ্চমার্কিং কাঠামো প্রয়োজন। এই উদ্দেশ্যে, পেপারটি বর্তমান এআই মূল্যায়নের সিস্টেমেটিক ত্রুটিগুলি বিশ্লেষণ করে, পরবর্তী প্রজন্মের মূল্যায়নের মৌলিক প্রয়োজনীয়তা প্রস্তাব করে এবং PeerBench পরিচয় করিয়ে দেয় -- একটি সম্প্রদায় শাসিত, তদারকি করা মূল্যায়ন নীলনকশা।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই গবেষণা এআই বেঞ্চমার্কিং ক্ষেত্রের সিস্টেমেটিক সমস্যাগুলি সমাধান করার লক্ষ্য রাখে:

ডেটা দূষণ: জনসাধারণের জন্য উন্মুক্ত বেঞ্চমার্ক প্রশিক্ষণ সেটে ফাঁস হতে পারে, যার ফলে পরীক্ষা সেট স্মৃতি এবং উচ্চতর স্কোর হয়
নির্বাচনী রিপোর্টিং: মডেল নির্মাতারা শুধুমাত্র অনুকূল কাজের উপসেট ফলাফল রিপোর্ট করতে পারে
মূল্যায়ন বিভাজন: একীভূত মূল্যায়ন মান এবং ইন্টারফেসের অভাব
ন্যায্যতা সুরক্ষার অভাব: মানব উচ্চ-ঝুঁকি পরীক্ষার তুলনায়, এআই মূল্যায়নে পর্যবেক্ষণ এবং পরিচয় যাচাইকরণের অভাব রয়েছে

সমস্যার গুরুত্ব

এআই প্রযুক্তির সামাজিক প্রভাব ক্রমবর্ধমান গভীর, বিশ্বাসযোগ্য মূল্যায়ন প্রক্রিয়ার প্রয়োজন
বর্তমান মূল্যায়ন ইকোসিস্টেমের ত্রুটিগুলি বৈজ্ঞানিক সংকেত অস্পষ্ট করে এবং জনসাধারণের আস্থা হ্রাস করে
আর্থিক বাজারের বিশ্বাসযোগ্য নিয়ন্ত্রক সংস্থার প্রয়োজনের সাথে সাদৃশ্য রেখে, এআই ক্ষেত্রেরও বিশ্বাসযোগ্য মূল্যায়ন মান প্রয়োজন

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

স্ট্যাটিক বেঞ্চমার্ক: MMLU, GSM8K ইত্যাদির মতো দ্রুত স্যাচুরেশন এবং স্মৃতিতে সহজে পড়ে যায়
ডায়নামিক বেঞ্চমার্ক: LiveBench এর মতো ক্রমাগত আপডেট হয় কিন্তু একক দলের উপর নির্ভর করে, সীমিত স্কেল
ব্যক্তিগত বেঞ্চমার্ক: দূষণ হ্রাস করে কিন্তু স্বচ্ছতার অভাব, পক্ষপাত ঝুঁকি বিদ্যমান
ক্রাউডসোর্সড মূল্যায়ন: Chatbot Arena এর মতো পরিচয় যাচাইকরণের অভাব, সহজে ম্যানিপুলেশনের সম্ভাবনা

মূল অবদান

সিস্টেমেটিক সমালোচনা: বর্তমান বেঞ্চমার্ক পরীক্ষার কাঠামোগত ত্রুটিগুলির ব্যাপক বিশ্লেষণ, দূষণ, বিভাজন এবং একচেটিয়াকরণ সমস্যা সহ
অবস্থান বিবৃতি: এআই মূল্যায়নকে নিরাপদ, মানক পরীক্ষা হিসাবে পুনর্নির্ধারণ করার দৃষ্টিভঙ্গি এবং উন্মুক্ততা ও কঠোরতার ভারসাম্য রক্ষার ডিজাইন নীতি প্রস্তাব করা
প্রোটোটাইপ আর্কিটেকচার: PeerBench সিস্টেম ডিজাইন, যার মধ্যে রয়েছে নির্দিষ্ট দশ-ধাপের কর্মপ্রবাহ, ক্রিপ্টোগ্রাফিক স্বাক্ষর শিল্পকর্ম, হালকা খ্যাতি প্রক্রিয়া এবং স্কোর স্বাভাবিকীকরণ পদ্ধতি
ব্যবহারিক বাস্তবায়ন: PeerBench এর প্রোটোটাইপ বাস্তবায়ন প্রদান (https://peerbench.ai), ধারণার সম্ভাব্যতা প্রদর্শন করে

পদ্ধতির বিস্তারিত বিবরণ

নতুন প্যারাডাইমের সাত নীতি

গোপনীয় পরীক্ষা সেট: মূল্যায়ন আইটেম চালানোর আগে অপ্রকাশিত থাকে
তদারকি করা সম্পাদন: মডেলগুলি একীভূত সিল করা স্যান্ডবক্সে মূল্যায়ন করা হয়, সমস্ত ইনপুট আউটপুট রেকর্ড এবং ক্রিপ্টোগ্রাফিকভাবে স্বাক্ষরিত হয়
সম্প্রদায় শাসন: বহু স্টেকহোল্ডার যাচাইকারী নেটওয়ার্ক নিয়ম এবং শাসন প্রয়োগ করে
ক্রমাগত আপডেট এবং সক্রিয়তা: প্রতিটি মূল্যায়ন রাউন্ডে প্রশ্নের একটি নির্দিষ্ট অনুপাত অবসর এবং প্রতিস্থাপিত হয়
অডিটযোগ্যতা এবং সততা: যাচাইকারীরা প্রকাশের আগে পরীক্ষা এবং উত্তরের হ্যাশ মূল্য প্রাক-জমা দেয়
ন্যায্য অ্যাক্সেস: যেকোনো প্রকৃত দল মডেল জমা দিতে পারে, শুধুমাত্র গণনা ক্ষতিপূরণ ফি প্রদান করে
বহু-মেট্রিক রিপোর্টিং: ডোমেইন-নির্দিষ্ট সাব-স্কোর এবং শতাংশ র্যাঙ্কিং প্রদান করে

PeerBench আর্কিটেকচার ডিজাইন

অংশগ্রহণকারী ভূমিকা

ডেটা অবদানকারী: ব্যক্তিগত পরীক্ষা স্যুট এবং সম্পাদনযোগ্য স্কোরিং ফাংশন তৈরি করে
পর্যালোচক: জমা দেওয়া পরীক্ষার গুণমান মূল্যায়ন করে, ক্রমিক রেটিং উৎপাদন করে
মডেল নির্মাতা: অনুমান এন্ডপয়েন্ট প্রকাশ করে এবং নির্দিষ্ট স্ট্রিম নিবন্ধন করে
সমন্বয় সার্ভার: আপলোড প্রমাণীকরণ, সক্রিয় লাইব্রেরি পরিচালনা, সমবয়সী পর্যালোচনা সময়সূচী করে
চূড়ান্ত ব্যবহারকারী: গবেষকদের রিয়েল-টাইম লিডারবোর্ড পরামর্শ করে, সাংবাদিক ইত্যাদি

তিনটি লিডারবোর্ড সিস্টেম

ডেটা অবদানকারী লিডারবোর্ড:
```
ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
```
পর্যালোচক লিডারবোর্ড:
```
ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
```

মডেল লিডারবোর্ড:

ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))

প্রান্ত থেকে প্রান্ত কর্মপ্রবাহ

সেটআপ পর্যায়

অংশগ্রহণকারীরা যাচাইযোগ্য শংসাপত্র ব্যবহার করে নিবন্ধন করে
জনসাধারণের কী স্বাক্ষর কী তৈরি করে
অবদানকারী এবং পর্যালোচকরা সমর্থন জমা দেয়

ক্রমাগত মূল্যায়ন প্রক্রিয়া

T1. পরীক্ষা জমা এবং প্রতিশ্রুতি: অবদানকারী পরীক্ষা T^(c) এবং স্কোরিং ফাংশন F^(c) জমা দেয়, সিস্টেম বাঁধাই প্রতিশ্রুতি h = Com(T^(c), F^(c)) রেকর্ড করে

T2. মডেল মূল্যায়ন: সার্ভার অবিলম্বে সমস্ত বর্তমান নিবন্ধিত মডেলের জন্য প্রশ্ন সময়সূচী করে

T3. পর্যালোচনা প্রক্রিয়া: র্যান্ডমলি পর্যালোচকদের কাছে বরাদ্দ করা হয়, কমপক্ষে তিনটি বৈধ পর্যালোচনা প্রয়োজন

T4. ওজন গণনা:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. লাইব্রেরি ব্যবস্থাপনা: নতুন পরীক্ষা সক্রিয় লাইব্রেরিতে যোগ দেয়, শূন্য ওজন পরীক্ষা অবসর অগ্রাধিকার দেয়

T6. খ্যাতি আপডেট: প্রতিটি রাউন্ডের পরে সমস্ত সম্পর্কিত অংশগ্রহণকারীর খ্যাতি আপডেট করে

পরীক্ষামূলক সেটআপ

সময় ন্যায্যতা দ্বিধা

পেপারটি দুটি ডিজাইন পছন্দ চিহ্নিত করে:

পছন্দ A: চাহিদা অনুযায়ী তাৎক্ষণিক স্কোরিং: মডেল অনুরোধ করলে অবিলম্বে স্কোর করা হয়, প্রতিক্রিয়াশীলতা সর্বাধিক করে
পছন্দ B: পর্যায়ক্রমিক সিঙ্ক্রোনাস মূল্যায়ন: মডেলগুলি পূর্বনির্ধারিত মূল্যায়ন উইন্ডোতে নিবন্ধন করে, সর্বোচ্চ ন্যায্যতা নিশ্চিত করে

PeerBench একটি হাইব্রিড পদ্ধতি গ্রহণ করে, উভয় প্যারাডাইম সমর্থন করে, প্রোটোটাইপে তাৎক্ষণিক স্কোরিংয়ের নমনীয়তা অগ্রাধিকার দেয়।

নিরাপত্তা এবং অডিট প্রক্রিয়া

আংশিক প্রকাশ: পর্যালোচকদের শুধুমাত্র-পড়া, অ-প্রতিলিপিযোগ্য ফর্ম্যাটে পরীক্ষার ছোট র্যান্ডম অংশ প্রদর্শন করা হয়
সম্পূর্ণ প্রকাশ: অবসরের পরে পরীক্ষা, লগ এবং মডেল প্রতিক্রিয়া প্রকাশ করা হয়
হ্রাস প্রক্রিয়া: থ্রেশহোল্ডের নিচে খ্যাতি সহ অংশগ্রহণকারীরা সরানো হয়, দুষ্ট আচরণ সমর্থন হ্রাস করে

পরীক্ষামূলক ফলাফল

প্রোটোটাইপ বাস্তবায়ন

পেপারটি PeerBench এর একটি ব্যবহারিক প্রোটোটাইপ বাস্তবায়ন প্রদান করে (https://peerbench.ai), যা প্রদর্শন করে:

সম্পূর্ণ কর্মপ্রবাহ বাস্তবায়ন
খ্যাতি সিস্টেমের অপারেটিং মেকানিজম
বহু-স্ট্রিম মূল্যায়ন সমর্থন (গণিত, কোড প্রজন্ম, অনুবাদ ইত্যাদি)

ডিজাইন পছন্দের কার্যকারিতা

পেপারটি আর্কিটেকচার ডিজাইনের মাধ্যমে সাধারণ সমস্যাগুলি সমাধান করে:

ডেটা দূষণ এবং নির্বাচন: যাচাইকারীরা পরীক্ষা সেট প্রাক-প্রতিশ্রুতিবদ্ধ, রাউন্ড শেষ পর্যন্ত ব্যক্তিগত রাখা হয়
ব্যক্তিগত ডেটা জালিয়াতি: জনসাধারণের র্যান্ডম উৎস প্রকাশ করা প্রশ্ন নির্ধারণ করে, যাচাইকারীদের অডিট আইটেম প্রত্যাশা প্রতিরোধ করে
পরীক্ষা গুণমান: প্রতিটি পরীক্ষা একাধিক স্বাধীন পর্যালোচনা পায়, ডেটা গুণমান চূড়ান্ত স্কোরে এর ওজন নির্ধারণ করে
অ্যাক্সেসযোগ্যতা: সমস্ত ভূমিকার নিবন্ধন হালকা, ব্যাপক অংশগ্রহণ সমর্থন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

বর্তমান এআই বেঞ্চমার্কিং সিস্টেম সিস্টেমেটিক ত্রুটি রয়েছে, প্যারাডাইম পরিবর্তন প্রয়োজন
মানব মানক পরীক্ষা দ্বারা অনুপ্রাণিত তদারকি করা মূল্যায়ন প্যারাডাইম একটি সম্ভাব্য সমাধান
PeerBench সম্প্রদায় শাসন, দূষণ-প্রতিরোধী মূল্যায়নের ব্যবহারিকতা প্রদর্শন করে
উন্মুক্ততা এবং কঠোরতার মধ্যে ভারসাম্য খুঁজে পাওয়া প্রয়োজন

সীমাবদ্ধতা

সময় ন্যায্যতা: তাৎক্ষণিক মূল্যায়ন এবং সিঙ্ক্রোনাস মূল্যায়নের মধ্যে মৌলিক উত্তেজনা
বাস্তবায়ন খরচ: ক্রমাগত উচ্চ-মানের পরীক্ষা সৃষ্টি এবং অবকাঠামো রক্ষণাবেক্ষণ প্রয়োজন
অংশগ্রহণ প্রণোদনা: পর্যালোচক অংশগ্রহণ বজায় রাখতে উপযুক্ত অর্থনৈতিক প্রণোদনা প্রয়োজন
শাসন জটিলতা: বহু-স্টেকহোল্ডার শাসন সমন্বয় চ্যালেঞ্জের সম্মুখীন হতে পারে

ভবিষ্যত দিকনির্দেশনা

প্রক্রিয়া ডিজাইন: কাঠামোর অর্থনৈতিক এবং বৈরী শক্তিশালীতা বৃদ্ধির জন্য গেম তত্ত্ব নিরাপত্তা বিশ্লেষণ আরও গবেষণা
শাসন অপ্টিমাইজেশন: বহু-প্রতিষ্ঠান শাসন কাঠামো এবং ঘূর্ণনশীল সদস্যপদ উন্নত করা
খরচ অপ্টিমাইজেশন: কন্টেইনারাইজড অনুমান জমা দেওয়ার মতো অপারেটিং খরচ হ্রাসের উপায় অন্বেষণ করা
মানকীকরণ: NIST বা MLCommons এর মতো বিদ্যমান নিরপেক্ষ সংস্থাগুলির সাথে সহযোগিতা প্রচার করা

গভীর মূল্যায়ন

শক্তি

সমস্যা সনাক্তকরণ নির্ভুল: বর্তমান এআই মূল্যায়ন ইকোসিস্টেমের মূল সমস্যাগুলি সঠিকভাবে চিহ্নিত করা
সমাধান উদ্ভাবনী: স্ট্যাটিক লিডারবোর্ড থেকে তদারকি করা পরীক্ষায় প্যারাডাইম পরিবর্তন প্রস্তাব করা
ব্যবহারিকতা শক্তিশালী: নির্দিষ্ট বাস্তবায়ন প্রোটোটাইপ এবং বিস্তারিত কর্মপ্রবাহ প্রদান করা
তাত্ত্বিক ভিত্তি দৃঢ়: মানব মানক পরীক্ষার পরিপক্ক অভিজ্ঞতা থেকে ধার করা
সম্প্রদায়-ভিত্তিক: সম্প্রদায় শাসন এবং বিকেন্দ্রীকরণ জোর দেওয়া, একক ব্যর্থতার পয়েন্ট এড়ানো

অপূর্ণতা

স্কেলেবিলিটি চ্যালেঞ্জ: বড় আকারের বাস্তবায়ন অংশগ্রহণকারী সমন্বয় এবং প্রণোদনা সমস্যার সম্মুখীন হতে পারে
কোল্ড স্টার্ট সমস্যা: নতুন সিস্টেম বিশ্বাসযোগ্যতা প্রতিষ্ঠার জন্য যথেষ্ট প্রাথমিক অংশগ্রহণকারী প্রয়োজন
অসম্পূর্ণ অর্থনৈতিক মডেল: যদিও হ্রাস প্রক্রিয়া উল্লেখ করা হয়েছে, অর্থনৈতিক প্রণোদনার বিবরণ আরও পরিমার্জন প্রয়োজন
প্রযুক্তিগত বাস্তবায়ন জটিলতা: ক্রিপ্টোগ্রাফিক স্বাক্ষর, খ্যাতি সিস্টেম ইত্যাদি প্রযুক্তিগত উপাদানের বাস্তবায়ন জটিলতা বেশি

প্রভাব

একাডেমিক অবদান: এআই মূল্যায়ন ক্ষেত্রে নতুন তাত্ত্বিক কাঠামো এবং ব্যবহারিক দিকনির্দেশনা প্রদান করা
শিল্প প্রভাব: এআই শিল্পকে আরও ন্যায্য এবং বিশ্বাসযোগ্য মূল্যায়ন মান প্রতিষ্ঠা করতে চালিত করতে পারে
নীতি তাৎপর্য: এআই নিয়ন্ত্রণ এবং মান নির্ধারণের জন্য প্রযুক্তিগত ভিত্তি প্রদান করা
দীর্ঘমেয়াদী মূল্য: টেকসই এআই মূল্যায়ন ইকোসিস্টেম প্রতিষ্ঠার নীলনকশা তৈরি করা

প্রযোজ্য পরিস্থিতি

উচ্চ-ঝুঁকি এআই অ্যাপ্লিকেশন মূল্যায়ন: বিশেষত উচ্চ বিশ্বাসযোগ্যতার প্রয়োজন এমন এআই সিস্টেম মূল্যায়নের জন্য উপযুক্ত
একাডেমিক গবেষণা: গবেষণা সম্প্রদায়কে মডেল তুলনার জন্য একটি ন্যায্য প্ল্যাটফর্ম প্রদান করা
শিল্প মান নির্ধারণ: শিল্প মান মূল্যায়ন কাঠামোর ভিত্তি হিসাবে কাজ করা
নিয়ন্ত্রক সম্মতি: এআই সিস্টেমের নিয়ন্ত্রক মূল্যায়নের জন্য প্রযুক্তিগত সহায়তা প্রদান করা

সংদর্ভ

পেপারটি ৫৬টি সম্পর্কিত সাহিত্য উদ্ধৃত করে, যা এআই মূল্যায়ন, বেঞ্চমার্কিং, ডেটা দূষণ, খ্যাতি সিস্টেম এবং অন্যান্য একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ অন্তর্ভুক্ত করে, এর অবস্থানের জন্য পর্যাপ্ত তাত্ত্বিক সমর্থন প্রদান করে।

সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ অবস্থান পেপার যা শুধুমাত্র বর্তমান এআই মূল্যায়ন সিস্টেমের সমস্যাগুলি গভীরভাবে বিশ্লেষণ করে না বরং নির্দিষ্ট সম্ভাব্য সমাধানও প্রস্তাব করে। PeerBench এর ডিজাইন লেখকদের এআই মূল্যায়নের ভবিষ্যত উন্নয়নের প্রতি গভীর চিন্তাভাবনা প্রতিফলিত করে, এবং এর প্রোটোটাইপ বাস্তবায়ন ধারণার সম্ভাব্যতা প্রদর্শন করে। যদিও বড় আকারের বাস্তবায়নে এখনও চ্যালেঞ্জ রয়েছে, এটি এআই মূল্যায়ন ক্ষেত্রের উন্নয়নের জন্য একটি স্পষ্ট দিকনির্দেশনা প্রদান করে।