Benchmarking is Broken -- Don't Let AI be its Own Judge
Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic
المعايير مكسورة -- لا تدع الذكاء الاصطناعي يكون حاكماً على نفسه
العنوان: المعايير مكسورة -- لا تدع الذكاء الاصطناعي يكون حاكماً على نفسه
المؤلفون: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
التصنيف: cs.AI cs.LG
وقت النشر/المؤتمر: المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية (NeurIPS 2025)
مع التطور السريع لتكنولوجيا الذكاء الاصطناعي والنمو السريع لقيمتها السوقية، تواجه تقييمات الذكاء الاصطناعي تحديات حرجة. تكشف المعايير الحالية عن ثغرات خطيرة، بما في ذلك تلوث البيانات والإبلاغ الانتقائي من قبل مطوري النماذج، وهذه المشاكل تعزز الضجة الإعلامية، بينما قد يؤدي نقص التحكم في جودة البيانات إلى تقييمات متحيزة. في سياق توافد عدد كبير من المشاركين إلى مجال الذكاء الاصطناعي، يجعل هذا النهج "الغرب المتوحش" من الصعب جداً التمييز بين التقدم الحقيقي والادعاءات المبالغ فيها. تؤكد هذه الورقة أن الطريقة الحالية للسماح بحرية كاملة غير مستدامة، وأن التقدم الحقيقي في الذكاء الاصطناعي يتطلب إطار عمل موحد وفوري وخاضع للتحكم في الجودة. لهذا الغرض، تحلل الورقة الأخطاء النظامية في التقييم الحالي للذكاء الاصطناعي، وتقترح المتطلبات الأساسية للتقييم من الجيل التالي، وتقدم PeerBench -- مخطط تقييم خاضع للحكم المجتمعي.
تستشهد الورقة بـ 56 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك تقييم الذكاء الاصطناعي والمعايير وتلوث البيانات وأنظمة السمعة وغيرها، مما يوفر دعماً نظرياً قوياً لموقفها.
التقييم الشامل: هذه ورقة ذات أهمية كبيرة تحلل بعمق مشاكل نظام التقييم الحالي للذكاء الاصطناعي وتقترح حلاً عملياً وملموساً. يعكس تصميم PeerBench التفكير العميق للمؤلفين حول التطور المستقبلي لتقييم الذكاء الاصطناعي، وتنفيذه النموذجي يوضح جدوى المفهوم. على الرغم من أنه لا يزال يواجه تحديات في التنفيذ على نطاق واسع، إلا أنه يشير إلى اتجاه التطور في مجال تقييم الذكاء الاصطناعي.