2025-11-17T00:55:12.821885

Benchmarking is Broken -- Don't Let AI be its Own Judge

Cheng, Wohnig, Gupta et al.
The meteoric rise of AI, with its rapidly expanding market capitalization, presents both transformative opportunities and critical challenges. Chief among these is the urgent need for a new, unified paradigm for trustworthy evaluation, as current benchmarks increasingly reveal critical vulnerabilities. Issues like data contamination and selective reporting by model developers fuel hype, while inadequate data quality control can lead to biased evaluations that, even if unintentionally, may favor specific approaches. As a flood of participants enters the AI space, this "Wild West" of assessment makes distinguishing genuine progress from exaggerated claims exceptionally difficult. Such ambiguity blurs scientific signals and erodes public confidence, much as unchecked claims would destabilize financial markets reliant on credible oversight from agencies like Moody's. In high-stakes human examinations (e.g., SAT, GRE), substantial effort is devoted to ensuring fairness and credibility; why settle for less in evaluating AI, especially given its profound societal impact? This position paper argues that the current laissez-faire approach is unsustainable. We contend that true, sustainable AI advancement demands a paradigm shift: a unified, live, and quality-controlled benchmarking framework robust by construction, not by mere courtesy and goodwill. To this end, we dissect the systemic flaws undermining today's AI evaluation, distill the essential requirements for a new generation of assessments, and introduce PeerBench (with its prototype implementation at https://www.peerbench.ai/), a community-governed, proctored evaluation blueprint that embodies this paradigm through sealed execution, item banking with rolling renewal, and delayed transparency. Our goal is to pave the way for evaluations that can restore integrity and deliver genuinely trustworthy measures of AI progress.
academic

المعايير مكسورة -- لا تدع الذكاء الاصطناعي يكون حاكماً على نفسه

المعلومات الأساسية

  • معرّف الورقة: 2510.07575
  • العنوان: المعايير مكسورة -- لا تدع الذكاء الاصطناعي يكون حاكماً على نفسه
  • المؤلفون: Zerui Cheng, Stella Wohnig, Ruchika Gupta, Samiul Alam, Tassallah Abdullahi, João Alves Ribeiro, Christian Nielsen-Garcia, Saif Mir, Siran Li, Jason Orender, Seyed Ali Bahrainian, Daniel Kirste, Aaron Gokaslan, Mikołaj Glinka, Carsten Eickhoff, Ruben Wolff
  • التصنيف: cs.AI cs.LG
  • وقت النشر/المؤتمر: المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية (NeurIPS 2025)
  • رابط الورقة: https://arxiv.org/abs/2510.07575

الملخص

مع التطور السريع لتكنولوجيا الذكاء الاصطناعي والنمو السريع لقيمتها السوقية، تواجه تقييمات الذكاء الاصطناعي تحديات حرجة. تكشف المعايير الحالية عن ثغرات خطيرة، بما في ذلك تلوث البيانات والإبلاغ الانتقائي من قبل مطوري النماذج، وهذه المشاكل تعزز الضجة الإعلامية، بينما قد يؤدي نقص التحكم في جودة البيانات إلى تقييمات متحيزة. في سياق توافد عدد كبير من المشاركين إلى مجال الذكاء الاصطناعي، يجعل هذا النهج "الغرب المتوحش" من الصعب جداً التمييز بين التقدم الحقيقي والادعاءات المبالغ فيها. تؤكد هذه الورقة أن الطريقة الحالية للسماح بحرية كاملة غير مستدامة، وأن التقدم الحقيقي في الذكاء الاصطناعي يتطلب إطار عمل موحد وفوري وخاضع للتحكم في الجودة. لهذا الغرض، تحلل الورقة الأخطاء النظامية في التقييم الحالي للذكاء الاصطناعي، وتقترح المتطلبات الأساسية للتقييم من الجيل التالي، وتقدم PeerBench -- مخطط تقييم خاضع للحكم المجتمعي.

السياق البحثي والدافع

المشاكل الأساسية

يسعى هذا البحث إلى معالجة المشاكل النظامية في مجال معايير الذكاء الاصطناعي:

  1. تلوث البيانات: قد تتسرب معايير الاختبار العامة إلى مجموعات التدريب، مما يؤدي إلى حفظ مجموعة الاختبار والنتائج المضخمة
  2. الإبلاغ الانتقائي: قد ينقل منشئو النماذج فقط النتائج من مجموعات فرعية مفيدة من المهام
  3. تجزئة التقييم: غياب معايير تقييم موحدة وواجهات
  4. غياب ضمانات الإنصاف: بالمقارنة مع الاختبارات البشرية عالية المخاطر، يفتقد تقييم الذكاء الاصطناعي إلى المراقبة والتحقق من الهوية

أهمية المشكلة

  • التأثير الاجتماعي لتكنولوجيا الذكاء الاصطناعي يزداد عمقاً، مما يتطلب آليات تقييم موثوقة
  • أوجه القصور في النظام البيئي للتقييم الحالي تشوش الإشارات العلمية وتقوض ثقة الجمهور
  • بالقياس على الأسواق المالية التي تحتاج إلى هيئات تنظيمية موثوقة، يحتاج مجال الذكاء الاصطناعي بالمثل إلى معايير تقييم موثوقة

قيود الطرق الموجودة

  1. المعايير الثابتة: مثل MMLU و GSM8K وغيرها تصل بسرعة إلى التشبع وسهلة الحفظ
  2. المعايير الديناميكية: مثل LiveBench على الرغم من التحديث المستمر، تعتمد على فريق واحد وحجمها محدود
  3. المعايير الخاصة: تقلل التلوث لكن تفتقد الشفافية وتحمل مخاطر التحيز
  4. التقييم بمساعدة الجماهير: مثل Chatbot Arena تفتقد التحقق من الهوية وسهلة التلاعب

المساهمات الأساسية

  1. النقد النظامي: تحليل شامل للأخطاء الهيكلية في المعايير الحالية، بما في ذلك مشاكل التلوث والتجزئة والاحتكار
  2. بيان الموقف: اقتراح إعادة تحديد موضع تقييم الذكاء الاصطناعي كاختبار آمن وموحد، ومبادئ التصميم التي توازن بين الانفتاح والصرامة
  3. العمارة النموذجية: تصميم نظام PeerBench، يتضمن سير عمل محدد من عشر خطوات، وقطع موقعة بشكل تشفيري، وآلية سمعة خفيفة الوزن وطرق توحيد النتائج
  4. التنفيذ العملي: توفير تنفيذ نموذجي لـ PeerBench (https://peerbench.ai)، يوضح جدوى المفهوم

شرح الطريقة

المبادئ السبعة للنموذج الجديد

  1. مجموعة الاختبار السرية: تبقى عناصر التقييم غير مكشوفة قبل التشغيل
  2. التنفيذ الخاضع للإشراف: يتم تقييم النماذج في صندوق رمل موحد مختوم، مع تسجيل وتوقيع جميع المدخلات والمخرجات بشكل تشفيري
  3. الحكم المجتمعي: شبكة من المدققين متعددي أصحاب المصلحة تنفذ القواعد والحكم
  4. التحديث المستمر والنشاط: يتم إيقاف واستبدال نسبة ثابتة من الأسئلة في كل جولة
  5. القابلية للتدقيق والسلامة: يقدم المدققون مسبقاً قيم التجزئة للاختبارات والإجابات قبل النشر
  6. الوصول العادل: يمكن لأي فريق حقيقي تقديم نماذج، مع دفع رسوم تعويض حسابية فقط
  7. الإبلاغ عن مؤشرات متعددة: توفير درجات فرعية خاصة بالمجال والترتيب المئوي

تصميم معمارية PeerBench

أدوار المشاركين

  • المساهمون بالبيانات: ينشئون مجموعات اختبار خاصة ودوال تسجيل قابلة للتنفيذ
  • المراجعون: يقيمون جودة الاختبارات المقدمة، ينتجون تقييمات ترتيبية
  • منشئو النماذج: يكشفون نقاط نهاية الاستدلال ويسجلون تدفقات محددة
  • خادم التنسيق: يصادق على التحميلات، يدير المستودع النشط، يجدول المراجعة من قبل الأقران
  • مستخدمو النهاية: الباحثون والصحفيون وغيرهم الذين يستشيرون لوحة الترتيب الفورية

نظام لوحات الترتيب الثلاثة

  1. لوحة ترتيب المساهمين بالبيانات:
    ContributorScore(c) = Σ quality(T_i^(c)) + bonuses
    
  2. لوحة ترتيب المراجعين:
    ReviewerScore(r) = Pearson({q_r^(i)}, {q^(i)})
    
  3. لوحة ترتيب النماذج:
    ModelScore(m) = (Σ w(T_i) s_i^(m)) / (Σ w(T_i))
    

سير العمل من البداية إلى النهاية

مرحلة الإعداد

  • يسجل المشاركون باستخدام بيانات اعتماد قابلة للتحقق
  • توليد مفاتيح التوقيع العام
  • المساهمون والمراجعون يودعون ضمانات

عملية التقييم المستمرة

T1. تقديم الاختبار والالتزام: يقدم المساهمون الاختبار T^(c) ودالة التسجيل F^(c)، يسجل النظام الالتزام المرتبط h = Com(T^(c), F^(c))

T2. تقييم النموذج: يجدول الخادم فوراً الاستعلامات لجميع النماذج المسجلة حالياً

T3. عملية المراجعة: التخصيص العشوائي للمراجعين، يتطلب ثلاث مراجعات صحيحة على الأقل

T4. حساب الأوزان:

w(T^(c)) = max{0, 0.7 * quality(T^(c)) + 0.3 * min(2, ρ_c/100)}

T5. إدارة المستودع: تدخل الاختبارات الجديدة المستودع النشط، مع إعطاء الأولوية لإيقاف الاختبارات ذات الوزن الصفري

T6. تحديث السمعة: تحديث سمعة جميع المشاركين ذوي الصلة بعد كل جولة

إعداد التجارب

معضلة الإنصاف الزمني

تحدد الورقة خيارين للتصميم:

  • الخيار أ: التسجيل الفوري عند الطلب: تسجيل فوري عند طلب النموذج، يزيد من الاستجابة
  • الخيار ب: التقييم المتزامن الدوري: تسجيل النماذج في نوافذ تقييم محددة مسبقاً، يضمن أقوى أشكال الإنصاف

يتبنى PeerBench نهجاً هجيناً، يدعم كلا النموذجين، مع إعطاء الأولوية لمرونة التسجيل الفوري في النموذج الأولي.

آليات الأمان والتدقيق

  • الكشف الجزئي: عرض جزء عشوائي صغير من الاختبار للمراجعين بصيغة للقراءة فقط وغير قابلة للنسخ
  • النشر الكامل: نشر الاختبارات والسجلات واستجابات النموذج بعد الإيقاف
  • آلية الخفض: إزالة المشاركين الذين تقل سمعتهم عن الحد الأدنى، مع خفض الضمانات للسلوك الخبيث

نتائج التجارب

التنفيذ النموذجي

توفر الورقة تنفيذاً نموذجياً فعلياً لـ PeerBench (https://peerbench.ai)، يوضح:

  • تنفيذ سير العمل الكامل
  • آليات تشغيل نظام السمعة
  • دعم التقييم متعدد التدفقات (الرياضيات وتوليد الأكواد والترجمة وغيرها)

صحة خيارات التصميم

تعالج الورقة المشاكل الشائعة من خلال تصميم العمارة:

  • تلوث البيانات والاختيار: يلتزم المدققون مسبقاً بمجموعات الاختبار، مع الحفاظ على السرية حتى نهاية الجولة
  • الغش بالبيانات الخاصة: يحدد المصدر العشوائي العام البيانات المكشوفة، مما يمنع المدققين من توقع عناصر التدقيق
  • جودة الاختبار: يتلقى كل اختبار مراجعات مستقلة متعددة، مع تحديد جودة البيانات لوزنها في النتيجة النهائية
  • إمكانية الوصول: التسجيل لجميع الأدوار خفيف الوزن، يدعم المشاركة الواسعة

الأعمال ذات الصلة

المعايير الثابتة ولوحات الترتيب

  • توفر MMLU و GSM8K و SuperGLUE وغيرها لقطات واضحة للتقدم، لكنها تصل بسرعة إلى التشبع وتتسرب إلى مجموعات التدريب
  • توسع BIG-Bench تغطية المهام، لكن المهام تصبح عامة عند النشر
  • يضيف HELM مؤشرات متعددة، لكنه يبقى ثابتاً بين فترات النشر

المعايير الديناميكية أو المقاومة للتلوث

  • يحدث LiveBench المهام بشكل مستمر، لكنه يعتمد على فريق مركزي واحد
  • يستكشف Dynabench جمع البيانات الخصومية مع الإنسان في الحلقة
  • تكشف مسابقات "كسر النموذج" الخصومية عن نقاط الضعف لكنها تفتقد التجميع المنهجي للنتائج

تفضيلات الإنسان ومنصات التقييم المفتوحة

  • تعزز سلالم Elo في Chatbot Arena و OpenAI Evals الانفتاح
  • تسمح لوحة HuggingFace LLM المفتوحة للمستخدمين بتحميل نصوص الاختبار
  • لكن هذه المنصات عرضة للرسائل غير المرغوبة والتصويت الآلي والتلوث غير المتتبع

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يعاني نظام معايير الذكاء الاصطناعي الحالي من أخطاء نظامية، مما يتطلب تحولاً في النموذج
  2. نموذج التقييم الخاضع للإشراف المستوحى من الاختبارات الموحدة البشرية هو حل قابل للتطبيق
  3. يوضح PeerBench التطبيق العملي للتقييم الخاضع للحكم المجتمعي والمقاوم للتلوث
  4. يجب إيجاد توازن بين الانفتاح والصرامة

القيود

  1. الإنصاف الزمني: يوجد توتر أساسي بين التقييم الفوري والتقييم المتزامن
  2. تكاليف التنفيذ: يتطلب إنشاء اختبارات عالية الجودة المستمرة وصيانة البنية التحتية
  3. حوافز المشاركة: يتطلب حوافز اقتصادية مناسبة للحفاظ على مشاركة المراجعين
  4. تعقيد الحكم: قد تواجه الحكومة متعددة أصحاب المصلحة تحديات التنسيق

الاتجاهات المستقبلية

  1. تصميم الآليات: مزيد من البحث في التحليل الآمن من حيث نظرية الألعاب لتعزيز الصلابة الاقتصادية والخصومية للإطار
  2. تحسين الحكم: تحسين هياكل الحكم متعددة المؤسسات وأنظمة العضوية الدوارة
  3. تحسين التكاليف: استكشاف طرق لتقليل التكاليف التشغيلية، مثل تقديم الاستدلال المحتوى
  4. التوحيد: دفع التعاون مع المنظمات المحايدة الموجودة (مثل NIST أو MLCommons)

التقييم المتعمق

المزايا

  1. تحديد المشكلة الدقيق: تحديد دقيق للمشاكل الأساسية في النظام البيئي الحالي لتقييم الذكاء الاصطناعي
  2. الحل المبتكر: اقتراح تحول نموذجي من لوحات الترتيب الثابتة إلى الاختبارات الخاضعة للإشراف
  3. قوة عملية قوية: توفير نموذج أولي فعلي وسير عمل مفصل
  4. أساس نظري متين: الاستفادة من الخبرة الناضجة للاختبارات الموحدة البشرية
  5. التوجه المجتمعي: التركيز على الحكم المجتمعي واللامركزية، تجنب نقاط الفشل الفردية

أوجه القصور

  1. تحديات قابلية التوسع: قد يواجه التنفيذ على نطاق واسع مشاكل في تنسيق المشاركين والحوافز
  2. مشكلة البداية الباردة: يحتاج النظام الجديد إلى عدد كافٍ من المشاركين الأوليين لإنشاء المصداقية
  3. النموذج الاقتصادي غير المكتمل: على الرغم من ذكر آليات الخفض، تحتاج تفاصيل الحوافز الاقتصادية إلى مزيد من التطوير
  4. تعقيد التنفيذ التقني: يتطلب التوقيع التشفيري وأنظمة السمعة وغيرها مستويات عالية من التعقيد التقني

التأثير

  1. المساهمة الأكاديمية: توفير إطار نظري جديد واتجاه عملي لمجال تقييم الذكاء الاصطناعي
  2. التأثير الصناعي: قد يدفع صناعة الذكاء الاصطناعي لإنشاء معايير تقييم أكثر عدلاً وموثوقية
  3. الأهمية السياسية: توفير أساس تقني لتنظيم الذكاء الاصطناعي ووضع المعايير
  4. القيمة طويلة الأجل: إنشاء مخطط لنظام بيئي مستدام لتقييم الذكاء الاصطناعي

السيناريوهات القابلة للتطبيق

  1. تقييم تطبيقات الذكاء الاصطناعي عالية المخاطر: مناسب بشكل خاص لتقييم أنظمة الذكاء الاصطناعي التي تتطلب درجات عالية من الموثوقية
  2. البحث الأكاديمي: توفير منصة عادلة لمقارنة النماذج لمجتمع البحث
  3. وضع معايير الصناعة: يمكن أن يكون بمثابة أساس لإطار تقييم معايير الصناعة
  4. الامتثال التنظيمي: توفير دعم تقني لتقييم الأنظمة الخاضعة للتنظيم

المراجع

تستشهد الورقة بـ 56 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك تقييم الذكاء الاصطناعي والمعايير وتلوث البيانات وأنظمة السمعة وغيرها، مما يوفر دعماً نظرياً قوياً لموقفها.


التقييم الشامل: هذه ورقة ذات أهمية كبيرة تحلل بعمق مشاكل نظام التقييم الحالي للذكاء الاصطناعي وتقترح حلاً عملياً وملموساً. يعكس تصميم PeerBench التفكير العميق للمؤلفين حول التطور المستقبلي لتقييم الذكاء الاصطناعي، وتنفيذه النموذجي يوضح جدوى المفهوم. على الرغم من أنه لا يزال يواجه تحديات في التنفيذ على نطاق واسع، إلا أنه يشير إلى اتجاه التطور في مجال تقييم الذكاء الاصطناعي.