2025-11-21T04:13:15.591642

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise

Harada, Yoshida, Kojima et al.
The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
academic

تحسين معايير تقييم المقالات الآلية لنماذج اللغة من خلال التأمل والمراجعة

المعلومات الأساسية

  • معرّف الورقة: 2510.09030
  • العنوان: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
  • المؤلفون: كينو هارادا، لوي يوشيدا، تاكيشي كوجيما، يوسوكي إيواساوا، يوتاكا ماتسو (جامعة طوكيو)
  • التصنيف: cs.CL (اللسانيات الحاسوبية)
  • تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.09030

الملخص

يتأثر أداء نماذج اللغة الكبيرة (LLMs) بشكل كبير بالمطالبات المعطاة. يستكشف هذا البحث، المستوحى من مجال تحسين المطالبات، إمكانية تعزيز التقييم الآلي للمقالات (AES) من خلال تحسين معايير التقييم التي تستخدمها نماذج اللغة. على وجه التحديد، تقوم الطريقة بمطالبة النموذج بالتأمل في أسباب تقييمه والاختلافات مع التقييمات البشرية، مما يؤدي إلى تحسين معايير التقييم بشكل متكرر. أظهرت التجارب باستخدام GPT-4.1 و Gemini-2.5-Pro و Qwen-3-Next-80B-A3B-Instruct على مجموعات بيانات TOEFL11 و ASAP تحسنًا في كابا المرجح التربيعي (QWK) بمقدار 0.19 و 0.47 على التوالي. وجدير بالملاحظة أنه حتى مع استخدام معايير ابتدائية بسيطة، تحقق الطريقة قيم QWK مماثلة أو أفضل من استخدام معايير مفصلة مكتوبة يدويًا. تبرز النتائج أهمية التحسين المتكرر للمعايير في أنظمة التقييم الآلي المستندة إلى نماذج اللغة لتعزيز الاتساق مع التقييم البشري.

السياق البحثي والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تستخدم أنظمة التقييم الآلي للمقالات المستندة إلى نماذج اللغة معايير تقييم ثابتة ومحددة مسبقًا، وهذه المعايير المصممة للمقيّمين البشريين قد لا تكون الخيار الأمثل لنماذج اللغة.
  2. الأهمية: مع الاستخدام الواسع لنماذج اللغة في المجال التعليمي، هناك حاجة لأنظمة تقييم آلي قادرة على تقديم تعليقات فورية وقابلة للتوسع لتخفيف عبء التقييم على المعلمين.
  3. القيود الحالية:
    • تتجاهل أنظمة التقييم الآلي المستندة إلى نماذج اللغة الحالية عملية المعايرة التعاونية للمقيّمين البشريين
    • يقوم المقيّمون البشريون عادة بتقييم عينات من المقالات، ومناقشة الاختلافات في الأحكام، وتحسين الفهم المشترك للمعايير
    • يتم تجاهل هذه الممارسة التأملية المتكررة في أنظمة التقييم الآلي الحالية، مما يحد من اتساقها مع نمط التقييم البشري

دافع البحث

مستوحاة من تقنيات تحسين المطالبات وعملية معايرة المقيّمين البشريين، يقترح المؤلفون طريقة متكررة تمكّن نماذج اللغة من التأمل وتحسين معايير التقييم بناءً على أدائها في تقييم عينات من المقالات.

المساهمات الأساسية

  1. اقتراح طريقة تحسين معايير متكررة: بناءً على آلية التأمل والمراجعة، تمكّن نماذج اللغة من تحسين معايير التقييم تلقائيًا بناءً على الاختلافات مع التقييمات البشرية
  2. التحقق من فعالية الطريقة: إثبات تحسن كبير في الأداء على مجموعتي بيانات قياسيتين باستخدام ثلاثة نماذج لغة مختلفة
  3. اكتشاف رؤى جديدة حول تصميم المعايير: حتى عند البدء من أبسط المعايير، يمكن للمعايير المحسّنة أن تتفوق على المعايير البشرية المصممة بعناية
  4. توفير إطار عمل خوارزمي عملي: تقديم خوارزمية تحسين متكررة كاملة بقابلية إعادة إنتاج جيدة

شرح الطريقة

تعريف المهمة

  • المدخلات: نص المقالة x ومعايير التقييم R
  • المخرجات: التقييم المتنبأ به ŷ والمبررات النصية z
  • الهدف: تعظيم كابا المرجح التربيعي (QWK) بين تقييمات نموذج اللغة والتقييمات البشرية

معمارية النموذج

مسار الخوارزمية

تتضمن الطريقة المكونات الأساسية التالية:

  1. وظيفة التقييم: يستقبل النموذج M المعايير والمقالة، ويولد التقييم المتنبأ به والمبررات النصية
  2. وظيفة التحسين: يولد النموذج M معايير محسّنة بناءً على المعايير السابقة والمبررات المولدة والاختلافات في التقييم

خوارزمية التحسين المتكرر (الخوارزمية 1)

المدخلات: مجموعة البيانات D، نموذج اللغة M، المعايير الابتدائية Rseed
المعاملات: عدد التكرارات T، حجم الدفعة b

1. Rbest ← Rinit
2. QWKbest ← EVALUATE(M, Rbest, Dval)
3. for t = 1 to T do
4.   B ← SAMPLEMINIBATCH(Dtrain, b)
5.   FbData ← ∅
6.   for each (x, y) ∈ B do
7.     (ŷ, z) ← SCORE(M, Rbest, x)
8.     Add (rationale=z, pred_score=ŷ, true_score=y) to FbData
9.   end for
10.  Rnew ← REFINE(M, Rbest, FbData)
11.  QWKnew ← EVALUATE(M, Rnew, Dval)
12.  if QWKnew > QWKbest then
13.    Rbest ← Rnew
14.    QWKbest ← QWKnew
15.  end if
16. end for
17. return Rbest

نقاط الابتكار التقني

  1. آلية التأمل الذاتي: يمكن للنموذج تحليل مبررات تقييمه والاختلافات مع التقييمات البشرية
  2. التحسين المتكرر: تحسين جودة المعايير تدريجيًا من خلال عدة جولات من التحسين
  3. الحد الأدنى من المتطلبات الابتدائية: يمكن البدء من معايير بسيطة جدًا (مثل "قيّم بناءً على محتوى الإجابة، في نطاق 1-6")
  4. التحديثات المدفوعة بالأداء: يتم تحديث المعايير فقط عندما يُظهر المعيار الجديد أداءً أفضل على مجموعة التحقق

إعداد التجارب

مجموعات البيانات

مجموعة بيانات TOEFL11

  • الحجم: 12,100 مقالة، 8 مطالبات كتابية
  • التقييم: 3 مستويات كفاءة (عالي، متوسط، منخفض)، محولة من المقياس الأصلي 5 نقاط
  • التقسيم: مجموعة التدريب 100 مقالة، مجموعة التحقق 100 مقالة، مجموعة الاختبار 1,100 مقالة

مجموعة بيانات ASAP

  • المجموعة الفرعية المستخدمة: المطالبة 1 (P1)، مقياس 6 نقاط
  • التقسيم: مجموعة الاختبار 179 مقالة (10%)، مجموعة التدريب والتحقق 100 مقالة لكل منهما
  • الخصائص: تتضمن تعليقات من مقيّمين بشريين اثنين

مقاييس التقييم

  • المقياس الرئيسي: كابا المرجح التربيعي (QWK)، مقياس شائع الاستخدام في تقييم أنظمة التقييم الآلي
  • الطريقة الإحصائية: تُجرى كل تجربة 3 مرات، مع الإبلاغ عن المتوسط والانحراف المعياري

الطرق المقارنة

  • الطريقة الأساسية: استخدام معايير تقييم مفصلة مكتوبة يدويًا
  • أنواع المعايير الابتدائية:
    • simplest_rubric: أبسط معيار
    • human_rubric: دليل التقييم الرسمي المفصل
    • simplified_human_rubric: معيار بشري مبسط

تفاصيل التنفيذ

  • عدد التكرارات: T = 10
  • حجم الدفعة: B = 10
  • النماذج: GPT-4.1, GPT-5-mini, Gemini-2.5-Flash, Gemini-2.5-Pro, Qwen3-Next-80B-A3B-Instruct
  • إعدادات درجة الحرارة: يتم التعديل حسب النموذج المختلف (0.7-1.0)

نتائج التجارب

النتائج الرئيسية

مقدار تحسن QWK

  • مجموعة بيانات ASAP: تحسن أقصى 0.47 QWK
  • مجموعة بيانات TOEFL11: تحسن أقصى 0.19 QWK
  • أداء النماذج: من بين 5 نماذج، حقق 4 منها تحسنًا على ASAP، و2 على TOEFL11

الأداء مع معايير ابتدائية مختلفة (الجدول 1)

المعيار الابتدائيASAPTOEFL
محسّن - معيار بشري0.460.56
محسّن - معيار مبسط0.410.58
محسّن - أبسط معيار0.480.64
غير محسّن - معيار بشري0.260.58
غير محسّن - معيار مبسط0.330.59
غير محسّن - أبسط معيار0.170.57

الاكتشافات الرئيسية

  1. إمكانات أبسط معيار: عند البدء من أبسط معيار "قيّم بناءً على محتوى الإجابة، في نطاق 1-6"، يمكن للمعايير المحسّنة أن تتفوق على المعايير البشرية المصممة بعناية
  2. خصائص المعايير المحسّنة:
    • إضافة تأكيد بصري (مثل النص الغامق) لتبرز الأدلة الرئيسية
    • إضافة جدول ملخص موجز في نهاية المعيار
    • قواعد شرطية واضحة: "إذا لوحظ X، فأعط التقييم s"
  3. الاختلافات بين مجموعات البيانات: يستخدم TOEFL11 تقييمًا ثلاثي الحبيبات (منخفض/متوسط/عالي)، مع قيم QWK الإجمالية الأعلى، مما قد يحد من مساحة التحسين

تحليل الحالات

يعرض الشكل 3 معيار ASAP P1 المحسّن من أبسط معيار، يتضمن:

  • مبادئ توجيهية تفصيلية للتقييم
  • شرح محدد للفرق بين التقييمات 4 و 5
  • جدول ملخص تقييم منظم
  • قواعد حكم شرطية واضحة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. التقييم الآلي لنماذج اللغة: استخدام قوائم التحقق والمعايير لتقييم المهام غير المتحققة منها
  2. تطور تقنيات التقييم الآلي للمقالات: اقتراح تقنيات تقييم آلي مختلفة للمقالات
  3. أبحاث تصميم المعايير:
    • اكتشاف Furuhashi لظاهرة "العناصر السلبية"
    • اكتشاف Yoshida أن المعايير الأكثر تفصيلاً لا تؤدي دائمًا إلى تحسن في الأداء

مزايا هذه الورقة

بالمقارنة مع الأبحاث الموجودة، تقترح هذه الورقة للمرة الأولى طريقة تمكّن نموذج اللغة من التأمل في مخرجاته الخاصة لتحسين المعايير بشكل متكرر، محاكاة عملية معايرة المقيّمين البشريين.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. التحسين المتكرر للمعايير فعال: تم التحقق من فعالية الطريقة على عدة مجموعات بيانات ونماذج
  2. المعيار الابتدائي غير مهم: حتى عند البدء من معيار بسيط جدًا، يمكن تحقيق أداء ممتازة
  3. جدوى الأتمتة: يمكن لنماذج اللغة تحديد معايير التقييم ذات الصلة بشكل مستقل

القيود

  1. نطاق مجموعات البيانات محدود: تم إجراء التجارب فقط على TOEFL11 و ASAP Prompt 1
  2. متطلبات البيانات المعلمة: تتطلب عملية التحسين 200 عينة معلمة
  3. مقياس التقييم الفردي: يتم تحسين QWK فقط كهدف، مما قد لا يلتقط جميع جوانب جودة التقييم
  4. قيود الأساس العالي: مساحة التحسين محدودة في مجموعات البيانات ذات درجات الأساس العالية بالفعل

الاتجاهات المستقبلية

  1. التوسع إلى أنواع مقالات ومجالات أكثر
  2. استكشاف طرق لتقليل متطلبات البيانات المعلمة
  3. دراسة استراتيجيات التحسين متعددة المقاييس
  4. فهم أعمق لخصائص المعايير المناسبة لنماذج اللغة

التقييم المتعمق

المزايا

  1. قوة الابتكار في الطريقة:
    • تطبيق أول لأفكار تحسين المطالبات على تحسين معايير التقييم الآلي
    • محاكاة عملية معايرة المقيّمين البشريين، بمنطقية حدسية قوية
    • تصميم خوارزمي بسيط وفعال
  2. تصميم تجريبي شامل:
    • التحقق باستخدام نماذج ومجموعات بيانات متعددة
    • مقارنة مع معايير ابتدائية مختلفة
    • تحليل إحصائي كامل للدلالة
  3. قوة إقناع النتائج:
    • تحسن كبير في الأداء (أقصى 0.47 QWK)
    • اكتشاف أن أبسط معيار يتفوق على المعايير البشرية ذو أهمية كبيرة
    • توفير أمثلة محددة للمعايير المحسّنة
  4. قيمة عملية عالية:
    • الخوارزمية سهلة التنفيذ والإعادة
    • يمكن أن تقلل من تكاليف كتابة المعايير يدويًا
    • توفير أفكار جديدة لتحسين أنظمة التقييم الآلي

أوجه القصور

  1. نطاق التجارب محدود:
    • اختبار مجموعتي بيانات فقط، مع عدم التأكد من القابلية للتعميم
    • نقص التحقق من خلفيات لغوية وثقافية مختلفة
    • عدم الأخذ في الاعتبار الاختلافات في أنواع المقالات المختلفة
  2. نقص التحليل النظري:
    • نقص التحليل النظري العميق لسبب فعالية الطريقة
    • عدم استكشاف الخصائص الجوهرية والأنماط في المعايير المحسّنة
    • نقص الضمانات النظرية للتقارب والاستقرار
  3. غياب تحليل التكاليف:
    • عدم تحليل تفصيلي للتكاليف الحسابية والوقتية
    • نقص مقارنة فعالية التكاليف مع الطرق التقليدية
    • تحليل غير كافٍ لجدوى النشر العملي

التأثير

  1. المساهمة الأكاديمية:
    • توفير اتجاه بحثي جديد لمجال التقييم الآلي للمقالات
    • إثبات إمكانية التحسين الذاتي لنماذج اللغة في مهام التقييم
    • قد يلهم المزيد من الأبحاث حول أنظمة التقييم التكيفية
  2. القيمة العملية:
    • يمكن تطبيقها مباشرة على أنظمة التقييم الآلي الحالية المستندة إلى نماذج اللغة
    • تساعد شركات التكنولوجيا التعليمية على تحسين منتجاتها
    • توفير أدوات جديدة لتوحيد معايير التقييم التعليمي
  3. قابلية الإعادة:
    • توفير وصف خوارزمي كامل
    • تضمين إعدادات تجريبية مفصلة
    • توفر جيد للأكواد والبيانات

السيناريوهات المناسبة

  1. التقييم التعليمي: تقييم المقالات في الامتحانات الموحدة المختلفة
  2. التعليم الإلكتروني: التقييم الآلي للواجبات على منصات MOOC
  3. تعلم اللغات: تقييم مهارات الكتابة في اللغة الثانية
  4. التدريب المؤسسي: تقييم مهارات الكتابة للموظفين

المراجع

تستشهد الورقة بعدة أعمال ذات صلة مهمة، بما في ذلك:

  • المتعلقة بتحسين المطالبات: Khattab et al. (2023), Agrawal et al. (2025)
  • المتعلقة بالتقييم الآلي: Mizumoto and Eguchi (2023), Lee et al. (2024)
  • معايرة المقيّمين البشريين: Trace et al. (2016), Ouyang et al. (2022)
  • التحسين الذاتي لنماذج اللغة: Madaan et al. (2023), Kamoi et al. (2024)

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة مبتكرة وتحقق نتائج تجريبية مهمة. على الرغم من وجود مجال للتحسين في نطاق التجارب والتحليل النظري، فإن الفكرة الأساسية لها قيمة عملية وأكاديمية قوية جدًا، وتقدم مساهمة مهمة لتطور مجال التقييم الآلي للمقالات.