2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic

إيجاد الإجابات في أهمية التفكير: إعادة النظر في تقييم نماذج اللغة الكبيرة مع التفكير المنطقي

المعلومات الأساسية

  • معرّف الورقة: 2510.14773
  • العنوان: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
  • المؤلفون: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
  • التصنيف: cs.CL cs.AI
  • تاريخ النشر: 16 أكتوبر 2024
  • رابط الورقة: https://arxiv.org/abs/2510.14773

الملخص

تبحث هذه الورقة في مسألة حاسمة في تقييم قدرات التفكير المنطقي لنماذج اللغة الكبيرة (LLM): التأثير الكبير لطريقة استخراج الإجابات على تقييم أداء النموذج. تكتشف الدراسة أن أداء نماذج التفكير والتوزيع النهائي للإجابات يعتمدان بشكل كبير على خوارزمية استخراج الإجابات المستخدمة. لحل هذه المشكلة، يقترح المؤلفون إطار عمل "إعادة توليد الإجابة" (Answer Regeneration)، الذي يحقق تقييماً قوياً مستقلاً عن قواعد الاستخراج من خلال خطوة استدلال نموذج إضافية باستخدام بادئة "Answer:".

خلفية البحث والدافع

المشكلة الأساسية

عادة ما يعتمد التقييم التقليدي لنماذج اللغة الكبيرة على توزيع الاحتمالية لاختيار الإجابة، لكن بالنسبة للنماذج التي تتطلب التفكير المنطقي، تصبح طريقة استخراج الإجابات حاسمة. تواجه طرق الاستخراج القائمة على القواعس المشاكل التالية:

  1. تنوع الصيغ: تختلف صيغ مخرجات نماذج التفكير بشكل كبير، ولا يمكن لقاعدة استخراج واحدة أن تغطي جميع الحالات
  2. الاختلافات بين النماذج: تستخدم النماذج المختلفة صيغ إجابات مختلفة، مما يتطلب قواعس استخراج مخصصة لكل نموذج
  3. عدم اتساق التقييم: قد تؤدي نفس مخرجات النموذج إلى نتائج تقييم مختلفة تماماً بسبب اختلاف قواعس الاستخراج

دافع البحث

  • مشكلة القابلية للتكرار: قد تنشأ الفروقات بين الأداء المُبلغ عنه علناً والنتائج المُعاد إنتاجها من طرق استخراج الإجابات غير المُفصح عنها
  • عدالة التقييم: قد تُحدث الطرق القائمة على القواعس انحيازاً تجاه نماذج معينة
  • خصوصية نماذج التفكير: يجعل التعقيد في مخرجات التفكير المتسلسل (CoT) الطرق التقليدية للتقييم غير مناسبة

المساهمات الأساسية

  1. أول دراسة منهجية لحساسية طرق استخراج الإجابات على تقييم نماذج التفكير، تكشف عن هذه المشكلة المُهملة لكن الحاسمة
  2. اقتراح إطار عمل Answer Regeneration، الذي يحقق طريقة تقييم قوية مستقلة عن قواعس الاستخراج
  3. إثبات عمومية الطريقة على مهام متعددة بما فيها الأسئلة متعددة الخيارات والمسائل الرياضية والإجابة على الأسئلة المفتوحة
  4. توفير ترتيب نماذج أكثر موثوقية، مما يجعل نتائج التقييم أكثر توافقاً مع الحدس (مثل تفوق النماذج الكبيرة على الصغيرة)

شرح الطريقة

تعريف المهمة

بالنظر إلى مخرجات نموذج التفكير (التي تتضمن عملية التفكير الكاملة)، يجب استخراج إجابته النهائية بدقة للتقييم. تعتمد الطرق التقليدية على قواعس التعبيرات النمطية المصنوعة يدوياً، بينما تقترح هذه الورقة حلاً توليدياً.

إطار عمل Answer Regeneration

البنية العامة

الإدخال الأصلي + مخرجات التفكير + "Answer:" → استدلال النموذج → إجابة نهائية مبسطة

الخطوات الأساسية

  1. تحضير الإدخال: دمج السؤال الأصلي وعملية التفكير للنموذج وكلمة التوجيه "Answer:"
  2. إعادة الاستدلال: استخدام النموذج (بدون وضع التفكير) لخطوة استدلال إضافية
  3. استخراج الإجابة: استخراج الإجابة النهائية من المخرجات المبسطة

المزايا التقنية

  • الأساس الاحتمالي: بالنسبة للأسئلة متعددة الخيارات، يمكن استخدام اختيار الإجابة القائم على الاحتمالية
  • تبسيط المخرجات: تكون صيغة الإجابة المُولدة أكثر إيجازاً، مما يسهل الاستخراج
  • الاستقلالية عن القواعس: لا تعتمد على قواعس يدوية معقدة

نقاط الابتكار التقني

1. استخراج الإجابات التوليدي

بدلاً من المطابقة التقليدية للقواعس، يستخدم القدرة التوليدية للنموذج نفسه لـ "إعادة صياغة" الإجابة النهائية، مما يتجنب تعقيد تحليل الصيغ.

2. فصل التفكير عن التوليد

يفصل عملية التفكير عن توليد الإجابة، حيث تركز مرحلة التفكير على عملية التفكير ومرحلة التوليد على إخراج الإجابة.

3. التكيف الذاتي

يمكن للإطار أن يتكيف تلقائياً مع أنواع مهام مختلفة وصيغ إجابات مختلفة، دون الحاجة إلى ضبط دقيق لنموذج أو مهمة معينة.

إعداد التجارب

مجموعات البيانات

  • MMLU: اختبار معرفة متعدد المجالات متعدد الخيارات، بمثابة المعيار الأساسي للتقييم
  • MMLU-Pro: معيار أكثر تعقيداً متعدد الخيارات، مع عدد ديناميكي من الخيارات
  • GSM8K: مسائل التفكير الرياضي، بصيغة إجابات قصيرة
  • TriviaQA: مهام الإجابة على الأسئلة المفتوحة

نماذج التقييم

  • سلسلة Qwen3: Qwen3-32B, Qwen3-14B, Qwen3-8B
  • سلسلة DeepSeek-R1: R1-Distill-Llama-8B, R1-Qwen3-8B

طرق المقارنة

  1. strict-match: المطابقة الدقيقة للأحرف ("answer is X")
  2. flexible-extract: استخراج الخيارات المرن (البحث عن (A), (B) وما إلى ذلك)
  3. instructed-format: إخراج الصيغة الموجهة
  4. answer-is-correct: المطابقة الدقيقة المحسّنة
  5. last-extract: استخراج آخر حرف كبير

تفاصيل التنفيذ

  • استخدام مجموعة أدوات lm-evaluation-harness
  • إعداد درجة الحرارة على 0.6، و top-p على 0.95، و top-k على 20
  • تحديد الطول الأقصى للتوليد بـ 4096 رمز

نتائج التجارب

النتائج الرئيسية

تقلبات الأداء كبيرة

تؤدي طرق الاستخراج المختلفة إلى فروقات أداء ضخمة:

  • نطاق دقة Qwen3-32B عبر الطرق المختلفة: 75.8% - 87.1%
  • قد يتغير ترتيب النماذج تماماً بسبب طريقة الاستخراج

مزايا Answer Regeneration واضحة

حققت Answer Regeneration أفضل أداء على جميع النماذج المختبرة:

النموذجأفضل طريقة قائمة على القواعسAnswer Regenerationالتحسن
Qwen3-32B82.1%87.1%+5.0%
Qwen3-14B83.8%85.0%+1.2%
Qwen3-8B82.1%83.3%+1.2%
R1-Llama-8B64.8%68.8%+4.0%
R1-Qwen3-8B77.6%80.7%+3.1%

تجارب الاستئصال

تحليل عدم اتساق الإجابات

قد يتم تحليل نفس مخرجات النموذج كإجابات مختلفة بواسطة طرق استخراج مختلفة:

  • قد تستخرج بعض الطرق الإجابات من عملية التفكير
  • قد تستخرج بعض الطرق الإجابات المنسقة النهائية
  • قد تفشل بعض الطرق في الاستخراج بسبب مشاكل الصيغة

معالجة الاستدلال غير المكتمل

تتفوق Answer Regeneration في التعامل مع مخرجات الاستدلال غير المكتملة:

  • تفشل الطرق التقليدية عندما يتم قطع الاستدلال
  • يمكن لطريقة إعادة التوليد إعطاء إجابة بناءً على المعلومات المتاحة

التحقق من التقييم اليدوي

في التقييم اليدوي لـ 300 عينة:

  • معدل الاتساق بين Answer Regeneration والتعليقات اليدوية: 84.2%
  • معدل الاتساق بين أفضل طريقة قائمة على القواعس والتعليقات اليدوية: 61.7%

القابلية للتعميم عبر المهام

نتائج MMLU-Pro

تحافظ Answer Regeneration على مزايتها على المعايير الأكثر تعقيداً، وتقترب من أداء التقارير الرسمية.

التفكير الرياضي GSM8K

تحقق Answer Regeneration أفضل أداء أيضاً في مهام الرياضيات:

  • أكثر قوة في التعامل مع صيغة LaTeX (\boxed{})
  • يُظهر التقييم اليدوي فرقاً في دقة 16.3% مقابل 6.1%

TriviaQA الإجابة على الأسئلة المفتوحة

تتجنب مشاكل انحياز النموذج في استخدام LLM كحكم.

الأعمال ذات الصلة

أطر تقييم LLM

تعتمد أدوات التقييم الموجودة مثل lm-evaluation-harness و HELM و OpenCompass بشكل أساسي على:

  1. التقييم القائم على الاحتمالية للأسئلة متعددة الخيارات
  2. معالجة ما بعد الإنتاج البسيطة للمهام التوليدية

دراسات حساسية التوجيهات

ركزت الأبحاث الموجودة على تأثير تغييرات التوجيهات على مستوى الإدخال على الأداء، لكن تفتقد إلى دراسة منهجية لاستخراج الإجابات على مستوى الإخراج.

تقييم نماذج التفكير

يواجه ظهور طرق التفكير مثل Chain-of-Thought تحديات جديدة للطرق التقليدية للتقييم.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. لطريقة استخراج الإجابات تأثير حاسم على تقييم نماذج التفكير، مع فروقات في الأداء تتجاوز 10%
  2. توفر Answer Regeneration خطة تقييم أكثر قوة، متفوقة على القواعس اليدوية عبر مهام متعددة
  3. تحسن عدالة التقييم، مع ترتيب نماذج أكثر توافقاً مع التوقعات الحدسية

القيود

  1. التكلفة الحسابية: تتطلب خطوة استدلال إضافية، مما يزيد من تكاليف التقييم
  2. الابتكار التقني محدود: الطريقة نفسها بسيطة نسبياً، تفتقد إلى العمق التقني
  3. نطاق النموذج: يركز الاختبار بشكل أساسي على النماذج مفتوحة المصدر، مع بقاء أداء النماذج التجارية غير مؤكدة

الاتجاهات المستقبلية

  1. دمج الاتساق الذاتي: دمج تقنيات مثل self-consistency لمزيد من التحسن
  2. تقييم النماذج التجارية: التوسع إلى نماذج تجارية مثل GPT و Gemini و Claude
  3. تحسين الكفاءة: استكشاف طرق لتقليل التكاليف الحسابية

التقييم المتعمق

المزايا

1. أهمية تحديد المشكلة

أول كشف منهجي لمشكلة استخراج الإجابات المُهملة لكن الحاسمة، ذات أهمية كبيرة لتقييم نماذج التفكير.

2. عملية الطريقة

يقدم الإطار المقترح حلاً بسيطاً وفعالاً، سهل التنفيذ والنشر، بقيمة عملية قوية جداً.

3. شمولية التجارب

  • تقييم شامل لنماذج متعددة ومهام متنوعة
  • تجارب استئصال مفصلة والتحقق اليدوي
  • مقارنة كافية مع الطرق الموجودة

4. إقناع النتائج

تثبت كمية كبيرة من التجارب فعالية الطريقة، مع نتائج ذات دلالة إحصائية.

أوجه القصور

1. الابتكار التقني محدود

الطريقة نفسها بسيطة نسبياً، وتمثل بشكل أساسي تحسناً في الممارسة الهندسية، مع افتقار إلى الابتكار التقني العميق.

2. مشكلة التكلفة الحسابية

ستزيد خطوات الاستدلال الإضافية بشكل كبير من تكاليف التقييم، وقد تصبح اختناقاً في التقييم على نطاق واسع.

3. نقص التحليل النظري

يفتقد إلى شرح نظري لفعالية الطريقة، ويعتمد بشكل أساسي على التحقق التجريبي.

4. الاعتماد على النموذج

تعتمد جودة إعادة التوليد لا تزال على قدرات النموذج نفسه، مع احتمال وجود انحياز نموذجي.

التأثير

المساهمة الأكاديمية

  • ملء الفراغ في منهجية تقييم نماذج التفكير
  • توفير مرجع مهم لتصميم أطر التقييم المستقبلية
  • تعزيز الاهتمام بعدالة التقييم والقابلية للتكرار

القيمة العملية

  • يمكن تطبيقها مباشرة على تحسين أطر التقييم الموجودة
  • توفير معايير أداء أكثر موثوقية لمطوري النماذج
  • تساعد على تحسين مصداقية نتائج التقييم

القابلية للتكرار

توفر الورقة تفاصيل تنفيذ مفصلة والتعبيرات النمطية، مما يسهل الاستنساخ والتطبيق.

سيناريوهات التطبيق

سيناريوهات التطبيق المناسبة

  1. تقييم نماذج التفكير: مناسبة بشكل خاص لنماذج CoT والنماذج التي تتطلب عملية تفكير
  2. اختبارات المعايير متعددة المهام: التطبيق على معايير قياسية مثل MMLU و GSM8K
  3. دراسات مقارنة النماذج: عند الحاجة إلى مقارنة عادلة بين نماذج تفكير مختلفة

الشروط المحددة

  1. موارد حسابية كافية: الحاجة إلى تحمل تكاليف الاستدلال الإضافية
  2. متطلبات دقة التقييم عالية: مناسبة للسيناريوهات التي تتطلب جودة تقييم عالية
  3. متخصصة لنماذج التفكير: تركز بشكل أساسي على النماذج ذات القدرات الاستدلالية

المراجع

  1. Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
  2. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
  3. Liang et al. (2023). Holistic evaluation of language models. arXiv.
  4. Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

الملخص: على الرغم من أن هذه الورقة بسيطة نسبياً من حيث الابتكار التقني، إلا أنها تحدد وتحل مشكلة مهمة في تقييم نماذج التفكير. يوفر إطار عمل Answer Regeneration المقترح حلاً عملياً لتقييم عادل وقوي لنماذج التفكير، مما يحمل أهمية كبيرة في تعزيز توحيد المعايير والقابلية للتكرار في هذا المجال. على الرغم من وجود قيود مثل التكاليف الحسابية، فإن قيمتها العملية ومساهمتها في منهجية التقييم تجعلها عملاً بحثياً قيماً.