Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
academic
إيجاد الإجابات في أهمية التفكير: إعادة النظر في تقييم نماذج اللغة الكبيرة مع التفكير المنطقي
تبحث هذه الورقة في مسألة حاسمة في تقييم قدرات التفكير المنطقي لنماذج اللغة الكبيرة (LLM): التأثير الكبير لطريقة استخراج الإجابات على تقييم أداء النموذج. تكتشف الدراسة أن أداء نماذج التفكير والتوزيع النهائي للإجابات يعتمدان بشكل كبير على خوارزمية استخراج الإجابات المستخدمة. لحل هذه المشكلة، يقترح المؤلفون إطار عمل "إعادة توليد الإجابة" (Answer Regeneration)، الذي يحقق تقييماً قوياً مستقلاً عن قواعد الاستخراج من خلال خطوة استدلال نموذج إضافية باستخدام بادئة "Answer:".
عادة ما يعتمد التقييم التقليدي لنماذج اللغة الكبيرة على توزيع الاحتمالية لاختيار الإجابة، لكن بالنسبة للنماذج التي تتطلب التفكير المنطقي، تصبح طريقة استخراج الإجابات حاسمة. تواجه طرق الاستخراج القائمة على القواعس المشاكل التالية:
تنوع الصيغ: تختلف صيغ مخرجات نماذج التفكير بشكل كبير، ولا يمكن لقاعدة استخراج واحدة أن تغطي جميع الحالات
الاختلافات بين النماذج: تستخدم النماذج المختلفة صيغ إجابات مختلفة، مما يتطلب قواعس استخراج مخصصة لكل نموذج
عدم اتساق التقييم: قد تؤدي نفس مخرجات النموذج إلى نتائج تقييم مختلفة تماماً بسبب اختلاف قواعس الاستخراج
بالنظر إلى مخرجات نموذج التفكير (التي تتضمن عملية التفكير الكاملة)، يجب استخراج إجابته النهائية بدقة للتقييم. تعتمد الطرق التقليدية على قواعس التعبيرات النمطية المصنوعة يدوياً، بينما تقترح هذه الورقة حلاً توليدياً.
Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.
الملخص: على الرغم من أن هذه الورقة بسيطة نسبياً من حيث الابتكار التقني، إلا أنها تحدد وتحل مشكلة مهمة في تقييم نماذج التفكير. يوفر إطار عمل Answer Regeneration المقترح حلاً عملياً لتقييم عادل وقوي لنماذج التفكير، مما يحمل أهمية كبيرة في تعزيز توحيد المعايير والقابلية للتكرار في هذا المجال. على الرغم من وجود قيود مثل التكاليف الحسابية، فإن قيمتها العملية ومساهمتها في منهجية التقييم تجعلها عملاً بحثياً قيماً.