Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
Jo, Lee, Lee et al.
Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가에서 핵심적인 문제를 연구합니다: 답변 추출 방법이 모델 성능 평가에 미치는 상당한 영향. 연구 결과, 추론 모델의 성능과 최종 답변 분포는 채택된 답변 추출 알고리즘에 크게 의존함을 발견했습니다. 이 문제를 해결하기 위해 저자들은 "답변 재생성"(Answer Regeneration) 프레임워크를 제안했으며, 이 방법은 추가적인 모델 추론 단계를 통해 "Answer:" 접두사를 사용하여 최종 답변을 다시 생성함으로써 추출 규칙과 무관한 견고한 평가를 실현합니다.
Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.
요약: 본 논문은 기술 혁신 측면에서 상대적으로 단순하지만, 추론 모델 평가에서 간과되었던 중요한 문제를 식별하고 해결했습니다. Answer Regeneration 프레임워크의 제안은 추론 모델의 공정하고 견고한 평가를 위한 실용적 솔루션을 제공하며, 해당 분야의 표준화와 재현성 촉진에 중요한 의미를 지닙니다. 계산 오버헤드 등의 제한사항이 있음에도 불구하고, 실용적 가치와 평가 방법론에 대한 기여는 이를 가치 있는 연구 성과로 만듭니다.