2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.

Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.

academic

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

基本信息

论文ID: 2510.14773
标题: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
作者: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
分类: cs.CL cs.AI
发表时间: 2024年10月16日
论文链接: https://arxiv.org/abs/2510.14773

摘要

本文研究了大语言模型（LLM）推理能力评估中的一个关键问题：答案提取方法对模型性能评估的显著影响。研究发现，推理模型的性能和最终答案分布高度依赖于所采用的答案提取算法。为解决这一问题，作者提出了"答案重生成"（Answer Regeneration）框架，该方法通过额外的模型推理步骤，使用"Answer:"前缀重新生成最终答案，从而实现与提取规则无关的稳健评估。

研究背景与动机

核心问题

传统的LLM评估通常基于答案选择的概率分布，但对于需要推理的模型，答案提取方法变得至关重要。现有的基于规则的提取方法存在以下问题：

格式多样性：推理模型输出格式千变万化，单一提取规则无法涵盖所有情况
模型间差异：不同模型使用不同的答案格式，需要为每个模型定制提取规则
评估不一致：相同的模型输出可能因提取规则不同而得到完全不同的评估结果

研究动机

可重现性问题：公开报告的性能与复现结果之间的差异可能源于未公开的答案提取方法
评估公平性：基于规则的方法可能对某些模型产生偏见
推理模型特殊性：Chain-of-Thought（CoT）推理输出的复杂性使传统评估方法不再适用

核心贡献

首次系统性研究了答案提取方法对推理模型评估的敏感性，揭示了这一被忽视但关键的问题
提出了Answer Regeneration框架，实现了与提取规则无关的稳健评估方法
证明了方法的通用性，在多选题、数学问题和开放式问答等多种任务上都取得了改进
提供了更可靠的模型排序，使评估结果更符合直觉（如大模型优于小模型）

方法详解

任务定义

给定推理模型的输出（包含完整推理过程），需要准确提取其最终答案进行评估。传统方法依赖手工制定的正则表达式规则，而本文提出生成式的解决方案。

Answer Regeneration框架

整体架构

原始输入 + 推理输出 + "Answer:" → 模型推理 → 简化的最终答案

核心步骤

输入准备：将原始问题、模型的推理过程和"Answer:"提示词组合
重新推理：使用模型（非推理模式）进行额外的推理步骤
答案提取：从简化的输出中提取最终答案

技术优势

概率基础：对于多选题，可以使用基于概率的答案选择
输出简化：生成的答案格式更加简洁，便于提取
规则无关：不依赖于复杂的手工规则

技术创新点

1. 生成式答案提取

与传统的规则匹配不同，使用模型自身的生成能力来"重新表述"最终答案，避免了格式解析的复杂性。

2. 推理-生成分离

将推理过程和答案生成分离，推理阶段专注于思考过程，生成阶段专注于答案输出。

3. 自适应性

框架能够自动适应不同的任务类型和答案格式，无需针对特定模型或任务进行调优。

实验设置

数据集

MMLU：多领域多选题知识测试，作为主要评估基准
MMLU-Pro：更复杂的多选题基准，选项数量动态变化
GSM8K：数学推理问题，短答案格式
TriviaQA：开放式问答任务

评估模型

Qwen3系列：Qwen3-32B, Qwen3-14B, Qwen3-8B
DeepSeek-R1系列：R1-Distill-Llama-8B, R1-Qwen3-8B

对比方法

strict-match：精确字符串匹配（"answer is X"）
flexible-extract：灵活选项提取（查找(A), (B)等）
instructed-format：指导格式输出
answer-is-correct：优化的严格匹配
last-extract：提取最后的大写字母

实现细节

使用lm-evaluation-harness工具包
温度设置为0.6，top-p为0.95，top-k为20
最大生成长度限制为4096个token

实验结果

主要结果

性能波动显著

不同提取方法导致的性能差异巨大：

Qwen3-32B在不同方法下的准确率范围：75.8% - 87.1%
模型排序会因提取方法而完全改变

Answer Regeneration优势明显

在所有测试模型上，Answer Regeneration都取得了最佳性能：

模型	最佳规则方法	Answer Regeneration	提升
Qwen3-32B	82.1%	87.1%	+5.0%
Qwen3-14B	83.8%	85.0%	+1.2%
Qwen3-8B	82.1%	83.3%	+1.2%
R1-Llama-8B	64.8%	68.8%	+4.0%
R1-Qwen3-8B	77.6%	80.7%	+3.1%

消融实验

答案不一致性分析

同一个模型输出可能被不同提取方法解析为不同答案：

某些方法提取思考过程中的答案
某些方法提取格式化的最终答案
某些方法因格式问题提取失败

不完整推理处理

Answer Regeneration在处理不完整推理输出时表现更佳：

传统方法在推理被截断时容易失败
重生成方法能够基于已有信息给出答案

人工评估验证

在300个样本的人工评估中：

Answer Regeneration与人工标注的一致率：84.2%
最佳规则方法与人工标注的一致率：61.7%

跨任务泛化性

MMLU-Pro结果

Answer Regeneration在更复杂的基准上也保持优势，且接近官方报告性能。

GSM8K数学推理

数学任务中Answer Regeneration同样表现最佳：

处理LaTeX格式（\boxed{}）更加稳健
人工评估显示16.3% vs 6.1%的正确率差异

TriviaQA开放问答

在开放式任务中避免了LLM-as-a-judge的模型偏见问题。

结论与讨论

主要结论

答案提取方法对推理模型评估具有决定性影响，性能差异可达10%以上
Answer Regeneration提供了更稳健的评估方案，在多种任务上都优于手工规则
评估的公平性得到改善，模型排序更符合直觉预期

局限性

计算成本：需要额外的推理步骤，增加了评估开销
技术创新有限：方法本身较为简单，缺乏技术深度
模型范围：主要测试开源模型，商业模型的表现有待验证

未来方向

自一致性集成：结合self-consistency等技术进一步改进
商业模型评估：扩展到GPT、Gemini、Claude等商业模型
效率优化：探索减少计算开销的方法

深度评价

优点

1. 问题识别的重要性

首次系统性地揭示了答案提取这一被忽视但关键的问题，对推理模型评估具有重要意义。

2. 方法的实用性

提出的框架简单有效，易于实现和部署，具有很强的实用价值。

3. 实验的全面性

多个模型、多种任务的全面评估
详细的消融实验和人工验证
与现有方法的充分对比

4. 结果的说服力

通过大量实验证明了方法的有效性，结果具有统计显著性。

不足

1. 技术创新有限

方法本身较为简单，主要是工程实践上的改进，缺乏深层的技术创新。

2. 计算开销问题

额外的推理步骤会显著增加评估成本，在大规模评估中可能成为瓶颈。

3. 理论分析不足

缺乏对方法有效性的理论解释，主要依赖实验验证。

4. 模型依赖性

重生成的质量仍然依赖于模型本身的能力，可能存在模型偏见。

影响力

学术贡献

填补了推理模型评估方法学的空白
为未来的评估框架设计提供了重要参考
推动了对评估公平性和可重现性的关注

实用价值

可直接应用于现有评估框架的改进
为模型开发者提供了更可靠的性能基准
有助于提高评估结果的可信度

可重现性

论文提供了详细的实现细节和正则表达式，便于复现和应用。

适用场景

适合的应用场景

推理模型评估：特别适用于CoT等需要推理过程的模型
多任务基准测试：在MMLU、GSM8K等标准基准上的应用
模型比较研究：需要公平比较不同推理模型时

限制条件

计算资源充足：需要承担额外的推理成本
评估准确性要求高：适用于对评估质量要求较高的场景
推理模型专用：主要针对具有推理能力的模型

参考文献

Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

总结：本文虽然在技术创新上相对简单，但识别并解决了推理模型评估中的一个重要问题。Answer Regeneration框架的提出为推理模型的公平、稳健评估提供了实用的解决方案，对推动该领域的标准化和可重现性具有重要意义。尽管存在计算开销等局限性，但其实用价值和对评估方法学的贡献使其成为一项有价值的研究工作。