Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.
論文ID : 2510.14773タイトル : Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning著者 : Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo分類 : cs.CL cs.AI発表日 : 2024年10月16日論文リンク : https://arxiv.org/abs/2510.14773 本論文は、大規模言語モデル(LLM)の推論能力評価における重要な問題を研究している:答え抽出方法がモデルの性能評価に及ぼす顕著な影響である。研究により、推論モデルの性能と最終答え分布は、採用される答え抽出アルゴリズムに高度に依存することが判明した。この問題を解決するため、著者らは「答え再生成」(Answer Regeneration)フレームワークを提案した。このアプローチは、追加のモデル推論ステップを通じて「Answer:」プレフィックスを使用して最終答えを再生成することにより、抽出ルールに依存しない堅牢な評価を実現する。
従来のLLM評価は通常、答え選択の確率分布に基づいているが、推論を必要とするモデルの場合、答え抽出方法が極めて重要になる。既存のルールベースの抽出方法には以下の問題がある:
形式の多様性 :推論モデルの出力形式は千差万別であり、単一の抽出ルールではすべてのケースに対応できないモデル間の差異 :異なるモデルは異なる答え形式を使用するため、各モデルに対してカスタマイズされた抽出ルールが必要評価の不一貫性 :同じモデル出力でも、抽出ルールが異なると全く異なる評価結果になる可能性がある再現性の問題 :公開報告されている性能と再現結果の間の相違は、公開されていない答え抽出方法に由来する可能性がある評価の公平性 :ルールベースの方法は特定のモデルに対して偏見を生じさせる可能性がある推論モデルの特殊性 :Chain-of-Thought(CoT)推論出力の複雑性により、従来の評価方法はもはや適用できない初めて体系的に研究した 答え抽出方法が推論モデル評価に与える感度を明らかにし、この見落とされていたが重要な問題を露呈させたAnswer Regenerationフレームワークを提案した 。抽出ルールに依存しない堅牢な評価方法を実現する方法の汎用性を証明した 。多肢選択問題、数学問題、オープンエンド質問応答など複数のタスクで改善を達成したより信頼性の高いモデルランキングを提供した 。評価結果がより直感的(例:大規模モデルが小規模モデルより優れている)になった推論モデルの出力(完全な推論プロセスを含む)が与えられたとき、評価のために最終答えを正確に抽出する必要がある。従来の方法は手作業で作成された正規表現ルールに依存していたが、本論文は生成的なソリューションを提案する。
元の入力 + 推論出力 + "Answer:" → モデル推論 → 簡潔な最終答え
入力準備 :元の質問、モデルの推論プロセス、「Answer:」プロンプトを組み合わせる再推論 :モデルを使用して(推論モードではなく)追加の推論ステップを実行する答え抽出 :簡潔な出力から最終答えを抽出する確率ベース :多肢選択問題の場合、確率ベースの答え選択を使用できる出力の簡潔化 :生成された答え形式がより簡潔で、抽出が容易ルール非依存 :複雑な手作業ルールに依存しない従来のルールマッチングとは異なり、モデル自体の生成能力を使用して最終答えを「言い換える」ことで、形式解析の複雑性を回避する。
推論プロセスと答え生成を分離し、推論段階は思考プロセスに焦点を当て、生成段階は答え出力に焦点を当てる。
フレームワークは異なるタスクタイプと答え形式に自動的に適応でき、特定のモデルやタスクに対する調整を必要としない。
MMLU :複数分野の多肢選択知識テスト、主要な評価ベンチマークMMLU-Pro :より複雑な多肢選択ベンチマーク、選択肢数が動的に変化GSM8K :数学推論問題、短答形式TriviaQA :オープンエンド質問応答タスクQwen3シリーズ :Qwen3-32B, Qwen3-14B, Qwen3-8BDeepSeek-R1シリーズ :R1-Distill-Llama-8B, R1-Qwen3-8Bstrict-match :厳密な文字列マッチング(「answer is X」)flexible-extract :柔軟な選択肢抽出((A), (B)など検索)instructed-format :指示された形式出力answer-is-correct :最適化された厳密なマッチングlast-extract :最後の大文字抽出lm-evaluation-harnessツールキットを使用 温度設定0.6、top-p 0.95、top-k 20 最大生成長4096トークン 異なる抽出方法による性能差は巨大:
Qwen3-32Bの異なる方法での精度範囲:75.8% - 87.1% モデルランキングは抽出方法により完全に変わる可能性がある すべてのテストモデルで、Answer Regenerationが最高性能を達成:
モデル 最良ルール方法 Answer Regeneration 改善 Qwen3-32B 82.1% 87.1% +5.0% Qwen3-14B 83.8% 85.0% +1.2% Qwen3-8B 82.1% 83.3% +1.2% R1-Llama-8B 64.8% 68.8% +4.0% R1-Qwen3-8B 77.6% 80.7% +3.1%
同じモデル出力が異なる抽出方法により異なる答えとして解析される可能性:
特定の方法は思考プロセス内の答えを抽出 特定の方法は形式化された最終答えを抽出 特定の方法は形式の問題により抽出に失敗 Answer Regenerationは不完全な推論出力の処理でより優れた性能を発揮:
従来の方法は推論が切り詰められた場合に失敗しやすい 再生成方法は既存情報に基づいて答えを提供できる 300サンプルの人間評価では:
Answer Regenerationと人間アノテーションの一致率:84.2% 最良ルール方法と人間アノテーションの一致率:61.7% Answer Regenerationはより複雑なベンチマークでも優位性を保持し、公式報告性能に近い。
数学タスクでもAnswer Regenerationが最高性能を発揮:
LaTeX形式(\boxed{})の処理がより堅牢 人間評価は16.3% vs 6.1%の正確率差を示す オープンエンドタスクでLLM-as-a-judgeのモデル偏見を回避。
lm-evaluation-harness、HELM、OpenCompassなどの既存評価ツールは主に以下に依存:
多肢選択問題の確率ベース評価 生成タスクの単純なヒューリスティック後処理 入力レベルのプロンプト変化が性能に与える影響に関する研究は存在するが、出力レベルの答え抽出に関する体系的研究は不足している。
Chain-of-Thoughtなどの推論方法の興隆により、従来の評価方法は新たな課題に直面している。
答え抽出方法は推論モデル評価に決定的な影響を与える 。性能差は10%以上に達する可能性があるAnswer Regenerationはより堅牢な評価スキームを提供する 。複数のタスクで手作業ルールを上回る評価の公平性が改善される 。モデルランキングがより直感的な予期に合致する計算コスト :追加の推論ステップが必要で、評価オーバーヘッドが増加技術的革新の限定性 :方法自体は比較的単純で、技術的深さに欠けるモデル範囲 :主にオープンソースモデルをテスト、商用モデルの性能は検証待ち自己一貫性統合 :self-consistencyなどの技術と組み合わせてさらに改善商用モデル評価 :GPT、Gemini、Claudeなどの商用モデルに拡張効率最適化 :計算オーバーヘッドを削減する方法を探索見落とされていたが重要な答え抽出問題を初めて体系的に明らかにし、推論モデル評価に重要な意義を持つ。
提案されたフレームワークは単純で効果的、実装と展開が容易で、強い実用価値を持つ。
複数モデル、複数タスクの包括的評価 詳細なアブレーション実験と人間検証 既存方法との十分な比較 大量の実験により方法の有効性を証明し、結果は統計的有意性を持つ。
方法自体は比較的単純で、主にエンジニアリング実践上の改善であり、深層的な技術革新に欠ける。
追加の推論ステップは評価コストを大幅に増加させ、大規模評価ではボトルネックになる可能性がある。
方法の有効性に関する理論的説明に欠け、主に実験検証に依存している。
再生成の質はモデル自体の能力に依然依存し、モデル偏見が存在する可能性がある。
推論モデル評価方法論の空白を埋める 将来の評価フレームワーク設計に重要な参考を提供 評価の公平性と再現性への関心を推進 既存評価フレームワークの改善に直接適用可能 モデル開発者により信頼性の高い性能ベンチマークを提供 評価結果の信頼性向上に貢献 論文は詳細な実装詳細と正規表現を提供し、再現と応用を容易にする。
推論モデル評価 :特にCoTなど推論プロセスが必要なモデルに適用マルチタスクベンチマークテスト :MMLU、GSM8Kなど標準ベンチマークでの応用モデル比較研究 :異なる推論モデルの公平な比較が必要な場合計算リソースが充分 :追加推論コストを負担する必要がある評価精度要件が高い :評価品質に対する要件が高いシーンに適用推論モデル専用 :主に推論能力を持つモデルを対象Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR. Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS. Liang et al. (2023). Holistic evaluation of language models. arXiv. Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS. 要約 :本論文は技術的革新の面では比較的単純であるが、推論モデル評価における重要な問題を識別し解決している。Answer Regenerationフレームワークの提案は、推論モデルの公平で堅牢な評価に対する実用的なソリューションを提供し、該当分野の標準化と再現性の推進に重要な意義を持つ。計算オーバーヘッドなどの制限事項は存在するが、その実用的価値と評価方法論への貢献により、本研究は価値のある研究成果となっている。