2025-11-18T06:58:13.108824

Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning

Jo, Lee, Lee et al.

Evaluating generative models, such as large language models (LLMs), commonly involves question-answering tasks where the final answer is selected based on probability of answer choices. On the other hand, for models requiring reasoning, the method of answer extraction plays a critical role. Our research reveals that the performance of reasoning models and their final answer distributions are highly sensitive to the answer extraction algorithm employed. In order to mitigate this, we propose a basic framework: Answer Regeneration. The method uses an additional model inference, providing the prior input and output prefaced by the prompt "Answer:". The final answer is then selected or extracted from the regenerated output. We show that this extraction-rule-agnostic approach exhibits improved performance and enhanced robustness. Furthermore, we have applied this framework to general math problems and open-ended question answering tasks. Our analysis and this framework could offer a more reliable results for model evaluation.

academic

사고 과정에서 답변 찾기: 추론 능력을 갖춘 대규모 언어 모델 평가 재검토

기본 정보

논문 ID: 2510.14773
제목: Finding Answers in Thought Matters: Revisiting Evaluation on Large Language Models with Reasoning
저자: Hwiyeol Jo, Joosung Lee, Jaehong Lee, Sang-Woo Lee, Joonsuk Park, Kang Min Yoo
분류: cs.CL cs.AI
발표 시간: 2024년 10월 16일
논문 링크: https://arxiv.org/abs/2510.14773

초록

본 논문은 대규모 언어 모델(LLM)의 추론 능력 평가에서 핵심적인 문제를 연구합니다: 답변 추출 방법이 모델 성능 평가에 미치는 상당한 영향. 연구 결과, 추론 모델의 성능과 최종 답변 분포는 채택된 답변 추출 알고리즘에 크게 의존함을 발견했습니다. 이 문제를 해결하기 위해 저자들은 "답변 재생성"(Answer Regeneration) 프레임워크를 제안했으며, 이 방법은 추가적인 모델 추론 단계를 통해 "Answer:" 접두사를 사용하여 최종 답변을 다시 생성함으로써 추출 규칙과 무관한 견고한 평가를 실현합니다.

연구 배경 및 동기

핵심 문제

전통적인 LLM 평가는 일반적으로 답변 선택의 확률 분포에 기반하지만, 추론이 필요한 모델의 경우 답변 추출 방법이 매우 중요해집니다. 기존의 규칙 기반 추출 방법은 다음과 같은 문제가 있습니다:

형식 다양성: 추론 모델의 출력 형식은 매우 다양하며, 단일 추출 규칙으로는 모든 경우를 포괄할 수 없음
모델 간 차이: 서로 다른 모델은 다른 답변 형식을 사용하므로 각 모델마다 추출 규칙을 맞춤화해야 함
평가 불일치: 동일한 모델 출력이 추출 규칙에 따라 완전히 다른 평가 결과를 얻을 수 있음

연구 동기

재현성 문제: 공개 보고된 성능과 재현 결과 간의 차이는 공개되지 않은 답변 추출 방법에서 비롯될 수 있음
평가 공정성: 규칙 기반 방법은 특정 모델에 편향을 초래할 수 있음
추론 모델의 특수성: Chain-of-Thought(CoT) 추론 출력의 복잡성으로 인해 전통적 평가 방법이 더 이상 적용되지 않음

핵심 기여

답변 추출 방법이 추론 모델 평가에 미치는 민감도를 처음으로 체계적으로 연구하여 이전에 간과되었던 핵심 문제를 밝혀냄
Answer Regeneration 프레임워크 제안으로 추출 규칙과 무관한 견고한 평가 방법 실현
방법의 범용성 입증: 객관식 문제, 수학 문제, 개방형 질의응답 등 다양한 작업에서 개선 달성
더욱 신뢰할 수 있는 모델 순위 제공으로 평가 결과가 직관과 더욱 일치 (예: 대형 모델이 소형 모델보다 우수)

방법 상세 설명

작업 정의

추론 모델의 출력(완전한 추론 과정 포함)이 주어졌을 때, 평가를 위해 최종 답변을 정확하게 추출해야 합니다. 전통적인 방법은 수작업으로 제작된 정규표현식 규칙에 의존하는 반면, 본 논문은 생성식 솔루션을 제안합니다.

Answer Regeneration 프레임워크

전체 아키텍처

원본 입력 + 추론 출력 + "Answer:" → 모델 추론 → 단순화된 최종 답변

핵심 단계

입력 준비: 원본 질문, 모델의 추론 과정, "Answer:" 프롬프트 결합
재추론: 모델을 사용하여 (추론 모드 아님) 추가 추론 단계 수행
답변 추출: 단순화된 출력에서 최종 답변 추출

기술적 장점

확률 기반: 객관식 문제의 경우 확률 기반 답변 선택 사용 가능
출력 단순화: 생성된 답변 형식이 더욱 간결하여 추출이 용이
규칙 무관: 복잡한 수작업 규칙에 의존하지 않음

기술 혁신 포인트

1. 생성식 답변 추출

전통적인 규칙 매칭과 달리, 모델 자체의 생성 능력을 사용하여 최종 답변을 "재표현"함으로써 형식 파싱의 복잡성을 회피합니다.

2. 추론-생성 분리

추론 과정과 답변 생성을 분리하여 추론 단계는 사고 과정에, 생성 단계는 답변 출력에 집중합니다.

3. 적응성

프레임워크는 다양한 작업 유형과 답변 형식에 자동으로 적응할 수 있으며, 특정 모델이나 작업에 대한 조정이 필요하지 않습니다.

실험 설정

데이터셋

MMLU: 다중 영역 객관식 지식 테스트, 주요 평가 기준
MMLU-Pro: 더욱 복잡한 객관식 기준, 동적 선택지 수
GSM8K: 수학 추론 문제, 단답형 형식
TriviaQA: 개방형 질의응답 작업

평가 모델

Qwen3 시리즈: Qwen3-32B, Qwen3-14B, Qwen3-8B
DeepSeek-R1 시리즈: R1-Distill-Llama-8B, R1-Qwen3-8B

비교 방법

strict-match: 정확한 문자열 매칭 ("answer is X")
flexible-extract: 유연한 선택지 추출 ((A), (B) 등 검색)
instructed-format: 지도된 형식 출력
answer-is-correct: 최적화된 엄격한 매칭
last-extract: 마지막 대문자 추출

구현 세부사항

lm-evaluation-harness 도구 패키지 사용
온도 설정: 0.6, top-p: 0.95, top-k: 20
최대 생성 길이: 4096 토큰

실험 결과

주요 결과

성능 변동이 상당함

서로 다른 추출 방법으로 인한 성능 차이가 매우 큼:

Qwen3-32B의 다양한 방법 간 정확도 범위: 75.8% - 87.1%
모델 순위가 추출 방법에 따라 완전히 변할 수 있음

Answer Regeneration의 명확한 우위

모든 테스트 모델에서 Answer Regeneration이 최고 성능 달성:

모델	최고 규칙 방법	Answer Regeneration	향상도
Qwen3-32B	82.1%	87.1%	+5.0%
Qwen3-14B	83.8%	85.0%	+1.2%
Qwen3-8B	82.1%	83.3%	+1.2%
R1-Llama-8B	64.8%	68.8%	+4.0%
R1-Qwen3-8B	77.6%	80.7%	+3.1%

소거 실험

답변 불일치 분석

동일한 모델 출력이 서로 다른 추출 방법에 의해 다른 답변으로 해석될 수 있음:

일부 방법은 사고 과정에서 답변 추출
일부 방법은 형식화된 최종 답변 추출
일부 방법은 형식 문제로 인해 추출 실패

불완전한 추론 처리

Answer Regeneration이 불완전한 추론 출력 처리에서 더 우수한 성능 발휘:

전통적 방법은 추론이 중단될 때 쉽게 실패
재생성 방법은 기존 정보에 기반하여 답변 제공 가능

인간 평가 검증

300개 샘플의 인간 평가에서:

Answer Regeneration과 인간 주석의 일치율: 84.2%
최고 규칙 방법과 인간 주석의 일치율: 61.7%

작업 간 일반화 능력

MMLU-Pro 결과

Answer Regeneration은 더욱 복잡한 기준에서도 우위를 유지하며 공식 보고 성능에 근접합니다.

GSM8K 수학 추론

수학 작업에서도 Answer Regeneration이 최고 성능 달성:

LaTeX 형식(\boxed{}) 처리에서 더욱 견고
인간 평가에서 16.3% vs 6.1%의 정확도 차이 표시

TriviaQA 개방형 질의응답

개방형 작업에서 LLM-as-a-judge의 모델 편향 문제 회피합니다.

결론 및 논의

주요 결론

답변 추출 방법이 추론 모델 평가에 결정적 영향을 미침: 성능 차이가 10% 이상 가능
Answer Regeneration이 더욱 견고한 평가 방안 제공: 다양한 작업에서 수작업 규칙보다 우수
평가의 공정성 개선: 모델 순위가 직관적 예상과 더욱 일치

제한사항

계산 비용: 추가 추론 단계로 인한 평가 오버헤드 증가
기술 혁신 제한: 방법 자체가 상대적으로 단순하며 기술적 깊이 부족
모델 범위: 주로 오픈소스 모델 테스트, 상용 모델 성능 미검증

향후 방향

자일관성 통합: self-consistency 등 기술과 결합하여 추가 개선
상용 모델 평가: GPT, Gemini, Claude 등 상용 모델로 확대
효율성 최적화: 계산 오버헤드 감소 방법 탐색

심층 평가

장점

1. 문제 식별의 중요성

답변 추출이라는 간과되었던 핵심 문제를 처음으로 체계적으로 밝혀내어 추론 모델 평가에 중요한 의미 부여합니다.

2. 방법의 실용성

제안된 프레임워크는 단순하고 효과적이며 구현과 배포가 용이하여 매우 높은 실용 가치를 지닙니다.

3. 실험의 포괄성

다양한 모델, 다양한 작업의 포괄적 평가
상세한 소거 실험 및 인간 검증
기존 방법과의 충분한 비교

4. 결과의 설득력

대량의 실험을 통해 방법의 효과성을 입증하며 결과는 통계적 유의성을 지닙니다.

부족한 점

1. 기술 혁신 제한

방법 자체가 상대적으로 단순하며 주로 공학적 실천의 개선으로, 깊이 있는 기술 혁신이 부족합니다.

2. 계산 오버헤드 문제

추가 추론 단계로 인해 평가 비용이 크게 증가하며, 대규모 평가에서 병목이 될 수 있습니다.

3. 이론적 분석 부족

방법 효과성에 대한 이론적 설명이 부족하며 주로 실험 검증에 의존합니다.

4. 모델 의존성

재생성의 품질은 여전히 모델 자체의 능력에 의존하며, 모델 편향이 존재할 수 있습니다.

영향력

학술적 기여

추론 모델 평가 방법론의 공백 메우기
향후 평가 프레임워크 설계에 중요한 참고 제공
평가 공정성과 재현성에 대한 관심 제고

실용적 가치

기존 평가 프레임워크 개선에 직접 적용 가능
모델 개발자에게 더욱 신뢰할 수 있는 성능 기준 제공
평가 결과의 신뢰도 향상에 기여

재현성

논문은 상세한 구현 세부사항과 정규표현식을 제공하여 재현과 적용을 용이하게 합니다.

적용 시나리오

적합한 응용 시나리오

추론 모델 평가: 특히 CoT 등 추론 과정이 필요한 모델에 적합
다중 작업 기준 테스트: MMLU, GSM8K 등 표준 기준에서의 적용
모델 비교 연구: 서로 다른 추론 모델을 공정하게 비교할 필요가 있을 때

제한 조건

충분한 계산 자원: 추가 추론 비용 감당 필요
높은 평가 정확도 요구: 평가 품질 요구가 높은 시나리오에 적합
추론 모델 전용: 주로 추론 능력을 갖춘 모델 대상

참고문헌

Hendrycks et al. (2021). Measuring massive multitask language understanding. ICLR.
Wei et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
Liang et al. (2023). Holistic evaluation of language models. arXiv.
Wang et al. (2024). MMLU-Pro: A more robust and challenging multi-task language understanding benchmark. NeurIPS.

요약: 본 논문은 기술 혁신 측면에서 상대적으로 단순하지만, 추론 모델 평가에서 간과되었던 중요한 문제를 식별하고 해결했습니다. Answer Regeneration 프레임워크의 제안은 추론 모델의 공정하고 견고한 평가를 위한 실용적 솔루션을 제공하며, 해당 분야의 표준화와 재현성 촉진에 중요한 의미를 지닙니다. 계산 오버헤드 등의 제한사항이 있음에도 불구하고, 실용적 가치와 평가 방법론에 대한 기여는 이를 가치 있는 연구 성과로 만듭니다.