The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models
Fan, Qin, Han et al.
Recent thinking models trained with reinforcement learning and backward-checking CoT often suffer from overthinking: they produce excessively long outputs even on simple problems, wasting computation. Existing evaluations, based on token efficiency, give an incomplete view as they neglect problem difficulty and intermediate computation costs. We formalize reasoning efficiency as a relative measure between thinking and instruct models, treating instruct models as the minimal-effort baseline. A systematic study across four thinking models and multiple benchmarks reveals two consistent patterns: (i) instruct models achieve higher efficiency overall, and (ii) problem difficulty affects efficiency, with thinking models wasting computation on easy problems but providing value on harder ones. Building on this insight, we propose COTHINK, a simple two-stage pipeline: an instruct model drafts a brief outline, and a thinking model expands it. On GSM8K, MATH500, and AIME24, COTHINK cuts token usage by 21.1% while keeping accuracy on four thinking models, and remains competitive with strong efficiency baselines.
최근 강화학습과 역방향 사슬형 사고(CoT) 훈련을 사용하여 개발된 사고 모델은 과도한 사고 문제를 보이고 있습니다. 즉, 단순한 문제에서도 과도하게 긴 출력을 생성하여 계산 자원을 낭비합니다. 토큰 효율성에 기반한 기존 평가 방법은 불완전한 관점을 제공하며, 문제 난이도와 중간 계산 비용을 무시합니다. 본 논문은 추론 효율성을 사고 모델과 지시 모델 간의 상대적 척도로 형식화하며, 지시 모델을 최소 노력 기준선으로 간주합니다. 네 개의 사고 모델과 여러 벤치마크에 대한 체계적 연구를 통해 두 가지 일관된 패턴을 발견했습니다: (i) 지시 모델이 전반적으로 더 높은 효율성을 달성하고, (ii) 문제 난이도가 효율성에 영향을 미치며, 사고 모델은 단순 문제에서 계산을 낭비하지만 어려운 문제에서 가치를 제공합니다. 이러한 통찰을 바탕으로 COTHINK를 제안합니다. 이는 간단한 2단계 파이프라인으로, 지시 모델이 간략한 개요를 작성하고 사고 모델이 확장합니다. GSM8K, MATH500, AIME24에서 COTHINK는 네 개의 사고 모델에서 정확성을 유지하면서 토큰 사용량을 21.1% 감소시킵니다.
논문은 추론 효율성, 사고 모델, 혼합 추론 등 관련 분야의 중요한 작업을 인용하여 연구에 견고한 이론적 기초와 비교 참고를 제공합니다.
종합 평가: 이는 추론 효율성 평가 및 최적화 측면에서 중요한 기여를 하는 고품질 논문입니다. 상대적 효율성 평가 프레임워크와 COTHINK 협력 파이프라인을 도입함으로써 사고 모델의 과도한 사고 문제를 해결하기 위한 효과적인 솔루션을 제공합니다. 일부 한계가 있지만, 그 혁신성과 실용성으로 인해 이 분야에서 중요한 가치를 가집니다.