From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization
Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
대규모 언어 모델(LLMs)의 다단계 추론 능력 향상은 중요하면서도 도전적인 과제이다. 주류 패러다임인 결과 감독 강화학습(RLVR)은 올바른 최종 답변에만 보상을 제공하며, 결함 있는 추론을 전파하고 희소 보상 신호로 인한 어려움을 겪는다. 과정 수준 보상 모델(PRMs)은 더 밀집된 단계별 피드백을 제공하지만, 일반화 능력과 해석 가능성이 부족하며 작업별 추론 과정 분할이 필요하다. 이를 해결하기 위해 저자들은 이 두 방법의 격차를 메우는 새로운 감독 프레임워크인 차원 수준 보상 모델(DRM)을 제안한다. DRM은 세 가지 기본적이고 상호 보완적이며 해석 가능한 차원을 따라 추론 과정의 질을 평가한다: 신뢰도(불확실성 보정), 관련성(의미론적 정렬), 일관성(논리적 일관성). 이러한 차원들은 최종 답변의 정확성을 넘어서는 측면을 종합적으로 포착하며, 정답 없이도 해석 가능한 평가를 실현한다. 실험 결과는 DRM이 효과적인 감독 신호를 제공하여 LLMs의 최적화를 지도하고 추론 능력을 향상시킴을 보여준다.