From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization
Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic
De a : Supervisión Multidimensional del Proceso de Razonamiento para la Optimización de LLM
Mejorar la capacidad de razonamiento multietapa de los modelos de lenguaje grande (LLMs) es una tarea crítica pero desafiante. El paradigma predominante —aprendizaje por refuerzo con verificación de resultados (RLVR)— solo recompensa respuestas finales correctas, frecuentemente propagando razonamientos defectuosos y sufriendo de señales de recompensa dispersas. Aunque los modelos de recompensa a nivel de proceso (PRMs) proporcionan retroalimentación más densa paso a paso, carecen de generalización e interpretabilidad, requiriendo segmentación de procesos de razonamiento específica para cada tarea. Para abordar esto, los autores proponen el Modelo de Recompensa a Nivel Dimensional (DRM), un nuevo marco de supervisión que cierra la brecha entre ambos enfoques. El DRM evalúa la calidad del proceso de razonamiento a lo largo de tres dimensiones fundamentales, complementarias e interpretables: confianza (calibración de incertidumbre), relevancia (alineación semántica) y coherencia (consistencia lógica). Estas dimensiones capturan conjuntamente aspectos más allá de la corrección de la respuesta final, permitiendo evaluación interpretable sin necesidad de respuestas de referencia. Los resultados experimentales demuestran que DRM proporciona señales de supervisión efectivas que guían la optimización de LLMs y mejoran sus capacidades de razonamiento.
El problema central que enfrentan los LLMs actuales en tareas de razonamiento multietapa es: ¿cómo supervisar y optimizar efectivamente la calidad del proceso de razonamiento, sin enfocarse únicamente en la corrección de la respuesta final?
Los autores observan que un proceso de razonamiento de alta calidad debe poseer tres características clave: mantener certeza sobre la salida, basarse en la entrada dada, y mantener consistencia interna. Basándose en esta perspectiva, proponen un marco de supervisión multidimensional.
Propuesta del Marco DRM: Primera descomposición de la supervisión de razonamiento en tres dimensiones complementarias (confianza, relevancia, coherencia), proporcionando señales de supervisión densas e interpretables
Resolución de Limitaciones Existentes: Evita el problema de recompensas dispersas de RLVR y la necesidad de segmentación específica de tareas de PRMs
Logro de Mejoras Significativas de Rendimiento: Mejoras consistentes en múltiples tareas de dominio abierto, como MATH500(+8.8), 2WIKI RAG(+8.7), CRUXEVAL(+7.1)
Provisión de Perspectivas Teóricas y Prácticas: Demuestra que la supervisión multidimensional de razonamiento puede mejorar la capacidad de generalización de LLMs más allá de la distribución de entrenamiento
Definición formalizada: dado un entrada I, la salida del modelo O se descompone en proceso de razonamiento R y respuesta A. En escenarios de dominio abierto, I contiene pregunta Q e información adicional D. La estructura completa entrada-salida se representa como cuádrupla: (Q,D,R,A).
Objetivo: Evaluar la certeza del modelo sobre su salida
Implementación:
scoreConf_R = (1/|R|) * Σ log p (probabilidad logarítmica promedio de todos los tokens en R)
scoreConf_A = Σ log p (suma de probabilidades logarítmicas de todos los tokens en A)
scoreConf = scoreConf_R + scoreConf_A
Objetivo: Evaluar la consistencia lógica y calidad textual del proceso de razonamiento
Implementación: Uso de modelo de recompensa a nivel de resultado externo (ORM) para evaluar consistencia lógica, fluidez y calidad textual general
donde D ∈ {Conf, Rel, Coh}, s̃core^D_i es la puntuación dimensional normalizada, y los pesos se determinan mediante búsqueda en cuadrícula en el conjunto de validación.
La evaluación por GPT-4o muestra que la supervisión DRM reduce significativamente instancias de "respuesta correcta pero razonamiento incorrecto", demostrando que DRM prioriza la selección de instancias con mayor calidad de razonamiento.
RLVR mejora efectivamente la capacidad de razonamiento de LLM utilizando señales de corrección automáticamente verificables como recompensas, pero sufre de recompensas dispersas e ignora la calidad del proceso de razonamiento.
Modelos de Recompensa a Nivel de Resultado (ORMs): Evalúan la calidad general de la respuesta, pero pueden dar puntuaciones altas a casos con razonamiento incorrecto pero respuesta correcta
Modelos de Recompensa a Nivel de Proceso (PRMs): Evalúan el proceso de razonamiento en lugar de solo la respuesta final, pero requieren segmentación de pasos específica de la tarea
El artículo cita trabajos importantes en campos relacionados como evaluación de razonamiento, aprendizaje por refuerzo y modelado de recompensas, proporcionando base teórica sólida y comparaciones con baselines.
Evaluación General: Este es un artículo de investigación de alta calidad que propone un marco innovador de supervisión multidimensional de razonamiento, resolviendo efectivamente las limitaciones de métodos existentes. El diseño experimental es exhaustivo, los resultados convincentes, y posee valor teórico y práctico importante para mejorar las capacidades de razonamiento de LLM.