From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization
Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic
De à : Supervision Multidimensionnelle du Processus de Raisonnement pour l'Optimisation des LLM
L'amélioration des capacités de raisonnement multi-étapes des grands modèles de langage (LLMs) est une tâche cruciale mais complexe. Le paradigme dominant — l'apprentissage par renforcement avec supervision de résultats (RLVR) — récompense uniquement les réponses finales correctes, ce qui propage souvent des raisonnements défectueux et souffre de signaux de récompense clairsemés. Bien que les modèles de récompense au niveau des processus (PRMs) fournissent des retours plus denses étape par étape, ils manquent de généralisation et d'interprétabilité, nécessitant une segmentation des processus de raisonnement spécifique à chaque tâche. Pour remédier à cela, les auteurs proposent le modèle de récompense au niveau des dimensions (DRM), un nouveau cadre de supervision qui comble l'écart entre ces deux approches. Le DRM évalue la qualité du processus de raisonnement selon trois dimensions fondamentales, complémentaires et interprétables : la confiance (calibrage de l'incertitude), la pertinence (alignement sémantique) et la cohérence (cohérence logique). Ces dimensions capturent collectivement des aspects au-delà de la simple exactitude de la réponse finale, permettant une évaluation interprétable sans nécessiter les réponses correctes. Les résultats expérimentaux montrent que le DRM fournit des signaux de supervision efficaces guidant l'optimisation des LLMs et renforçant leurs capacités de raisonnement.
Le problème fondamental auquel font face les LLMs actuels dans les tâches de raisonnement multi-étapes est : comment superviser et optimiser efficacement la qualité du processus de raisonnement, plutôt que de se concentrer uniquement sur l'exactitude de la réponse finale.
Les auteurs observent qu'un processus de raisonnement de haute qualité devrait posséder trois caractéristiques clés : maintenir la certitude quant aux résultats, être basé sur les entrées données, et maintenir la cohérence interne. Sur la base de cette observation, ils proposent un cadre de supervision multidimensionnelle.
Proposition du cadre DRM : Première décomposition de la supervision du raisonnement en trois dimensions complémentaires (confiance, pertinence, cohérence), fournissant des signaux de supervision denses et interprétables
Résolution des limitations des méthodes existantes : Évite les problèmes de récompenses clairsemées du RLVR et les exigences de segmentation spécifiques à chaque tâche des PRMs
Réalisation d'améliorations significatives de performance : Améliorations constantes sur plusieurs tâches en domaine ouvert, telles que MATH500 (+8,8), 2WIKI RAG (+8,7), CRUXEVAL (+7,1)
Fourniture d'intuitions théoriques et pratiques : Démontre que la supervision multidimensionnelle du raisonnement peut améliorer la capacité de généralisation des LLMs au-delà de la distribution d'entraînement
Définition formalisée : Étant donné une entrée I, la sortie du modèle O se décompose en processus de raisonnement R et réponse A. Dans les scénarios en domaine ouvert, I contient la question Q et les informations supplémentaires D. L'ensemble de la structure entrée-sortie est représenté comme un quadruplet : (Q, D, R, A).
Objectif : Évaluer la certitude du modèle concernant sa sortie
Implémentation :
scoreConf_R = (1/|R|) * Σ log p (probabilité logarithmique moyenne de tous les tokens dans R)
scoreConf_A = Σ log p (somme des probabilités logarithmiques de tous les tokens dans A)
scoreConf = scoreConf_R + scoreConf_A
Objectif : Évaluer la cohérence logique et la qualité textuelle du processus de raisonnement
Implémentation : Utilisation d'un modèle de récompense au niveau des résultats externes (ORM) pour évaluer la cohérence logique, la fluidité et la qualité textuelle globale
où D ∈ {Conf, Rel, Coh}, s̃core^D_i est le score de dimension normalisé, et les poids sont déterminés par recherche en grille sur l'ensemble de validation.
L'entraînement GRPO en-politique montre que les méthodes combinées fonctionnent généralement au mieux ou de manière comparable à la meilleure méthode unique.
L'évaluation par GPT-4o montre que la supervision DRM réduit significativement le nombre d'instances de « réponse correcte mais raisonnement erroné », prouvant que le DRM privilégie la sélection d'instances avec une qualité de raisonnement plus élevée.
Le RLVR améliore efficacement les capacités de raisonnement des LLMs en utilisant des signaux de correction automatiquement vérifiables comme récompenses, mais souffre de récompenses clairsemées et de l'ignorance de la qualité du processus de raisonnement.
Modèles de récompense au niveau des résultats (ORMs) : Évaluent la qualité globale de la réponse, mais peuvent donner des scores élevés aux cas où une réponse correcte est obtenue par un raisonnement erroné
Modèles de récompense au niveau des processus (PRMs) : Évaluent le processus de raisonnement plutôt que seulement la réponse finale, mais nécessitent une segmentation des étapes spécifique à la tâche
L'article cite des travaux importants dans les domaines connexes de l'évaluation du raisonnement, de l'apprentissage par renforcement et de la modélisation des récompenses, fournissant une base théorique solide et des baselines de comparaison pour cette recherche.
Évaluation Globale : Ceci est un article de recherche de haute qualité proposant un cadre innovant de supervision multidimensionnelle du raisonnement, résolvant efficacement les limitations des méthodes existantes. La conception expérimentale est complète, les résultats convaincants, et l'étude possède une valeur théorique et pratique importante pour l'amélioration des capacités de raisonnement des LLMs.