2025-11-15T10:52:11.758296

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

Wang, Su, Tian et al.

Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.

academic

De à : Supervision Multidimensionnelle du Processus de Raisonnement pour l'Optimisation des LLM

Informations Fondamentales

ID de l'article : 2510.11457
Titre : From to : Multidimensional Supervision of Reasoning Process for LLM Optimization
Auteurs : Beining Wang, Weihang Su, Hongtao Tian, Tao Yang, Yujia Zhou, Ting Yao, Qingyao Ai, Yiqun Liu
Classification : cs.AI
Date de publication : 13 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.11457

Résumé

L'amélioration des capacités de raisonnement multi-étapes des grands modèles de langage (LLMs) est une tâche cruciale mais complexe. Le paradigme dominant — l'apprentissage par renforcement avec supervision de résultats (RLVR) — récompense uniquement les réponses finales correctes, ce qui propage souvent des raisonnements défectueux et souffre de signaux de récompense clairsemés. Bien que les modèles de récompense au niveau des processus (PRMs) fournissent des retours plus denses étape par étape, ils manquent de généralisation et d'interprétabilité, nécessitant une segmentation des processus de raisonnement spécifique à chaque tâche. Pour remédier à cela, les auteurs proposent le modèle de récompense au niveau des dimensions (DRM), un nouveau cadre de supervision qui comble l'écart entre ces deux approches. Le DRM évalue la qualité du processus de raisonnement selon trois dimensions fondamentales, complémentaires et interprétables : la confiance (calibrage de l'incertitude), la pertinence (alignement sémantique) et la cohérence (cohérence logique). Ces dimensions capturent collectivement des aspects au-delà de la simple exactitude de la réponse finale, permettant une évaluation interprétable sans nécessiter les réponses correctes. Les résultats expérimentaux montrent que le DRM fournit des signaux de supervision efficaces guidant l'optimisation des LLMs et renforçant leurs capacités de raisonnement.

Contexte de Recherche et Motivation

Définition du Problème

Le problème fondamental auquel font face les LLMs actuels dans les tâches de raisonnement multi-étapes est : comment superviser et optimiser efficacement la qualité du processus de raisonnement, plutôt que de se concentrer uniquement sur l'exactitude de la réponse finale.

Limitations des Méthodes Existantes

Problèmes du RLVR :
- Récompenses binaires basées uniquement sur la réponse finale, ignorant la qualité du processus de raisonnement
- Peut récompenser les cas de « réponse correcte mais raisonnement erroné »
- Lorsque le modèle est trop fort ou trop faible, le signal de récompense tend vers une constante, limitant son pouvoir directif
Limitations des PRMs :
- Nécessite de segmenter le processus de raisonnement en étapes indépendantes, une segmentation souvent spécifique à la tâche
- Manque de généralisation, difficile à adapter aux tâches en domaine ouvert
- En tant qu'évaluateurs boîte noire, manque d'interprétabilité

Motivation de la Recherche

Les auteurs observent qu'un processus de raisonnement de haute qualité devrait posséder trois caractéristiques clés : maintenir la certitude quant aux résultats, être basé sur les entrées données, et maintenir la cohérence interne. Sur la base de cette observation, ils proposent un cadre de supervision multidimensionnelle.

Contributions Principales

Proposition du cadre DRM : Première décomposition de la supervision du raisonnement en trois dimensions complémentaires (confiance, pertinence, cohérence), fournissant des signaux de supervision denses et interprétables
Résolution des limitations des méthodes existantes : Évite les problèmes de récompenses clairsemées du RLVR et les exigences de segmentation spécifiques à chaque tâche des PRMs
Réalisation d'améliorations significatives de performance : Améliorations constantes sur plusieurs tâches en domaine ouvert, telles que MATH500 (+8,8), 2WIKI RAG (+8,7), CRUXEVAL (+7,1)
Fourniture d'intuitions théoriques et pratiques : Démontre que la supervision multidimensionnelle du raisonnement peut améliorer la capacité de généralisation des LLMs au-delà de la distribution d'entraînement

Détails de la Méthode

Définition de la Tâche

Définition formalisée : Étant donné une entrée I, la sortie du modèle O se décompose en processus de raisonnement R et réponse A. Dans les scénarios en domaine ouvert, I contient la question Q et les informations supplémentaires D. L'ensemble de la structure entrée-sortie est représenté comme un quadruplet : (Q, D, R, A).

Cadre DRM Tridimensionnel

1. Confiance (Confidence)

Objectif : Évaluer la certitude du modèle concernant sa sortie Implémentation :

scoreConf_R = (1/|R|) * Σ log p  (probabilité logarithmique moyenne de tous les tokens dans R)
scoreConf_A = Σ log p  (somme des probabilités logarithmiques de tous les tokens dans A)
scoreConf = scoreConf_R + scoreConf_A

2. Pertinence (Relevance)

Objectif : Évaluer les relations sémantiques du processus de raisonnement avec d'autres composants Implémentation : Évaluation de trois relations

Q→R : via les relations d'implication en inférence en langage naturel (NLI)
R↔D : via les mesures de similarité sémantique
R→A : via les relations d'implication en NLI

3. Cohérence (Coherence)

Objectif : Évaluer la cohérence logique et la qualité textuelle du processus de raisonnement Implémentation : Utilisation d'un modèle de récompense au niveau des résultats externes (ORM) pour évaluer la cohérence logique, la fluidité et la qualité textuelle globale

Calcul de la Récompense Intégrée

R^DRM_i = Σ_D w_D * s̃core^D_i

où D ∈ {Conf, Rel, Coh}, s̃core^D_i est le score de dimension normalisé, et les poids sont déterminés par recherche en grille sur l'ensemble de validation.

Stratégies d'Optimisation

Optimisation Hors-Politique (DPO)

L_DPO(θ) = -E[(I,O+,O-)] [log σ(β log π_θ(O+|I)/π_ref(O+|I) - β log π_θ(O-|I)/π_ref(O-|I))]

où O+ = argmax RDRM, O- = argmin RDRM

Optimisation En-Politique (GRPO)

Combinaison de l'avantage DRM avec l'avantage GRPO natif :

A_i,t = Â_i,t + Â^DRM_i,t

Configuration Expérimentale

Modèles

LLaMA-3.1-8B-Instruct : Modèle de base manquant de capacités de raisonnement intrinsèques
R1-Distil-Llama8B : Modèle de raisonnement spécialisé
Qwen3-8B : Modèle de raisonnement hybride

Ensembles de Données

Couvrant 17 tâches en domaine ouvert :

Tâches de code : CodeMMLU, CodeScope, Cruxeval, Execution-v2
Tâches de préférence : RM-Bench, UltraFeedback
Tâches mathématiques : AIME24, AMC23, GSM8K, Math500
Questions scientifiques : MMLU-Pro, GPQA
Raisonnement logique : MuSR, DROP, QASC
Questions-réponses et RAG : 2WikiMultihopQA, HotpotQA et leurs variantes RAG

Métriques d'Évaluation

Tâches mathématiques : Vérification automatique des solutions MATH-VERIFY
Autres tâches : Correspondance exacte (Exact Match)

Résultats Expérimentaux

Résultats Principaux

RQ1 : Le DRM peut-il déterminer de manière fiable l'exactitude de la réponse finale ?

Les résultats sur RewardBench 2 montrent que le DRM obtient constamment une précision plus élevée que l'échantillonnage aléatoire :

LLaMA3.1-8B-Instruct : 78,57 % vs 67,17 %
R1-Distil-Llama8B : 76,16 % vs 63,46 %
Qwen3-8B : 85,65 % vs 84,87 %

RQ2 et RQ3 : Efficacité de la Supervision DRM

Les résultats d'entraînement DPO hors-politique montrent que DRM@ANY surpasse constamment RLVR@T+F :

Domaine de Tâche	Ensemble de Données	Natif	RLVR@T+F	DRM@ANY
Code	Cruxeval	50,4	52,6	57,5
Mathématiques	Math500	39,6	43,4	48,4
QA-RAG	2wiki RAG	31,2	35,8	39,9

RQ4 : Effet de la Combinaison du RLVR et du DRM

L'entraînement GRPO en-politique montre que les méthodes combinées fonctionnent généralement au mieux ou de manière comparable à la meilleure méthode unique.

Études d'Ablation

Les expériences de supervision unidimensionnelle montrent que :

Les dimensions individuelles améliorent certaines tâches mais peuvent diminuer les performances sur d'autres
Aucune dimension unique ne suffit à obtenir des améliorations robustes sur toutes les tâches
La combinaison multidimensionnelle produit des effets synergiques, réalisant des améliorations plus larges et constantes

Analyse de Cas

L'évaluation par GPT-4o montre que la supervision DRM réduit significativement le nombre d'instances de « réponse correcte mais raisonnement erroné », prouvant que le DRM privilégie la sélection d'instances avec une qualité de raisonnement plus élevée.

Travaux Connexes

Apprentissage par Renforcement et Récompenses Vérifiables (RLVR)

Le RLVR améliore efficacement les capacités de raisonnement des LLMs en utilisant des signaux de correction automatiquement vérifiables comme récompenses, mais souffre de récompenses clairsemées et de l'ignorance de la qualité du processus de raisonnement.

Modèles de Récompense

Modèles de récompense au niveau des résultats (ORMs) : Évaluent la qualité globale de la réponse, mais peuvent donner des scores élevés aux cas où une réponse correcte est obtenue par un raisonnement erroné
Modèles de récompense au niveau des processus (PRMs) : Évaluent le processus de raisonnement plutôt que seulement la réponse finale, mais nécessitent une segmentation des étapes spécifique à la tâche

Conclusions et Discussion

Conclusions Principales

Le DRM fournit des signaux de supervision efficaces guidant l'optimisation des LLMs et renforçant leurs capacités de raisonnement
La supervision multidimensionnelle du raisonnement réalise des améliorations constantes sur les tâches en distribution et hors distribution
Le DRM résout avec succès les limitations clés du RLVR et des PRMs

Limitations

La configuration des poids nécessite une recherche en grille sur l'ensemble de validation, ce qui peut limiter la généralisation inter-domaines
Dépend de modèles externes pour l'évaluation de la pertinence et de la cohérence, augmentant les frais de calcul
Sur certaines tâches intensives en raisonnement ou en connaissances, le RLVR direct peut interférer avec l'optimisation

Directions Futures

Explorer les mécanismes d'ajustement des poids adaptatifs
Étudier des méthodes d'évaluation des dimensions plus efficaces
Étendre à davantage de dimensions de raisonnement et de types de tâches

Évaluation Approfondie

Points Forts

Forte innovativité : Première proposition de supervision du raisonnement au niveau des dimensions, comblant l'écart entre le RLVR et les PRMs
Fondations théoriques solides : Cadre conçu sur la base de trois caractéristiques fondamentales du raisonnement de haute qualité
Expériences complètes : Validation sur 17 tâches différentes couvrant plusieurs domaines
Bonne interprétabilité : Les trois dimensions possèdent des significations sémantiques claires et sont interprétables
Valeur pratique élevée : Peut réaliser des améliorations sans nécessiter de données spécifiques à la tâche ou d'entraînement

Insuffisances

Frais de calcul : Nécessite plusieurs modèles externes pour l'évaluation des dimensions, augmentant les coûts d'inférence
Sensibilité aux poids : Les configurations de poids optimales diffèrent selon les modèles, ce qui peut affecter la généralisation
Dépendance à l'évaluation : L'évaluation de la pertinence et de la cohérence dépend de la qualité des modèles externes
Analyse théorique insuffisante : Manque d'analyse théorique sur pourquoi ces trois dimensions sont le choix optimal

Impact

Contribution académique : Fournit une nouvelle direction et un cadre de recherche pour la supervision du raisonnement
Valeur pratique : Peut être directement appliqué aux pipelines d'entraînement des LLMs existants
Reproductibilité : Le code et les ensembles de données sont publiquement disponibles, facilitant la reproduction et l'extension

Scénarios d'Application

Scénarios d'application nécessitant des processus de raisonnement de haute qualité
Tâches de raisonnement multi-étapes en domaine ouvert
Scénarios manquant de grandes quantités de données annotées pour les étapes de raisonnement
Applications nécessitant une évaluation du raisonnement interprétable

Références

L'article cite des travaux importants dans les domaines connexes de l'évaluation du raisonnement, de l'apprentissage par renforcement et de la modélisation des récompenses, fournissant une base théorique solide et des baselines de comparaison pour cette recherche.

Évaluation Globale : Ceci est un article de recherche de haute qualité proposant un cadre innovant de supervision multidimensionnelle du raisonnement, résolvant efficacement les limitations des méthodes existantes. La conception expérimentale est complète, les résultats convaincants, et l'étude possède une valeur théorique et pratique importante pour l'amélioration des capacités de raisonnement des LLMs.