Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
Vers des Modèles de Récompense Multi-Étapes Hiérarchiques pour un Raisonnement Amélioré dans les Grands Modèles de Langage
- ID de l'article: 2503.13551
- Titre: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
- Auteurs: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
- Classification: cs.CL cs.AI
- Date de publication/Conférence: Prépublication arXiv (octobre 2025)
- Lien de l'article: https://arxiv.org/abs/2503.13551
Des recherches récentes démontrent que les grands modèles de langage (LLMs) peuvent acquérir des capacités de raisonnement puissantes par le biais du réglage fin supervisé ou de l'apprentissage par renforcement. Cependant, une approche clé, les modèles de récompense de processus (PRM), souffre du problème de piratage de récompense, les rendant peu fiables pour identifier les meilleures étapes intermédiaires. De plus, l'annotation des processus de raisonnement pour la modélisation des récompenses est coûteuse, rendant la collecte à grande échelle de données de haute qualité difficile. Pour résoudre ces problèmes, cet article propose une approche novatrice de modélisation des récompenses : le modèle de récompense hiérarchique (HRM), qui évalue les étapes de raisonnement individuelles et consécutives à des niveaux granulaires fins et grossiers. Le HRM excelle dans l'évaluation de la cohérence du raisonnement multi-étapes, particulièrement lorsque les étapes erronées sont ultérieurement corrigées par auto-réflexion. Pour réduire davantage le coût de génération des données d'entraînement, cet article introduit une stratégie d'augmentation de données légère et efficace : la compression hiérarchique des nœuds (HNC), qui fusionne deux étapes de raisonnement consécutives dans une structure arborescente en une seule. En appliquant HNC aux trajectoires de raisonnement générées par MCTS, nous améliorons la diversité et la robustesse des données d'entraînement HRM avec un surcoût informatique minimal, tout en introduisant du bruit contrôlé. Les résultats expérimentaux sur l'ensemble de données PRM800K montrent que HRM combiné avec HNC fournit une évaluation plus stable et fiable que PRM. De plus, l'évaluation inter-domaines sur les ensembles de données MATH500 et GSM8K démontre la forte capacité de généralisation et de robustesse du HRM dans diverses tâches de raisonnement.
Cette recherche aborde principalement deux problèmes clés des grands modèles de langage dans les tâches de raisonnement mathématique :
- Problème de piratage de récompense: Les modèles de récompense de processus (PRM) existants sont facilement exploitables ; les modèles peuvent obtenir des scores élevés en exploitant le signal de récompense plutôt qu'en améliorant véritablement le raisonnement, ce qui compromet la fiabilité dans les tâches complexes.
- Coût d'annotation élevé: Les PRM nécessitent une annotation manuelle à grande échelle coûteuse des étapes de raisonnement, limitant leur fiabilité et leur scalabilité.
Le raisonnement mathématique est une tâche importante pour évaluer les capacités de raisonnement des LLMs. Bien que les méthodes existantes telles que la chaîne de pensée (CoT) et l'arbre de pensée (ToT) améliorent les performances, elles présentent des limitations critiques :
- Les modèles CoT manquent de mécanismes pour détecter et corriger les erreurs de raisonnement intermédiaire
- Les méthodes ToT ne peuvent pas intrinsèquement valider chaque étape intermédiaire ni garantir la récupération de la trajectoire de raisonnement optimale
- Modèle de récompense de résultat (ORM): Souffre de problèmes de rétroaction retardée et d'attribution de crédit, rendant difficile la détermination des étapes de raisonnement qui contribuent à la réponse finale
- Modèle de récompense de processus (PRM): Bien qu'il fournisse une supervision plus granulaire, il est susceptible au piratage de récompense et présente des coûts d'annotation élevés
Basé sur les problèmes susmentionnés, cet article propose le modèle de récompense hiérarchique (HRM) pour atténuer les limitations du PRM. En combinant des signaux de supervision hiérarchiques à des niveaux fins (une seule étape) et grossiers (plusieurs étapes consécutives) lors de l'entraînement, le HRM peut capturer la cohérence locale et globale du raisonnement.
- Proposition du modèle de récompense hiérarchique (HRM): Utilise la supervision hiérarchique des données d'entraînement aux niveaux une étape et multi-étapes, favorisant la cohérence du raisonnement multi-étapes et la capacité d'auto-correction, validée sur l'ensemble de données PRM800K.
- Introduction de la compression hiérarchique des nœuds (HNC): Une méthode légère d'augmentation de données MCTS qui augmente considérablement la diversité et la robustesse des données d'entraînement HRM avec un surcoût informatique minimal.
- Amélioration des performances du modèle de politique: Amélioration supplémentaire des performances de raisonnement par le réglage fin sur des trajectoires de raisonnement de haute qualité filtrées par MCTS.
- Validation de la capacité de généralisation: Démonstration de la supériorité du HRM par rapport au PRM en termes de cohérence de raisonnement et de capacité de généralisation sur les ensembles de données GSM8K et MATH500.
Cet article se concentre sur les tâches de raisonnement mathématique, avec l'objectif d'évaluer et d'améliorer les performances des LLMs dans la résolution de problèmes mathématiques multi-étapes. L'entrée est un problème mathématique, la sortie est un processus de raisonnement étape par étape et une réponse finale, avec la contrainte d'assurer l'exactitude et la cohérence des étapes de raisonnement.
L'idée centrale du HRM est d'employer une supervision hiérarchique lors de l'entraînement, évaluant les étapes de raisonnement individuelles et consécutives :
Construction des données d'entraînement:
- Données d'entraînement PRM: DPRM={(si,R(si))∣1≤i≤N}
- Données d'entraînement HRM: DHRM=DPRM∪{(si+si+1,R(si+si+1))∣1≤i<N}
où si représente la i-ème étape de raisonnement, R(⋅) est la fonction de récompense, et N est le nombre total d'étapes de raisonnement.
Objectif de supervision hiérarchique:
- Capturer la cohérence à granularité fine et grossière
- Réaliser l'auto-réflexion et la correction d'erreurs
Phase d'inférence: Bien que l'entraînement utilise des étapes de raisonnement fusionnées, le HRM évalue toujours étape par étape lors de l'inférence, attribuant les récompenses uniquement en fonction de l'étape actuelle si, de manière similaire au PRM.
HNC est une méthode d'augmentation de données qui augmente la diversité des données d'entraînement en fusionnant des nœuds consécutifs dans la structure arborescente MCTS :
Mécanisme principal:
- Fusionner aléatoirement deux nœuds consécutifs, chacun correspondant à une étape de raisonnement
- Supprimer les connexions directes entre les nœuds
- Rediriger les relations de connexion
Introduction de bruit: Lorsqu'un nœud aléatoire est supprimé, le poids des nœuds enfants restants est redistribué de N1 à N−11, la variance augmentant de Nσ2 à N−1σ2, introduisant du bruit contrôlé.
- Conception de supervision hiérarchique: Contrairement au PRM qui évalue uniquement les étapes individuelles, le HRM considère les interactions entre plusieurs étapes, capable d'identifier les corrections des erreurs précoces par les étapes ultérieures.
- Capacité d'auto-correction: Tandis que le PRM traditionnel pénalise les étapes erronées sans considérer les corrections potentielles dans le raisonnement ultérieur, le HRM évalue la cohérence du raisonnement entre plusieurs étapes.
- Augmentation de données à faible coût: HNC réalise l'augmentation de données avec un surcoût informatique extrêmement faible (environ 30 minutes de temps CPU), presque négligeable comparé aux 2457 heures GPU A100 de MCTS.
- PRM800K: Contient des trajectoires de raisonnement annotées manuellement, servant de base pour l'entraînement des ORM, PRM et HRM
- MATH500: Problèmes mathématiques de niveau lycée et universitaire, utilisés pour évaluer la capacité de généralisation
- GSM8K: Problèmes d'application mathématique du primaire, contenant 1000 problèmes de test
- Précision: Précision de résolution des problèmes sous la stratégie Best-of-N
- Stabilité: Degré de stabilité des performances avec l'augmentation de N
- Robustesse: Cohérence des performances sur différents modèles de politique et ensembles de données
- ORM (Outcome Reward Model): Évaluation basée sur l'ensemble de la chaîne de raisonnement
- PRM (Process Reward Model): Évaluation étape par étape du processus de raisonnement
- HRM (Hierarchical Reward Model): Modèle de récompense hiérarchique proposé dans cet article
- Modèle de récompense: Basé sur le réglage fin de Qwen2.5-1.5B-Math
- Modèle de politique: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
- Configuration MCTS: 5-6 nœuds enfants par nœud parent, profondeur maximale de l'arbre 7
- Optimisation d'entraînement: Utilisation de FlashAttention, DeepSpeed et entraînement en précision mixte
Performances Best-of-N sur l'ensemble de données PRM800K:
| N | 2 | 4 | 8 | 16 | 24 |
|---|
| ORM | 0.622 | 0.677 | 0.655 | 0.655 | 0.633 |
| PRM | 0.700 | 0.644 | 0.611 | 0.588 | 0.577 |
| HRM | 0.722 | 0.711 | 0.744 | 0.800 | 0.800 |
Découvertes clés:
- HRM maintient des performances stables avec l'augmentation de N, avec une précision stable à 80%
- ORM et PRM présentent des fluctuations significatives, avec une diminution de la précision avec la croissance de N
- HRM démontre la meilleure stabilité et fiabilité
Résultats sur les ensembles de données GSM8K et MATH500:
| Ensemble de données | Méthode | N=2 | N=64 | N=256 | N=512 |
|---|
| GSM8K | PRM | 0.784 | 0.905 | 0.927 | 0.918 |
| GSM8K | HRM | 0.784 | 0.907 | 0.930 | 0.926 |
| MATH500 | PRM | 0.468 | 0.656 | 0.686 | 0.688 |
| MATH500 | HRM | 0.490 | 0.742 | 0.740 | 0.736 |
Observations importantes:
- Sur l'ensemble de données MATH500 plus complexe, HRM surpasse significativement PRM
- Sur l'ensemble GSM8K relativement simple, la différence est plus petite mais HRM reste légèrement supérieur
- HRM démontre une robustesse inter-domaines plus forte
Comparaison sur différents modèles de politique:
Le HRM entraîné sur des données annotées automatiquement générées par MCTS démontre une meilleure stabilité que PRM sur plusieurs modèles de politique :
- DeepSeek-Math-7B
- Qwen2.5-72B-Math
- Qwen2.5-7B-Math
Le réglage fin supervisé avec régularisation de divergence KL améliore davantage les performances du modèle de politique, validant la valeur des données de raisonnement de haute qualité.
Cet article s'appuie sur le cadre d'apprentissage par renforcement à partir de retours humains (RLHF), qui utilise des modèles de récompense pour distinguer les réponses de haute et basse qualité, et utilise PPO pour optimiser les LLMs.
- ORM: Attribue les récompenses basées sur la sortie globale, souffrant de problèmes de rétroaction retardée et d'attribution de crédit
- PRM: Évalue les étapes de raisonnement intermédiaires, fournissant une supervision plus granulaire, mais souffrant du piratage de récompense
MCTS a été proposé comme méthode pour annoter automatiquement les trajectoires de raisonnement, mais le coût informatique augmente exponentiellement avec la profondeur et la largeur de l'arbre de recherche.
- HRM atténue efficacement le problème de piratage de récompense du PRM, fournissant une évaluation plus stable et fiable grâce à la supervision hiérarchique
- HNC est une stratégie d'augmentation de données efficace, améliorant significativement la qualité des données d'entraînement avec un coût minimal
- HRM démontre une excellente capacité de généralisation, surpassant constamment PRM sur plusieurs ensembles de données de raisonnement mathématique
- Limitation de fusion d'étapes: Actuellement, seules deux étapes consécutives sont fusionnées ; fusionner plus d'étapes entraîne une augmentation drastique de la complexité combinatoire des étiquettes
- Limitation de domaine: Principalement concentré sur le raisonnement mathématique ; l'applicabilité à d'autres domaines de raisonnement structuré nécessite une vérification supplémentaire
- Contraintes informatiques: La configuration MCTS est limitée par les ressources informatiques disponibles, ce qui peut affecter la diversité des données générées
- Explorer des conceptions de structures hiérarchiques plus complexes
- Étendre à d'autres tâches de raisonnement structuré
- Combiner avec des algorithmes de recherche plus efficaces pour réduire les coûts informatiques
- Étudier des stratégies d'étiquetage plus sophistiquées pour gérer les fusions multi-étapes
- Innovation forte: La conception de supervision hiérarchique du HRM combine intelligemment la précision locale et la cohérence globale
- Expérimentation complète: Évaluation complète sur plusieurs ensembles de données et modèles de politique
- Valeur pratique élevée: HNC fournit une solution d'augmentation de données à faible coût
- Fondation théorique solide: Analyse approfondie du problème de piratage de récompense avec une solution ciblée
- Complexité de la méthode: Comparée au PRM, la construction des données d'entraînement et la stratégie d'étiquetage du HRM sont plus complexes
- Scalabilité: Actuellement limité à la fusion de deux étapes, limitant l'extensibilité de la méthode
- Spécificité du domaine: Principalement validé sur les tâches de raisonnement mathématique ; l'applicabilité à d'autres domaines n'a pas été suffisamment vérifiée
- Contribution académique: Fournit une nouvelle perspective hiérarchisée pour la conception de modèles de récompense
- Valeur pratique: La méthode HNC peut être directement appliquée aux flux de travail MCTS existants
- Reproductibilité: Fournit des configurations expérimentales détaillées et des paramètres d'hypertuning
- Tâches de raisonnement mathématique: Particulièrement adapté aux problèmes mathématiques complexes nécessitant un raisonnement multi-étapes
- Tâches de raisonnement nécessitant l'auto-correction: HRM peut identifier et récompenser les corrections d'erreurs dans le processus de raisonnement
- Scénarios avec ressources limitées: HNC fournit une solution d'augmentation de données à faible coût
L'article cite les travaux importants du domaine, notamment :
- Lightman et al. (2023) - Let's verify step by step (ensemble de données PRM800K)
- Cobbe et al. (2021) - Training verifiers to solve math word problems
- Wei et al. (2022) - Chain-of-thought prompting
- Ouyang et al. (2022) - Training language models to follow instructions with human feedback
Évaluation Globale: Cet article est un travail de recherche de haute qualité qui propose des solutions innovantes aux problèmes clés du PRM. La conception de supervision hiérarchique du HRM est théoriquement solide, la vérification expérimentale est complète, et la méthode HNC possède une forte valeur pratique. L'article démontre une excellence en innovation technique, conception expérimentale et analyse des résultats, fournissant une contribution précieuse à l'amélioration des capacités de raisonnement des grands modèles de langage.