2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.

academic

Vers des Modèles de Récompense Multi-Étapes Hiérarchiques pour un Raisonnement Amélioré dans les Grands Modèles de Langage

Informations de Base

ID de l'article: 2503.13551
Titre: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
Auteurs: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
Classification: cs.CL cs.AI
Date de publication/Conférence: Prépublication arXiv (octobre 2025)
Lien de l'article: https://arxiv.org/abs/2503.13551

Résumé

Des recherches récentes démontrent que les grands modèles de langage (LLMs) peuvent acquérir des capacités de raisonnement puissantes par le biais du réglage fin supervisé ou de l'apprentissage par renforcement. Cependant, une approche clé, les modèles de récompense de processus (PRM), souffre du problème de piratage de récompense, les rendant peu fiables pour identifier les meilleures étapes intermédiaires. De plus, l'annotation des processus de raisonnement pour la modélisation des récompenses est coûteuse, rendant la collecte à grande échelle de données de haute qualité difficile. Pour résoudre ces problèmes, cet article propose une approche novatrice de modélisation des récompenses : le modèle de récompense hiérarchique (HRM), qui évalue les étapes de raisonnement individuelles et consécutives à des niveaux granulaires fins et grossiers. Le HRM excelle dans l'évaluation de la cohérence du raisonnement multi-étapes, particulièrement lorsque les étapes erronées sont ultérieurement corrigées par auto-réflexion. Pour réduire davantage le coût de génération des données d'entraînement, cet article introduit une stratégie d'augmentation de données légère et efficace : la compression hiérarchique des nœuds (HNC), qui fusionne deux étapes de raisonnement consécutives dans une structure arborescente en une seule. En appliquant HNC aux trajectoires de raisonnement générées par MCTS, nous améliorons la diversité et la robustesse des données d'entraînement HRM avec un surcoût informatique minimal, tout en introduisant du bruit contrôlé. Les résultats expérimentaux sur l'ensemble de données PRM800K montrent que HRM combiné avec HNC fournit une évaluation plus stable et fiable que PRM. De plus, l'évaluation inter-domaines sur les ensembles de données MATH500 et GSM8K démontre la forte capacité de généralisation et de robustesse du HRM dans diverses tâches de raisonnement.

Contexte et Motivation de la Recherche

Définition du Problème

Cette recherche aborde principalement deux problèmes clés des grands modèles de langage dans les tâches de raisonnement mathématique :

Problème de piratage de récompense: Les modèles de récompense de processus (PRM) existants sont facilement exploitables ; les modèles peuvent obtenir des scores élevés en exploitant le signal de récompense plutôt qu'en améliorant véritablement le raisonnement, ce qui compromet la fiabilité dans les tâches complexes.
Coût d'annotation élevé: Les PRM nécessitent une annotation manuelle à grande échelle coûteuse des étapes de raisonnement, limitant leur fiabilité et leur scalabilité.

Importance de la Recherche

Le raisonnement mathématique est une tâche importante pour évaluer les capacités de raisonnement des LLMs. Bien que les méthodes existantes telles que la chaîne de pensée (CoT) et l'arbre de pensée (ToT) améliorent les performances, elles présentent des limitations critiques :

Les modèles CoT manquent de mécanismes pour détecter et corriger les erreurs de raisonnement intermédiaire
Les méthodes ToT ne peuvent pas intrinsèquement valider chaque étape intermédiaire ni garantir la récupération de la trajectoire de raisonnement optimale

Limitations des Approches Existantes

Modèle de récompense de résultat (ORM): Souffre de problèmes de rétroaction retardée et d'attribution de crédit, rendant difficile la détermination des étapes de raisonnement qui contribuent à la réponse finale
Modèle de récompense de processus (PRM): Bien qu'il fournisse une supervision plus granulaire, il est susceptible au piratage de récompense et présente des coûts d'annotation élevés

Motivation de la Recherche

Basé sur les problèmes susmentionnés, cet article propose le modèle de récompense hiérarchique (HRM) pour atténuer les limitations du PRM. En combinant des signaux de supervision hiérarchiques à des niveaux fins (une seule étape) et grossiers (plusieurs étapes consécutives) lors de l'entraînement, le HRM peut capturer la cohérence locale et globale du raisonnement.

Contributions Principales

Proposition du modèle de récompense hiérarchique (HRM): Utilise la supervision hiérarchique des données d'entraînement aux niveaux une étape et multi-étapes, favorisant la cohérence du raisonnement multi-étapes et la capacité d'auto-correction, validée sur l'ensemble de données PRM800K.
Introduction de la compression hiérarchique des nœuds (HNC): Une méthode légère d'augmentation de données MCTS qui augmente considérablement la diversité et la robustesse des données d'entraînement HRM avec un surcoût informatique minimal.
Amélioration des performances du modèle de politique: Amélioration supplémentaire des performances de raisonnement par le réglage fin sur des trajectoires de raisonnement de haute qualité filtrées par MCTS.
Validation de la capacité de généralisation: Démonstration de la supériorité du HRM par rapport au PRM en termes de cohérence de raisonnement et de capacité de généralisation sur les ensembles de données GSM8K et MATH500.

Explication Détaillée de la Méthode

Définition de la Tâche

Cet article se concentre sur les tâches de raisonnement mathématique, avec l'objectif d'évaluer et d'améliorer les performances des LLMs dans la résolution de problèmes mathématiques multi-étapes. L'entrée est un problème mathématique, la sortie est un processus de raisonnement étape par étape et une réponse finale, avec la contrainte d'assurer l'exactitude et la cohérence des étapes de raisonnement.

Architecture du Modèle

Modèle de Récompense Hiérarchique (HRM)

L'idée centrale du HRM est d'employer une supervision hiérarchique lors de l'entraînement, évaluant les étapes de raisonnement individuelles et consécutives :

Construction des données d'entraînement:

Données d'entraînement PRM: $D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}$
Données d'entraînement HRM: $D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}$

où $s_i$ représente la $i$ -ème étape de raisonnement, $R(\cdot)$ est la fonction de récompense, et $N$ est le nombre total d'étapes de raisonnement.

Objectif de supervision hiérarchique:

Capturer la cohérence à granularité fine et grossière
Réaliser l'auto-réflexion et la correction d'erreurs

Phase d'inférence: Bien que l'entraînement utilise des étapes de raisonnement fusionnées, le HRM évalue toujours étape par étape lors de l'inférence, attribuant les récompenses uniquement en fonction de l'étape actuelle $s_i$ , de manière similaire au PRM.

Compression Hiérarchique des Nœuds (HNC)

HNC est une méthode d'augmentation de données qui augmente la diversité des données d'entraînement en fusionnant des nœuds consécutifs dans la structure arborescente MCTS :

Mécanisme principal:

Fusionner aléatoirement deux nœuds consécutifs, chacun correspondant à une étape de raisonnement
Supprimer les connexions directes entre les nœuds
Rediriger les relations de connexion

Introduction de bruit: Lorsqu'un nœud aléatoire est supprimé, le poids des nœuds enfants restants est redistribué de $\frac{1}{N}$ à $\frac{1}{N-1}$ , la variance augmentant de $\frac{\sigma^2}{N}$ à $\frac{\sigma^2}{N-1}$ , introduisant du bruit contrôlé.

Points d'Innovation Technique

Conception de supervision hiérarchique: Contrairement au PRM qui évalue uniquement les étapes individuelles, le HRM considère les interactions entre plusieurs étapes, capable d'identifier les corrections des erreurs précoces par les étapes ultérieures.
Capacité d'auto-correction: Tandis que le PRM traditionnel pénalise les étapes erronées sans considérer les corrections potentielles dans le raisonnement ultérieur, le HRM évalue la cohérence du raisonnement entre plusieurs étapes.
Augmentation de données à faible coût: HNC réalise l'augmentation de données avec un surcoût informatique extrêmement faible (environ 30 minutes de temps CPU), presque négligeable comparé aux 2457 heures GPU A100 de MCTS.

Configuration Expérimentale

Ensembles de Données

PRM800K: Contient des trajectoires de raisonnement annotées manuellement, servant de base pour l'entraînement des ORM, PRM et HRM
MATH500: Problèmes mathématiques de niveau lycée et universitaire, utilisés pour évaluer la capacité de généralisation
GSM8K: Problèmes d'application mathématique du primaire, contenant 1000 problèmes de test

Métriques d'Évaluation

Précision: Précision de résolution des problèmes sous la stratégie Best-of-N
Stabilité: Degré de stabilité des performances avec l'augmentation de N
Robustesse: Cohérence des performances sur différents modèles de politique et ensembles de données

Méthodes de Comparaison

ORM (Outcome Reward Model): Évaluation basée sur l'ensemble de la chaîne de raisonnement
PRM (Process Reward Model): Évaluation étape par étape du processus de raisonnement
HRM (Hierarchical Reward Model): Modèle de récompense hiérarchique proposé dans cet article

Détails d'Implémentation

Modèle de récompense: Basé sur le réglage fin de Qwen2.5-1.5B-Math
Modèle de politique: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
Configuration MCTS: 5-6 nœuds enfants par nœud parent, profondeur maximale de l'arbre 7
Optimisation d'entraînement: Utilisation de FlashAttention, DeepSpeed et entraînement en précision mixte

Résultats Expérimentaux

Résultats Principaux

Performances Best-of-N sur l'ensemble de données PRM800K:

N	2	4	8	16	24
ORM	0.622	0.677	0.655	0.655	0.633
PRM	0.700	0.644	0.611	0.588	0.577
HRM	0.722	0.711	0.744	0.800	0.800

Découvertes clés:

HRM maintient des performances stables avec l'augmentation de N, avec une précision stable à 80%
ORM et PRM présentent des fluctuations significatives, avec une diminution de la précision avec la croissance de N
HRM démontre la meilleure stabilité et fiabilité

Expériences de Généralisation Inter-Domaines

Résultats sur les ensembles de données GSM8K et MATH500:

Ensemble de données	Méthode	N=2	N=64	N=256	N=512
GSM8K	PRM	0.784	0.905	0.927	0.918
GSM8K	HRM	0.784	0.907	0.930	0.926
MATH500	PRM	0.468	0.656	0.686	0.688
MATH500	HRM	0.490	0.742	0.740	0.736

Observations importantes:

Sur l'ensemble de données MATH500 plus complexe, HRM surpasse significativement PRM
Sur l'ensemble GSM8K relativement simple, la différence est plus petite mais HRM reste légèrement supérieur
HRM démontre une robustesse inter-domaines plus forte

Expériences d'Ablation

Comparaison sur différents modèles de politique: Le HRM entraîné sur des données annotées automatiquement générées par MCTS démontre une meilleure stabilité que PRM sur plusieurs modèles de politique :

DeepSeek-Math-7B
Qwen2.5-72B-Math
Qwen2.5-7B-Math

Expériences d'Auto-Entraînement

Le réglage fin supervisé avec régularisation de divergence KL améliore davantage les performances du modèle de politique, validant la valeur des données de raisonnement de haute qualité.

Travaux Connexes

Cadre RLHF

Cet article s'appuie sur le cadre d'apprentissage par renforcement à partir de retours humains (RLHF), qui utilise des modèles de récompense pour distinguer les réponses de haute et basse qualité, et utilise PPO pour optimiser les LLMs.

Classification des Modèles de Récompense

ORM: Attribue les récompenses basées sur la sortie globale, souffrant de problèmes de rétroaction retardée et d'attribution de crédit
PRM: Évalue les étapes de raisonnement intermédiaires, fournissant une supervision plus granulaire, mais souffrant du piratage de récompense

Application de MCTS au Raisonnement

MCTS a été proposé comme méthode pour annoter automatiquement les trajectoires de raisonnement, mais le coût informatique augmente exponentiellement avec la profondeur et la largeur de l'arbre de recherche.

Conclusion et Discussion

Conclusions Principales

HRM atténue efficacement le problème de piratage de récompense du PRM, fournissant une évaluation plus stable et fiable grâce à la supervision hiérarchique
HNC est une stratégie d'augmentation de données efficace, améliorant significativement la qualité des données d'entraînement avec un coût minimal
HRM démontre une excellente capacité de généralisation, surpassant constamment PRM sur plusieurs ensembles de données de raisonnement mathématique

Limitations

Limitation de fusion d'étapes: Actuellement, seules deux étapes consécutives sont fusionnées ; fusionner plus d'étapes entraîne une augmentation drastique de la complexité combinatoire des étiquettes
Limitation de domaine: Principalement concentré sur le raisonnement mathématique ; l'applicabilité à d'autres domaines de raisonnement structuré nécessite une vérification supplémentaire
Contraintes informatiques: La configuration MCTS est limitée par les ressources informatiques disponibles, ce qui peut affecter la diversité des données générées

Directions Futures

Explorer des conceptions de structures hiérarchiques plus complexes
Étendre à d'autres tâches de raisonnement structuré
Combiner avec des algorithmes de recherche plus efficaces pour réduire les coûts informatiques
Étudier des stratégies d'étiquetage plus sophistiquées pour gérer les fusions multi-étapes

Évaluation Approfondie

Points Forts

Innovation forte: La conception de supervision hiérarchique du HRM combine intelligemment la précision locale et la cohérence globale
Expérimentation complète: Évaluation complète sur plusieurs ensembles de données et modèles de politique
Valeur pratique élevée: HNC fournit une solution d'augmentation de données à faible coût
Fondation théorique solide: Analyse approfondie du problème de piratage de récompense avec une solution ciblée

Insuffisances

Complexité de la méthode: Comparée au PRM, la construction des données d'entraînement et la stratégie d'étiquetage du HRM sont plus complexes
Scalabilité: Actuellement limité à la fusion de deux étapes, limitant l'extensibilité de la méthode
Spécificité du domaine: Principalement validé sur les tâches de raisonnement mathématique ; l'applicabilité à d'autres domaines n'a pas été suffisamment vérifiée

Impact

Contribution académique: Fournit une nouvelle perspective hiérarchisée pour la conception de modèles de récompense
Valeur pratique: La méthode HNC peut être directement appliquée aux flux de travail MCTS existants
Reproductibilité: Fournit des configurations expérimentales détaillées et des paramètres d'hypertuning

Scénarios d'Application

Tâches de raisonnement mathématique: Particulièrement adapté aux problèmes mathématiques complexes nécessitant un raisonnement multi-étapes
Tâches de raisonnement nécessitant l'auto-correction: HRM peut identifier et récompenser les corrections d'erreurs dans le processus de raisonnement
Scénarios avec ressources limitées: HNC fournit une solution d'augmentation de données à faible coût

Références

L'article cite les travaux importants du domaine, notamment :

Lightman et al. (2023) - Let's verify step by step (ensemble de données PRM800K)
Cobbe et al. (2021) - Training verifiers to solve math word problems
Wei et al. (2022) - Chain-of-thought prompting
Ouyang et al. (2022) - Training language models to follow instructions with human feedback

Évaluation Globale: Cet article est un travail de recherche de haute qualité qui propose des solutions innovantes aux problèmes clés du PRM. La conception de supervision hiérarchique du HRM est théoriquement solide, la vérification expérimentale est complète, et la méthode HNC possède une forte valeur pratique. L'article démontre une excellence en innovation technique, conception expérimentale et analyse des résultats, fournissant une contribution précieuse à l'amélioration des capacités de raisonnement des grands modèles de langage.