2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.

academic

Verso Modelli di Ricompensa Multi-Step Gerarchici per un Ragionamento Migliorato nei Grandi Modelli Linguistici

Informazioni Fondamentali

ID Articolo: 2503.13551
Titolo: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
Autori: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
Classificazione: cs.CL cs.AI
Data di Pubblicazione/Conferenza: Preprint arXiv (Ottobre 2025)
Link Articolo: https://arxiv.org/abs/2503.13551

Riassunto

Ricerche recenti dimostrano che i grandi modelli linguistici (LLM) possono acquisire forti capacità di ragionamento attraverso la messa a punto supervisionata o l'apprendimento per rinforzo. Tuttavia, il metodo critico dei modelli di ricompensa di processo (PRM) soffre di problemi di reward hacking, rendendoli inaffidabili nell'identificazione dei migliori step intermedi. Inoltre, l'annotazione dei processi di ragionamento per la modellazione delle ricompense è costosa, rendendo difficile la raccolta su larga scala di dati di alta qualità. Per affrontare questi problemi, questo articolo propone un nuovo approccio di modellazione delle ricompense: il Modello di Ricompensa Gerarchico (HRM), che valuta i singoli e i consecutivi step di ragionamento a livelli sia granulari che grossolani. HRM eccelle nella valutazione della coerenza del ragionamento multi-step, in particolare quando gli step errati vengono successivamente corretti attraverso l'auto-riflessione. Per ridurre ulteriormente il costo della generazione dei dati di addestramento, questo articolo introduce una strategia di aumento dati leggera ed efficace: la Compressione Gerarchica dei Nodi (HNC), che unisce due step di ragionamento consecutivi in una struttura ad albero in uno solo. Applicando HNC alle traiettorie di ragionamento generate da MCTS, abbiamo aumentato la diversità e la robustezza dei dati di addestramento di HRM con un sovraccarico computazionale minimo, introducendo al contempo rumore controllato. I risultati sperimentali sul dataset PRM800K dimostrano che HRM combinato con HNC fornisce una valutazione più stabile e affidabile rispetto a PRM. Inoltre, la valutazione cross-domain sui dataset MATH500 e GSM8K dimostra la forte capacità di generalizzazione e robustezza di HRM in vari compiti di ragionamento.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta principalmente due problemi critici dei grandi modelli linguistici nei compiti di ragionamento matematico:

Problema del Reward Hacking: I modelli di ricompensa di processo (PRM) esistenti sono facilmente sfruttabili dai modelli, che possono ottenere punteggi elevati sfruttando il segnale di ricompensa piuttosto che migliorare effettivamente il ragionamento, compromettendo l'affidabilità nei compiti complessi.
Costi di Annotazione Elevati: PRM richiede annotazioni manuali su larga scala e costose dei step di ragionamento, limitando la sua affidabilità e scalabilità.

Importanza della Ricerca

Il ragionamento matematico è un compito cruciale per valutare le capacità di ragionamento degli LLM. Sebbene metodi esistenti come Chain-of-Thought (CoT) e Tree-of-Thought (ToT) abbiano migliorato le prestazioni, presentano ancora limitazioni critiche:

I modelli CoT mancano di meccanismi per rilevare e correggere gli errori di ragionamento intermedi
I metodi ToT non possono intrinsecamente verificare ogni step intermedio o garantire il recupero della traiettoria di ragionamento ottimale

Limitazioni dei Metodi Esistenti

Modelli di Ricompensa dei Risultati (ORM): Soffrono di problemi di feedback ritardato e assegnazione del credito, rendendo difficile determinare quali step di ragionamento contribuiscono alla risposta finale
Modelli di Ricompensa di Processo (PRM): Sebbene forniscano una supervisione più granulare, sono suscettibili al reward hacking e hanno costi di annotazione elevati

Motivazione della Ricerca

Sulla base dei problemi sopra menzionati, questo articolo propone il Modello di Ricompensa Gerarchico (HRM) per mitigare le limitazioni di PRM, combinando durante l'addestramento segnali di supervisione gerarchica a livello granulare (singolo step) e grossolano (multi-step consecutivi), consentendo a HRM di catturare la coerenza locale e globale nel ragionamento.

Contributi Principali

Propone il Modello di Ricompensa Gerarchico (HRM): Utilizza la supervisione gerarchica dei dati di addestramento a livello di singolo step e multi-step, promuovendo la coerenza nel ragionamento multi-step e la capacità di auto-correzione, verificando la robustezza di HRM sul dataset PRM800K.
Introduce la Compressione Gerarchica dei Nodi (HNC): Un metodo leggero di aumento dati MCTS che aumenta significativamente la diversità e la robustezza dei dati di addestramento di HRM con costo computazionale minimo.
Migliora le Prestazioni del Modello di Strategia: Attraverso la messa a punto su traiettorie di ragionamento di alta qualità filtrate da MCTS, migliora ulteriormente le prestazioni di ragionamento.
Verifica la Capacità di Generalizzazione: Dimostra la superiorità di HRM rispetto a PRM in termini di coerenza di ragionamento e capacità di generalizzazione sui dataset GSM8K e MATH500.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo si concentra su compiti di ragionamento matematico, con l'obiettivo di valutare e migliorare le prestazioni degli LLM nella risoluzione di problemi matematici multi-step. L'input è un problema matematico, l'output è un processo di ragionamento passo dopo passo e una risposta finale, con il vincolo di garantire la correttezza e la coerenza dei step di ragionamento.

Architettura del Modello

Modello di Ricompensa Gerarchico (HRM)

L'idea centrale di HRM è utilizzare la supervisione gerarchica durante l'addestramento, valutando i singoli e i consecutivi step di ragionamento:

Costruzione dei Dati di Addestramento:

Dati di addestramento PRM: $D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}$
Dati di addestramento HRM: $D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}$

Dove $s_i$ rappresenta l' $i$ -esimo step di ragionamento, $R(\cdot)$ è la funzione di ricompensa, e $N$ è il numero totale di step nella sequenza di ragionamento.

Obiettivo di Supervisione Gerarchica:

Catturare la coerenza sia granulare che grossolana
Realizzare l'auto-riflessione e la correzione degli errori

Fase di Inferenza: Sebbene durante l'addestramento vengano utilizzati step di ragionamento uniti, HRM durante l'inferenza valuta comunque passo dopo passo, assegnando ricompense solo in base allo step attuale $s_i$ , in modo simile a PRM.

Compressione Gerarchica dei Nodi (HNC)

HNC è un metodo di aumento dati che aumenta la diversità dei dati di addestramento unendo i nodi consecutivi nella struttura ad albero MCTS:

Meccanismo Principale:

Unire casualmente due nodi consecutivi, ciascuno corrispondente a uno step di ragionamento
Rimuovere la connessione diretta tra i nodi
Reindirizzare le relazioni di connessione

Introduzione del Rumore: Quando un nodo casuale viene rimosso, i pesi dei nodi figli rimanenti vengono ridistribuiti da $\frac{1}{N}$ a $\frac{1}{N-1}$ , con la varianza che aumenta da $\frac{\sigma^2}{N}$ a $\frac{\sigma^2}{N-1}$ , introducendo rumore controllato.

Punti di Innovazione Tecnica

Design della Supervisione Gerarchica: A differenza di PRM che valuta solo i singoli step, HRM considera l'interazione tra più step, potendo identificare la correzione degli errori iniziali da parte degli step successivi.
Capacità di Auto-Correzione: Mentre il PRM tradizionale penalizza gli step errati senza considerare la potenziale correzione nel ragionamento successivo, HRM valuta la coerenza del ragionamento tra più step.
Aumento Dati a Basso Costo: HNC realizza l'aumento dati con un sovraccarico computazionale estremamente basso (circa 30 minuti di tempo CPU), quasi trascurabile rispetto alle 2457 ore GPU A100 di MCTS.

Configurazione Sperimentale

Dataset

PRM800K: Contiene traiettorie di ragionamento annotate manualmente, servendo come base per l'addestramento di ORM, PRM e HRM
MATH500: Problemi matematici di livello liceo e università, utilizzati per valutare la capacità di generalizzazione
GSM8K: Problemi di matematica applicata della scuola primaria, contenente 1000 problemi di test

Metriche di Valutazione

Accuratezza: Accuratezza nella risoluzione dei problemi secondo la strategia Best-of-N
Stabilità: Grado di stabilità delle prestazioni con l'aumento di N
Robustezza: Coerenza delle prestazioni tra diversi modelli di strategia e dataset

Metodi di Confronto

ORM (Outcome Reward Model): Valutazione basata sull'intera catena di ragionamento
PRM (Process Reward Model): Valutazione passo dopo passo del processo di ragionamento
HRM (Hierarchical Reward Model): Modello di ricompensa gerarchico proposto in questo articolo

Dettagli di Implementazione

Modello di Ricompensa: Messa a punto basata su Qwen2.5-1.5B-Math
Modello di Strategia: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
Configurazione MCTS: 5-6 nodi figli per ogni nodo padre, profondità massima dell'albero 7
Ottimizzazione dell'Addestramento: Utilizzo di FlashAttention, DeepSpeed e addestramento a precisione mista

Risultati Sperimentali

Risultati Principali

Prestazioni Best-of-N sul Dataset PRM800K:

N	2	4	8	16	24
ORM	0.622	0.677	0.655	0.655	0.633
PRM	0.700	0.644	0.611	0.588	0.577
HRM	0.722	0.711	0.744	0.800	0.800

Scoperte Chiave:

HRM mantiene prestazioni stabili con l'aumento di N, con accuratezza stabile all'80%
ORM e PRM mostrano fluttuazioni significative, con accuratezza in calo all'aumentare di N
HRM dimostra la migliore stabilità e affidabilità

Esperimenti di Generalizzazione Cross-Domain

Risultati sui Dataset GSM8K e MATH500:

Dataset	Metodo	N=2	N=64	N=256	N=512
GSM8K	PRM	0.784	0.905	0.927	0.918
GSM8K	HRM	0.784	0.907	0.930	0.926
MATH500	PRM	0.468	0.656	0.686	0.688
MATH500	HRM	0.490	0.742	0.740	0.736

Osservazioni Importanti:

Sul complesso dataset MATH500, HRM supera significativamente PRM
Sul relativamente semplice GSM8K, la differenza è minore ma HRM rimane leggermente superiore
HRM dimostra una robustezza cross-domain più forte

Esperimenti di Ablazione

Confronto con Diversi Modelli di Strategia: HRM addestrato su dati annotati automaticamente generati da MCTS dimostra una stabilità migliore rispetto a PRM su più modelli di strategia:

DeepSeek-Math-7B
Qwen2.5-72B-Math
Qwen2.5-7B-Math

Esperimenti di Auto-Addestramento

La messa a punto supervisionata con regolarizzazione della divergenza KL ha ulteriormente migliorato le prestazioni del modello di strategia, verificando il valore dei dati di ragionamento di alta qualità.

Lavori Correlati

Framework RLHF

Questo articolo si basa sul framework dell'Apprendimento per Rinforzo da Feedback Umano (RLHF), che distingue le risposte di alta e bassa qualità attraverso modelli di ricompensa e ottimizza gli LLM utilizzando PPO.

Classificazione dei Modelli di Ricompensa

ORM: Assegna ricompense basate sull'output complessivo, soffrendo di problemi di feedback ritardato e assegnazione del credito
PRM: Valuta i step di ragionamento intermedi, fornendo una supervisione più granulare, ma suscettibile al reward hacking

Applicazione di MCTS nel Ragionamento

MCTS è stato proposto come metodo per annotare autonomamente le traiettorie di ragionamento, ma il costo computazionale cresce esponenzialmente con la profondità e la larghezza dell'albero di ricerca.

Conclusioni e Discussione

Conclusioni Principali

HRM mitiga efficacemente il problema del reward hacking di PRM, fornendo una valutazione più stabile e affidabile attraverso la supervisione gerarchica
HNC è una strategia di aumento dati efficiente, che migliora significativamente la qualità dei dati di addestramento con costo minimo
HRM dimostra eccellente capacità di generalizzazione, superando costantemente PRM su più dataset di ragionamento matematico

Limitazioni

Limitazione dell'Unione di Step: Attualmente vengono uniti solo due step consecutivi; l'unione di più step porterebbe a un aumento esponenziale della complessità della combinazione di etichette
Limitazione del Dominio: Si concentra principalmente sul ragionamento matematico; l'applicabilità ad altri domini di ragionamento strutturato richiede ulteriore verifica
Vincoli Computazionali: La configurazione MCTS è limitata dalle risorse computazionali disponibili, il che potrebbe influire sulla diversità dei dati generati

Direzioni Future

Esplorare design di strutture gerarchiche più complesse
Estendere ad altri compiti di ragionamento strutturato
Combinare algoritmi di ricerca più efficienti per ridurre i costi computazionali
Ricercare strategie di etichettatura più sofisticate per gestire l'unione di più step

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Il design della supervisione gerarchica di HRM combina abilmente l'accuratezza locale e la coerenza globale
Esperimenti Completi: Valutazione comprensiva su più dataset e modelli di strategia
Alto Valore Pratico: HNC fornisce una soluzione di aumento dati a basso costo
Fondamenti Teorici Solidi: L'analisi del problema del reward hacking è approfondita e la soluzione è mirata

Insufficienze

Complessità del Metodo: Rispetto a PRM, la costruzione dei dati di addestramento e la strategia di etichettatura di HRM sono più complesse
Scalabilità: Attualmente supporta solo l'unione di due step, limitando l'estensibilità del metodo
Specificità del Dominio: Principalmente verificato su compiti di ragionamento matematico; l'applicabilità ad altri domini non è sufficientemente verificata

Impatto

Contributo Accademico: Fornisce una nuova prospettiva gerarchica per il design dei modelli di ricompensa
Valore Pratico: Il metodo HNC può essere direttamente applicato ai flussi MCTS esistenti
Riproducibilità: Fornisce configurazioni sperimentali dettagliate e parametri di iper-tuning

Scenari Applicabili

Compiti di Ragionamento Matematico: Particolarmente adatto per problemi matematici complessi che richiedono ragionamento multi-step
Compiti di Ragionamento che Richiedono Auto-Correzione: HRM può identificare e premiare la correzione degli errori nel processo di ragionamento
Scenari con Risorse Limitate: HNC fornisce una soluzione di aumento dati a basso costo

Riferimenti Bibliografici

L'articolo cita importanti lavori in questo campo, inclusi:

Lightman et al. (2023) - Let's verify step by step (Dataset PRM800K)
Cobbe et al. (2021) - Training verifiers to solve math word problems
Wei et al. (2022) - Chain-of-thought prompting
Ouyang et al. (2022) - Training language models to follow instructions with human feedback

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone soluzioni innovative ai problemi critici di PRM. Il design della supervisione gerarchica di HRM è teoricamente solido, la verifica sperimentale è completa e il metodo HNC ha un forte valore pratico. L'articolo dimostra eccellenza in innovazione tecnica, design sperimentale e analisi dei risultati, fornendo un contributo prezioso al miglioramento delle capacità di ragionamento dei grandi modelli linguistici.