2025-11-11T12:43:08.939159

Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

Wang, Jiang, He et al.
Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
academic

Verso Modelli di Ricompensa Multi-Step Gerarchici per un Ragionamento Migliorato nei Grandi Modelli Linguistici

Informazioni Fondamentali

  • ID Articolo: 2503.13551
  • Titolo: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
  • Autori: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione/Conferenza: Preprint arXiv (Ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2503.13551

Riassunto

Ricerche recenti dimostrano che i grandi modelli linguistici (LLM) possono acquisire forti capacità di ragionamento attraverso la messa a punto supervisionata o l'apprendimento per rinforzo. Tuttavia, il metodo critico dei modelli di ricompensa di processo (PRM) soffre di problemi di reward hacking, rendendoli inaffidabili nell'identificazione dei migliori step intermedi. Inoltre, l'annotazione dei processi di ragionamento per la modellazione delle ricompense è costosa, rendendo difficile la raccolta su larga scala di dati di alta qualità. Per affrontare questi problemi, questo articolo propone un nuovo approccio di modellazione delle ricompense: il Modello di Ricompensa Gerarchico (HRM), che valuta i singoli e i consecutivi step di ragionamento a livelli sia granulari che grossolani. HRM eccelle nella valutazione della coerenza del ragionamento multi-step, in particolare quando gli step errati vengono successivamente corretti attraverso l'auto-riflessione. Per ridurre ulteriormente il costo della generazione dei dati di addestramento, questo articolo introduce una strategia di aumento dati leggera ed efficace: la Compressione Gerarchica dei Nodi (HNC), che unisce due step di ragionamento consecutivi in una struttura ad albero in uno solo. Applicando HNC alle traiettorie di ragionamento generate da MCTS, abbiamo aumentato la diversità e la robustezza dei dati di addestramento di HRM con un sovraccarico computazionale minimo, introducendo al contempo rumore controllato. I risultati sperimentali sul dataset PRM800K dimostrano che HRM combinato con HNC fornisce una valutazione più stabile e affidabile rispetto a PRM. Inoltre, la valutazione cross-domain sui dataset MATH500 e GSM8K dimostra la forte capacità di generalizzazione e robustezza di HRM in vari compiti di ragionamento.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questa ricerca affronta principalmente due problemi critici dei grandi modelli linguistici nei compiti di ragionamento matematico:

  1. Problema del Reward Hacking: I modelli di ricompensa di processo (PRM) esistenti sono facilmente sfruttabili dai modelli, che possono ottenere punteggi elevati sfruttando il segnale di ricompensa piuttosto che migliorare effettivamente il ragionamento, compromettendo l'affidabilità nei compiti complessi.
  2. Costi di Annotazione Elevati: PRM richiede annotazioni manuali su larga scala e costose dei step di ragionamento, limitando la sua affidabilità e scalabilità.

Importanza della Ricerca

Il ragionamento matematico è un compito cruciale per valutare le capacità di ragionamento degli LLM. Sebbene metodi esistenti come Chain-of-Thought (CoT) e Tree-of-Thought (ToT) abbiano migliorato le prestazioni, presentano ancora limitazioni critiche:

  • I modelli CoT mancano di meccanismi per rilevare e correggere gli errori di ragionamento intermedi
  • I metodi ToT non possono intrinsecamente verificare ogni step intermedio o garantire il recupero della traiettoria di ragionamento ottimale

Limitazioni dei Metodi Esistenti

  1. Modelli di Ricompensa dei Risultati (ORM): Soffrono di problemi di feedback ritardato e assegnazione del credito, rendendo difficile determinare quali step di ragionamento contribuiscono alla risposta finale
  2. Modelli di Ricompensa di Processo (PRM): Sebbene forniscano una supervisione più granulare, sono suscettibili al reward hacking e hanno costi di annotazione elevati

Motivazione della Ricerca

Sulla base dei problemi sopra menzionati, questo articolo propone il Modello di Ricompensa Gerarchico (HRM) per mitigare le limitazioni di PRM, combinando durante l'addestramento segnali di supervisione gerarchica a livello granulare (singolo step) e grossolano (multi-step consecutivi), consentendo a HRM di catturare la coerenza locale e globale nel ragionamento.

Contributi Principali

  1. Propone il Modello di Ricompensa Gerarchico (HRM): Utilizza la supervisione gerarchica dei dati di addestramento a livello di singolo step e multi-step, promuovendo la coerenza nel ragionamento multi-step e la capacità di auto-correzione, verificando la robustezza di HRM sul dataset PRM800K.
  2. Introduce la Compressione Gerarchica dei Nodi (HNC): Un metodo leggero di aumento dati MCTS che aumenta significativamente la diversità e la robustezza dei dati di addestramento di HRM con costo computazionale minimo.
  3. Migliora le Prestazioni del Modello di Strategia: Attraverso la messa a punto su traiettorie di ragionamento di alta qualità filtrate da MCTS, migliora ulteriormente le prestazioni di ragionamento.
  4. Verifica la Capacità di Generalizzazione: Dimostra la superiorità di HRM rispetto a PRM in termini di coerenza di ragionamento e capacità di generalizzazione sui dataset GSM8K e MATH500.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Questo articolo si concentra su compiti di ragionamento matematico, con l'obiettivo di valutare e migliorare le prestazioni degli LLM nella risoluzione di problemi matematici multi-step. L'input è un problema matematico, l'output è un processo di ragionamento passo dopo passo e una risposta finale, con il vincolo di garantire la correttezza e la coerenza dei step di ragionamento.

Architettura del Modello

Modello di Ricompensa Gerarchico (HRM)

L'idea centrale di HRM è utilizzare la supervisione gerarchica durante l'addestramento, valutando i singoli e i consecutivi step di ragionamento:

Costruzione dei Dati di Addestramento:

  • Dati di addestramento PRM: DPRM={(si,R(si))1iN}D_{PRM} = \{(s_i, R(s_i)) | 1 \leq i \leq N\}
  • Dati di addestramento HRM: DHRM=DPRM{(si+si+1,R(si+si+1))1i<N}D_{HRM} = D_{PRM} \cup \{(s_i + s_{i+1}, R(s_i + s_{i+1})) | 1 \leq i < N\}

Dove sis_i rappresenta l'ii-esimo step di ragionamento, R()R(\cdot) è la funzione di ricompensa, e NN è il numero totale di step nella sequenza di ragionamento.

Obiettivo di Supervisione Gerarchica:

  1. Catturare la coerenza sia granulare che grossolana
  2. Realizzare l'auto-riflessione e la correzione degli errori

Fase di Inferenza: Sebbene durante l'addestramento vengano utilizzati step di ragionamento uniti, HRM durante l'inferenza valuta comunque passo dopo passo, assegnando ricompense solo in base allo step attuale sis_i, in modo simile a PRM.

Compressione Gerarchica dei Nodi (HNC)

HNC è un metodo di aumento dati che aumenta la diversità dei dati di addestramento unendo i nodi consecutivi nella struttura ad albero MCTS:

Meccanismo Principale:

  1. Unire casualmente due nodi consecutivi, ciascuno corrispondente a uno step di ragionamento
  2. Rimuovere la connessione diretta tra i nodi
  3. Reindirizzare le relazioni di connessione

Introduzione del Rumore: Quando un nodo casuale viene rimosso, i pesi dei nodi figli rimanenti vengono ridistribuiti da 1N\frac{1}{N} a 1N1\frac{1}{N-1}, con la varianza che aumenta da σ2N\frac{\sigma^2}{N} a σ2N1\frac{\sigma^2}{N-1}, introducendo rumore controllato.

Punti di Innovazione Tecnica

  1. Design della Supervisione Gerarchica: A differenza di PRM che valuta solo i singoli step, HRM considera l'interazione tra più step, potendo identificare la correzione degli errori iniziali da parte degli step successivi.
  2. Capacità di Auto-Correzione: Mentre il PRM tradizionale penalizza gli step errati senza considerare la potenziale correzione nel ragionamento successivo, HRM valuta la coerenza del ragionamento tra più step.
  3. Aumento Dati a Basso Costo: HNC realizza l'aumento dati con un sovraccarico computazionale estremamente basso (circa 30 minuti di tempo CPU), quasi trascurabile rispetto alle 2457 ore GPU A100 di MCTS.

Configurazione Sperimentale

Dataset

  1. PRM800K: Contiene traiettorie di ragionamento annotate manualmente, servendo come base per l'addestramento di ORM, PRM e HRM
  2. MATH500: Problemi matematici di livello liceo e università, utilizzati per valutare la capacità di generalizzazione
  3. GSM8K: Problemi di matematica applicata della scuola primaria, contenente 1000 problemi di test

Metriche di Valutazione

  • Accuratezza: Accuratezza nella risoluzione dei problemi secondo la strategia Best-of-N
  • Stabilità: Grado di stabilità delle prestazioni con l'aumento di N
  • Robustezza: Coerenza delle prestazioni tra diversi modelli di strategia e dataset

Metodi di Confronto

  • ORM (Outcome Reward Model): Valutazione basata sull'intera catena di ragionamento
  • PRM (Process Reward Model): Valutazione passo dopo passo del processo di ragionamento
  • HRM (Hierarchical Reward Model): Modello di ricompensa gerarchico proposto in questo articolo

Dettagli di Implementazione

  • Modello di Ricompensa: Messa a punto basata su Qwen2.5-1.5B-Math
  • Modello di Strategia: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
  • Configurazione MCTS: 5-6 nodi figli per ogni nodo padre, profondità massima dell'albero 7
  • Ottimizzazione dell'Addestramento: Utilizzo di FlashAttention, DeepSpeed e addestramento a precisione mista

Risultati Sperimentali

Risultati Principali

Prestazioni Best-of-N sul Dataset PRM800K:

N2481624
ORM0.6220.6770.6550.6550.633
PRM0.7000.6440.6110.5880.577
HRM0.7220.7110.7440.8000.800

Scoperte Chiave:

  • HRM mantiene prestazioni stabili con l'aumento di N, con accuratezza stabile all'80%
  • ORM e PRM mostrano fluttuazioni significative, con accuratezza in calo all'aumentare di N
  • HRM dimostra la migliore stabilità e affidabilità

Esperimenti di Generalizzazione Cross-Domain

Risultati sui Dataset GSM8K e MATH500:

DatasetMetodoN=2N=64N=256N=512
GSM8KPRM0.7840.9050.9270.918
GSM8KHRM0.7840.9070.9300.926
MATH500PRM0.4680.6560.6860.688
MATH500HRM0.4900.7420.7400.736

Osservazioni Importanti:

  • Sul complesso dataset MATH500, HRM supera significativamente PRM
  • Sul relativamente semplice GSM8K, la differenza è minore ma HRM rimane leggermente superiore
  • HRM dimostra una robustezza cross-domain più forte

Esperimenti di Ablazione

Confronto con Diversi Modelli di Strategia: HRM addestrato su dati annotati automaticamente generati da MCTS dimostra una stabilità migliore rispetto a PRM su più modelli di strategia:

  • DeepSeek-Math-7B
  • Qwen2.5-72B-Math
  • Qwen2.5-7B-Math

Esperimenti di Auto-Addestramento

La messa a punto supervisionata con regolarizzazione della divergenza KL ha ulteriormente migliorato le prestazioni del modello di strategia, verificando il valore dei dati di ragionamento di alta qualità.

Lavori Correlati

Framework RLHF

Questo articolo si basa sul framework dell'Apprendimento per Rinforzo da Feedback Umano (RLHF), che distingue le risposte di alta e bassa qualità attraverso modelli di ricompensa e ottimizza gli LLM utilizzando PPO.

Classificazione dei Modelli di Ricompensa

  1. ORM: Assegna ricompense basate sull'output complessivo, soffrendo di problemi di feedback ritardato e assegnazione del credito
  2. PRM: Valuta i step di ragionamento intermedi, fornendo una supervisione più granulare, ma suscettibile al reward hacking

Applicazione di MCTS nel Ragionamento

MCTS è stato proposto come metodo per annotare autonomamente le traiettorie di ragionamento, ma il costo computazionale cresce esponenzialmente con la profondità e la larghezza dell'albero di ricerca.

Conclusioni e Discussione

Conclusioni Principali

  1. HRM mitiga efficacemente il problema del reward hacking di PRM, fornendo una valutazione più stabile e affidabile attraverso la supervisione gerarchica
  2. HNC è una strategia di aumento dati efficiente, che migliora significativamente la qualità dei dati di addestramento con costo minimo
  3. HRM dimostra eccellente capacità di generalizzazione, superando costantemente PRM su più dataset di ragionamento matematico

Limitazioni

  1. Limitazione dell'Unione di Step: Attualmente vengono uniti solo due step consecutivi; l'unione di più step porterebbe a un aumento esponenziale della complessità della combinazione di etichette
  2. Limitazione del Dominio: Si concentra principalmente sul ragionamento matematico; l'applicabilità ad altri domini di ragionamento strutturato richiede ulteriore verifica
  3. Vincoli Computazionali: La configurazione MCTS è limitata dalle risorse computazionali disponibili, il che potrebbe influire sulla diversità dei dati generati

Direzioni Future

  1. Esplorare design di strutture gerarchiche più complesse
  2. Estendere ad altri compiti di ragionamento strutturato
  3. Combinare algoritmi di ricerca più efficienti per ridurre i costi computazionali
  4. Ricercare strategie di etichettatura più sofisticate per gestire l'unione di più step

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Il design della supervisione gerarchica di HRM combina abilmente l'accuratezza locale e la coerenza globale
  2. Esperimenti Completi: Valutazione comprensiva su più dataset e modelli di strategia
  3. Alto Valore Pratico: HNC fornisce una soluzione di aumento dati a basso costo
  4. Fondamenti Teorici Solidi: L'analisi del problema del reward hacking è approfondita e la soluzione è mirata

Insufficienze

  1. Complessità del Metodo: Rispetto a PRM, la costruzione dei dati di addestramento e la strategia di etichettatura di HRM sono più complesse
  2. Scalabilità: Attualmente supporta solo l'unione di due step, limitando l'estensibilità del metodo
  3. Specificità del Dominio: Principalmente verificato su compiti di ragionamento matematico; l'applicabilità ad altri domini non è sufficientemente verificata

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva gerarchica per il design dei modelli di ricompensa
  2. Valore Pratico: Il metodo HNC può essere direttamente applicato ai flussi MCTS esistenti
  3. Riproducibilità: Fornisce configurazioni sperimentali dettagliate e parametri di iper-tuning

Scenari Applicabili

  1. Compiti di Ragionamento Matematico: Particolarmente adatto per problemi matematici complessi che richiedono ragionamento multi-step
  2. Compiti di Ragionamento che Richiedono Auto-Correzione: HRM può identificare e premiare la correzione degli errori nel processo di ragionamento
  3. Scenari con Risorse Limitate: HNC fornisce una soluzione di aumento dati a basso costo

Riferimenti Bibliografici

L'articolo cita importanti lavori in questo campo, inclusi:

  • Lightman et al. (2023) - Let's verify step by step (Dataset PRM800K)
  • Cobbe et al. (2021) - Training verifiers to solve math word problems
  • Wei et al. (2022) - Chain-of-thought prompting
  • Ouyang et al. (2022) - Training language models to follow instructions with human feedback

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone soluzioni innovative ai problemi critici di PRM. Il design della supervisione gerarchica di HRM è teoricamente solido, la verifica sperimentale è completa e il metodo HNC ha un forte valore pratico. L'articolo dimostra eccellenza in innovazione tecnica, design sperimentale e analisi dei risultati, fornendo un contributo prezioso al miglioramento delle capacità di ragionamento dei grandi modelli linguistici.