Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM's strong generalization and robustness across a variety of reasoning tasks.
Verso Modelli di Ricompensa Multi-Step Gerarchici per un Ragionamento Migliorato nei Grandi Modelli Linguistici
- ID Articolo: 2503.13551
- Titolo: Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models
- Autori: Teng Wang, Zhangyi Jiang, Zhenqi He, Hailei Gong, Shenyang Tong, Wenhan Yang, Zeyu Li, Yanan Zheng, Zifan He, Zewen Ye, Shengjie Ma, Jianping Zhang
- Classificazione: cs.CL cs.AI
- Data di Pubblicazione/Conferenza: Preprint arXiv (Ottobre 2025)
- Link Articolo: https://arxiv.org/abs/2503.13551
Ricerche recenti dimostrano che i grandi modelli linguistici (LLM) possono acquisire forti capacità di ragionamento attraverso la messa a punto supervisionata o l'apprendimento per rinforzo. Tuttavia, il metodo critico dei modelli di ricompensa di processo (PRM) soffre di problemi di reward hacking, rendendoli inaffidabili nell'identificazione dei migliori step intermedi. Inoltre, l'annotazione dei processi di ragionamento per la modellazione delle ricompense è costosa, rendendo difficile la raccolta su larga scala di dati di alta qualità. Per affrontare questi problemi, questo articolo propone un nuovo approccio di modellazione delle ricompense: il Modello di Ricompensa Gerarchico (HRM), che valuta i singoli e i consecutivi step di ragionamento a livelli sia granulari che grossolani. HRM eccelle nella valutazione della coerenza del ragionamento multi-step, in particolare quando gli step errati vengono successivamente corretti attraverso l'auto-riflessione. Per ridurre ulteriormente il costo della generazione dei dati di addestramento, questo articolo introduce una strategia di aumento dati leggera ed efficace: la Compressione Gerarchica dei Nodi (HNC), che unisce due step di ragionamento consecutivi in una struttura ad albero in uno solo. Applicando HNC alle traiettorie di ragionamento generate da MCTS, abbiamo aumentato la diversità e la robustezza dei dati di addestramento di HRM con un sovraccarico computazionale minimo, introducendo al contempo rumore controllato. I risultati sperimentali sul dataset PRM800K dimostrano che HRM combinato con HNC fornisce una valutazione più stabile e affidabile rispetto a PRM. Inoltre, la valutazione cross-domain sui dataset MATH500 e GSM8K dimostra la forte capacità di generalizzazione e robustezza di HRM in vari compiti di ragionamento.
Questa ricerca affronta principalmente due problemi critici dei grandi modelli linguistici nei compiti di ragionamento matematico:
- Problema del Reward Hacking: I modelli di ricompensa di processo (PRM) esistenti sono facilmente sfruttabili dai modelli, che possono ottenere punteggi elevati sfruttando il segnale di ricompensa piuttosto che migliorare effettivamente il ragionamento, compromettendo l'affidabilità nei compiti complessi.
- Costi di Annotazione Elevati: PRM richiede annotazioni manuali su larga scala e costose dei step di ragionamento, limitando la sua affidabilità e scalabilità.
Il ragionamento matematico è un compito cruciale per valutare le capacità di ragionamento degli LLM. Sebbene metodi esistenti come Chain-of-Thought (CoT) e Tree-of-Thought (ToT) abbiano migliorato le prestazioni, presentano ancora limitazioni critiche:
- I modelli CoT mancano di meccanismi per rilevare e correggere gli errori di ragionamento intermedi
- I metodi ToT non possono intrinsecamente verificare ogni step intermedio o garantire il recupero della traiettoria di ragionamento ottimale
- Modelli di Ricompensa dei Risultati (ORM): Soffrono di problemi di feedback ritardato e assegnazione del credito, rendendo difficile determinare quali step di ragionamento contribuiscono alla risposta finale
- Modelli di Ricompensa di Processo (PRM): Sebbene forniscano una supervisione più granulare, sono suscettibili al reward hacking e hanno costi di annotazione elevati
Sulla base dei problemi sopra menzionati, questo articolo propone il Modello di Ricompensa Gerarchico (HRM) per mitigare le limitazioni di PRM, combinando durante l'addestramento segnali di supervisione gerarchica a livello granulare (singolo step) e grossolano (multi-step consecutivi), consentendo a HRM di catturare la coerenza locale e globale nel ragionamento.
- Propone il Modello di Ricompensa Gerarchico (HRM): Utilizza la supervisione gerarchica dei dati di addestramento a livello di singolo step e multi-step, promuovendo la coerenza nel ragionamento multi-step e la capacità di auto-correzione, verificando la robustezza di HRM sul dataset PRM800K.
- Introduce la Compressione Gerarchica dei Nodi (HNC): Un metodo leggero di aumento dati MCTS che aumenta significativamente la diversità e la robustezza dei dati di addestramento di HRM con costo computazionale minimo.
- Migliora le Prestazioni del Modello di Strategia: Attraverso la messa a punto su traiettorie di ragionamento di alta qualità filtrate da MCTS, migliora ulteriormente le prestazioni di ragionamento.
- Verifica la Capacità di Generalizzazione: Dimostra la superiorità di HRM rispetto a PRM in termini di coerenza di ragionamento e capacità di generalizzazione sui dataset GSM8K e MATH500.
Questo articolo si concentra su compiti di ragionamento matematico, con l'obiettivo di valutare e migliorare le prestazioni degli LLM nella risoluzione di problemi matematici multi-step. L'input è un problema matematico, l'output è un processo di ragionamento passo dopo passo e una risposta finale, con il vincolo di garantire la correttezza e la coerenza dei step di ragionamento.
L'idea centrale di HRM è utilizzare la supervisione gerarchica durante l'addestramento, valutando i singoli e i consecutivi step di ragionamento:
Costruzione dei Dati di Addestramento:
- Dati di addestramento PRM: DPRM={(si,R(si))∣1≤i≤N}
- Dati di addestramento HRM: DHRM=DPRM∪{(si+si+1,R(si+si+1))∣1≤i<N}
Dove si rappresenta l'i-esimo step di ragionamento, R(⋅) è la funzione di ricompensa, e N è il numero totale di step nella sequenza di ragionamento.
Obiettivo di Supervisione Gerarchica:
- Catturare la coerenza sia granulare che grossolana
- Realizzare l'auto-riflessione e la correzione degli errori
Fase di Inferenza: Sebbene durante l'addestramento vengano utilizzati step di ragionamento uniti, HRM durante l'inferenza valuta comunque passo dopo passo, assegnando ricompense solo in base allo step attuale si, in modo simile a PRM.
HNC è un metodo di aumento dati che aumenta la diversità dei dati di addestramento unendo i nodi consecutivi nella struttura ad albero MCTS:
Meccanismo Principale:
- Unire casualmente due nodi consecutivi, ciascuno corrispondente a uno step di ragionamento
- Rimuovere la connessione diretta tra i nodi
- Reindirizzare le relazioni di connessione
Introduzione del Rumore: Quando un nodo casuale viene rimosso, i pesi dei nodi figli rimanenti vengono ridistribuiti da N1 a N−11, con la varianza che aumenta da Nσ2 a N−1σ2, introducendo rumore controllato.
- Design della Supervisione Gerarchica: A differenza di PRM che valuta solo i singoli step, HRM considera l'interazione tra più step, potendo identificare la correzione degli errori iniziali da parte degli step successivi.
- Capacità di Auto-Correzione: Mentre il PRM tradizionale penalizza gli step errati senza considerare la potenziale correzione nel ragionamento successivo, HRM valuta la coerenza del ragionamento tra più step.
- Aumento Dati a Basso Costo: HNC realizza l'aumento dati con un sovraccarico computazionale estremamente basso (circa 30 minuti di tempo CPU), quasi trascurabile rispetto alle 2457 ore GPU A100 di MCTS.
- PRM800K: Contiene traiettorie di ragionamento annotate manualmente, servendo come base per l'addestramento di ORM, PRM e HRM
- MATH500: Problemi matematici di livello liceo e università, utilizzati per valutare la capacità di generalizzazione
- GSM8K: Problemi di matematica applicata della scuola primaria, contenente 1000 problemi di test
- Accuratezza: Accuratezza nella risoluzione dei problemi secondo la strategia Best-of-N
- Stabilità: Grado di stabilità delle prestazioni con l'aumento di N
- Robustezza: Coerenza delle prestazioni tra diversi modelli di strategia e dataset
- ORM (Outcome Reward Model): Valutazione basata sull'intera catena di ragionamento
- PRM (Process Reward Model): Valutazione passo dopo passo del processo di ragionamento
- HRM (Hierarchical Reward Model): Modello di ricompensa gerarchico proposto in questo articolo
- Modello di Ricompensa: Messa a punto basata su Qwen2.5-1.5B-Math
- Modello di Strategia: Qwen2.5-72B-Math-Instruct, DeepSeek-Math-7B, Qwen2.5-7B-Math-Instruct
- Configurazione MCTS: 5-6 nodi figli per ogni nodo padre, profondità massima dell'albero 7
- Ottimizzazione dell'Addestramento: Utilizzo di FlashAttention, DeepSpeed e addestramento a precisione mista
Prestazioni Best-of-N sul Dataset PRM800K:
| N | 2 | 4 | 8 | 16 | 24 |
|---|
| ORM | 0.622 | 0.677 | 0.655 | 0.655 | 0.633 |
| PRM | 0.700 | 0.644 | 0.611 | 0.588 | 0.577 |
| HRM | 0.722 | 0.711 | 0.744 | 0.800 | 0.800 |
Scoperte Chiave:
- HRM mantiene prestazioni stabili con l'aumento di N, con accuratezza stabile all'80%
- ORM e PRM mostrano fluttuazioni significative, con accuratezza in calo all'aumentare di N
- HRM dimostra la migliore stabilità e affidabilità
Risultati sui Dataset GSM8K e MATH500:
| Dataset | Metodo | N=2 | N=64 | N=256 | N=512 |
|---|
| GSM8K | PRM | 0.784 | 0.905 | 0.927 | 0.918 |
| GSM8K | HRM | 0.784 | 0.907 | 0.930 | 0.926 |
| MATH500 | PRM | 0.468 | 0.656 | 0.686 | 0.688 |
| MATH500 | HRM | 0.490 | 0.742 | 0.740 | 0.736 |
Osservazioni Importanti:
- Sul complesso dataset MATH500, HRM supera significativamente PRM
- Sul relativamente semplice GSM8K, la differenza è minore ma HRM rimane leggermente superiore
- HRM dimostra una robustezza cross-domain più forte
Confronto con Diversi Modelli di Strategia:
HRM addestrato su dati annotati automaticamente generati da MCTS dimostra una stabilità migliore rispetto a PRM su più modelli di strategia:
- DeepSeek-Math-7B
- Qwen2.5-72B-Math
- Qwen2.5-7B-Math
La messa a punto supervisionata con regolarizzazione della divergenza KL ha ulteriormente migliorato le prestazioni del modello di strategia, verificando il valore dei dati di ragionamento di alta qualità.
Questo articolo si basa sul framework dell'Apprendimento per Rinforzo da Feedback Umano (RLHF), che distingue le risposte di alta e bassa qualità attraverso modelli di ricompensa e ottimizza gli LLM utilizzando PPO.
- ORM: Assegna ricompense basate sull'output complessivo, soffrendo di problemi di feedback ritardato e assegnazione del credito
- PRM: Valuta i step di ragionamento intermedi, fornendo una supervisione più granulare, ma suscettibile al reward hacking
MCTS è stato proposto come metodo per annotare autonomamente le traiettorie di ragionamento, ma il costo computazionale cresce esponenzialmente con la profondità e la larghezza dell'albero di ricerca.
- HRM mitiga efficacemente il problema del reward hacking di PRM, fornendo una valutazione più stabile e affidabile attraverso la supervisione gerarchica
- HNC è una strategia di aumento dati efficiente, che migliora significativamente la qualità dei dati di addestramento con costo minimo
- HRM dimostra eccellente capacità di generalizzazione, superando costantemente PRM su più dataset di ragionamento matematico
- Limitazione dell'Unione di Step: Attualmente vengono uniti solo due step consecutivi; l'unione di più step porterebbe a un aumento esponenziale della complessità della combinazione di etichette
- Limitazione del Dominio: Si concentra principalmente sul ragionamento matematico; l'applicabilità ad altri domini di ragionamento strutturato richiede ulteriore verifica
- Vincoli Computazionali: La configurazione MCTS è limitata dalle risorse computazionali disponibili, il che potrebbe influire sulla diversità dei dati generati
- Esplorare design di strutture gerarchiche più complesse
- Estendere ad altri compiti di ragionamento strutturato
- Combinare algoritmi di ricerca più efficienti per ridurre i costi computazionali
- Ricercare strategie di etichettatura più sofisticate per gestire l'unione di più step
- Forte Innovatività: Il design della supervisione gerarchica di HRM combina abilmente l'accuratezza locale e la coerenza globale
- Esperimenti Completi: Valutazione comprensiva su più dataset e modelli di strategia
- Alto Valore Pratico: HNC fornisce una soluzione di aumento dati a basso costo
- Fondamenti Teorici Solidi: L'analisi del problema del reward hacking è approfondita e la soluzione è mirata
- Complessità del Metodo: Rispetto a PRM, la costruzione dei dati di addestramento e la strategia di etichettatura di HRM sono più complesse
- Scalabilità: Attualmente supporta solo l'unione di due step, limitando l'estensibilità del metodo
- Specificità del Dominio: Principalmente verificato su compiti di ragionamento matematico; l'applicabilità ad altri domini non è sufficientemente verificata
- Contributo Accademico: Fornisce una nuova prospettiva gerarchica per il design dei modelli di ricompensa
- Valore Pratico: Il metodo HNC può essere direttamente applicato ai flussi MCTS esistenti
- Riproducibilità: Fornisce configurazioni sperimentali dettagliate e parametri di iper-tuning
- Compiti di Ragionamento Matematico: Particolarmente adatto per problemi matematici complessi che richiedono ragionamento multi-step
- Compiti di Ragionamento che Richiedono Auto-Correzione: HRM può identificare e premiare la correzione degli errori nel processo di ragionamento
- Scenari con Risorse Limitate: HNC fornisce una soluzione di aumento dati a basso costo
L'articolo cita importanti lavori in questo campo, inclusi:
- Lightman et al. (2023) - Let's verify step by step (Dataset PRM800K)
- Cobbe et al. (2021) - Training verifiers to solve math word problems
- Wei et al. (2022) - Chain-of-thought prompting
- Ouyang et al. (2022) - Training language models to follow instructions with human feedback
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone soluzioni innovative ai problemi critici di PRM. Il design della supervisione gerarchica di HRM è teoricamente solido, la verifica sperimentale è completa e il metodo HNC ha un forte valore pratico. L'articolo dimostra eccellenza in innovazione tecnica, design sperimentale e analisi dei risultati, fornendo un contributo prezioso al miglioramento delle capacità di ragionamento dei grandi modelli linguistici.