2025-11-15T10:52:11.758296

From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization

Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic

Da a : Supervisione Multidimensionale del Processo di Ragionamento per l'Ottimizzazione degli LLM

Informazioni Fondamentali

  • ID Articolo: 2510.11457
  • Titolo: From to : Multidimensional Supervision of Reasoning Process for LLM Optimization
  • Autori: Beining Wang, Weihang Su, Hongtao Tian, Tao Yang, Yujia Zhou, Ting Yao, Qingyao Ai, Yiqun Liu
  • Classificazione: cs.AI
  • Data di Pubblicazione: 13 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.11457

Riassunto

Migliorare le capacità di ragionamento multistep dei modelli di linguaggio di grandi dimensioni (LLM) è un compito critico ma impegnativo. Il paradigma predominante — apprendimento per rinforzo con supervisione dei risultati (RLVR) — premia solo le risposte finali corrette, propagando frequentemente ragionamenti difettosi e soffrendo di segnali di ricompensa sparsi. Sebbene i modelli di ricompensa a livello di processo (PRM) forniscano feedback più denso passo dopo passo, mancano di generalizzabilità e interpretabilità, richiedendo segmentazione del processo di ragionamento specifica per il compito. A tal fine, gli autori propongono il modello di ricompensa a livello dimensionale (DRM), un nuovo framework di supervisione che colma il divario tra questi due approcci. DRM valuta la qualità del processo di ragionamento lungo tre dimensioni fondamentali, complementari e interpretabili: confidenza (calibrazione dell'incertezza), rilevanza (allineamento semantico) e coerenza (consistenza logica). Queste dimensioni catturano collettivamente aspetti che vanno oltre la correttezza della risposta finale, consentendo valutazione interpretabile senza necessità di risposte di verità. I risultati sperimentali dimostrano che DRM fornisce segnali di supervisione efficaci che guidano l'ottimizzazione degli LLM e migliorano le loro capacità di ragionamento.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato dagli attuali LLM nei compiti di ragionamento multistep è: come supervisionare e ottimizzare efficacemente la qualità del processo di ragionamento, concentrandosi non solo sulla correttezza della risposta finale?

Limitazioni dei Metodi Esistenti

  1. Problemi di RLVR:
    • Ricompensa binaria basata solo sulla risposta finale, ignorando la qualità del processo di ragionamento
    • Potrebbe premiare il caso di "risposta corretta ma ragionamento errato"
    • Quando il modello è troppo forte o troppo debole, il segnale di ricompensa tende a una costante, limitando la capacità di guida
  2. Limitazioni dei PRM:
    • Richiedono segmentazione del processo di ragionamento in passaggi indipendenti, una segmentazione spesso specifica del compito
    • Mancano di generalizzabilità, difficili da adattare a compiti di dominio aperto
    • Come valutatori black-box, mancano di interpretabilità

Motivazione della Ricerca

Gli autori osservano che un processo di ragionamento di alta qualità dovrebbe possedere tre caratteristiche chiave: mantenere determinatezza rispetto all'output, basarsi sull'input dato, mantenere coerenza interna. Basandosi su questa intuizione, propongono un framework di supervisione multidimensionale.

Contributi Principali

  1. Proposta del Framework DRM: Per la prima volta, decompone la supervisione del ragionamento in tre dimensioni complementari (confidenza, rilevanza, coerenza), fornendo segnali di supervisione densi e interpretabili
  2. Risoluzione delle Limitazioni dei Metodi Esistenti: Evita il problema delle ricompense sparse di RLVR e il requisito di segmentazione specifica del compito dei PRM
  3. Realizzazione di Miglioramenti Significativi delle Prestazioni: Ottenimento di miglioramenti coerenti su più compiti di dominio aperto, come MATH500(+8.8), 2WIKI RAG(+8.7), CRUXEVAL(+7.1)
  4. Fornitura di Intuizioni Teoriche e Pratiche: Dimostrazione che la supervisione multidimensionale del ragionamento può migliorare la capacità di generalizzazione del ragionamento degli LLM oltre la distribuzione di addestramento

Dettagli del Metodo

Definizione del Compito

Definizione formalizzata: dato l'input I, l'output del modello O è decomposto in processo di ragionamento R e risposta A. In scenari di dominio aperto, I contiene la domanda Q e informazioni aggiuntive D. L'intera struttura input-output è rappresentata come una quadrupla: (Q,D,R,A).

Framework Tridimensionale DRM

1. Confidenza (Confidence)

Obiettivo: Valutare la determinatezza del modello rispetto al suo output Implementazione:

scoreConf_R = (1/|R|) * Σ log p  (probabilità logaritmica media di tutti i token in R)
scoreConf_A = Σ log p  (somma delle probabilità logaritmiche di tutti i token in A)
scoreConf = scoreConf_R + scoreConf_A

2. Rilevanza (Relevance)

Obiettivo: Valutare le relazioni semantiche del processo di ragionamento con altri componenti Implementazione: Valutazione di tre relazioni

  • Q→R: attraverso relazione di implicazione del linguaggio naturale (NLI)
  • R↔D: attraverso misura di rilevanza semantica
  • R→A: attraverso relazione di implicazione NLI

3. Coerenza (Coherence)

Obiettivo: Valutare la consistenza logica e la qualità testuale del processo di ragionamento Implementazione: Utilizzo di modello di ricompensa a livello di risultato esterno (ORM) per valutare coerenza logica, fluidità e qualità testuale complessiva

Calcolo della Ricompensa Integrata

R^DRM_i = Σ_D w_D * s̃core^D_i

dove D ∈ {Conf, Rel, Coh}, s̃core^D_i è il punteggio dimensionale normalizzato, i pesi sono determinati mediante ricerca a griglia sul set di validazione.

Strategie di Ottimizzazione

Ottimizzazione Off-Policy (DPO)

L_DPO(θ) = -E[(I,O+,O-)] [log σ(β log π_θ(O+|I)/π_ref(O+|I) - β log π_θ(O-|I)/π_ref(O-|I))]

dove O+ = argmax RDRM, O- = argmin RDRM

Ottimizzazione On-Policy (GRPO)

Combinazione del vantaggio DRM con il vantaggio GRPO nativo:

A_i,t = Â_i,t + Â^DRM_i,t

Configurazione Sperimentale

Modelli

  • LLaMA-3.1-8B-Instruct: Modello di base con capacità di ragionamento intrinseche limitate
  • R1-Distil-Llama8B: Modello di ragionamento specializzato
  • Qwen3-8B: Modello di ragionamento ibrido

Dataset

Copertura di 17 compiti di dominio aperto:

  • Compiti di Codice: CodeMMLU, CodeScope, Cruxeval, Execution-v2
  • Compiti di Preferenza: RM-Bench, UltraFeedback
  • Compiti Matematici: AIME24, AMC23, GSM8K, Math500
  • Domande Scientifiche: MMLU-Pro, GPQA
  • Ragionamento Logico: MuSR, DROP, QASC
  • Domande e RAG: 2WikiMultihopQA, HotpotQA e relative varianti RAG

Metriche di Valutazione

  • Compiti matematici: Verifica automatica della soluzione MATH-VERIFY
  • Altri compiti: Corrispondenza esatta (Exact Match)

Risultati Sperimentali

Risultati Principali

RQ1: DRM può determinare in modo affidabile la correttezza della risposta finale?

I risultati su RewardBench 2 mostrano che DRM ottiene coerentemente maggiore accuratezza rispetto al campionamento casuale:

  • LLaMA3.1-8B-Instruct: 78.57% vs 67.17%
  • R1-Distil-Llama8B: 76.16% vs 63.46%
  • Qwen3-8B: 85.65% vs 84.87%

RQ2&RQ3: Efficacia della Supervisione DRM

I risultati dell'addestramento DPO off-policy mostrano che DRM@ANY supera coerentemente RLVR@T+F:

Dominio CompitoDatasetNativoRLVR@T+FDRM@ANY
CodiceCruxeval50.452.657.5
MatematicaMath50039.643.448.4
QA-RAG2wiki RAG31.235.839.9

RQ4: Effetto della Combinazione di RLVR e DRM

L'addestramento GRPO on-policy mostra che il metodo combinato generalmente produce le migliori prestazioni o è equivalente al miglior metodo singolo.

Esperimenti di Ablazione

Gli esperimenti di supervisione unidimensionale rivelano che:

  • Una singola dimensione produce miglioramenti su alcuni compiti, ma potrebbe anche peggiorare su altri
  • Nessuna singola dimensione è sufficiente per ottenere miglioramenti robusti su tutti i compiti
  • La combinazione multidimensionale produce effetti sinergici, realizzando miglioramenti più ampi e coerenti

Analisi dei Casi

La valutazione di GPT-4o mostra che la supervisione DRM riduce significativamente il numero di istanze di "risposta corretta ma ragionamento errato", dimostrando che DRM preferisce selezionare istanze con qualità di ragionamento superiore.

Lavori Correlati

Apprendimento per Rinforzo e Ricompense Verificabili (RLVR)

RLVR migliora efficacemente le capacità di ragionamento degli LLM utilizzando segnali di correttezza automaticamente verificabili come ricompense, ma presenta problemi di ricompense sparse e ignoranza della qualità del processo di ragionamento.

Modelli di Ricompensa

  • Modelli di Ricompensa a Livello di Risultato (ORM): Valutano la qualità complessiva della risposta, ma potrebbero assegnare punteggi elevati a risposte corrette ottenute attraverso ragionamento errato
  • Modelli di Ricompensa a Livello di Processo (PRM): Valutano il processo di ragionamento piuttosto che solo la risposta finale, ma richiedono segmentazione dei passaggi specifica del compito

Conclusioni e Discussione

Conclusioni Principali

  1. DRM fornisce segnali di supervisione efficaci che guidano l'ottimizzazione degli LLM e migliorano le capacità di ragionamento
  2. La supervisione multidimensionale del ragionamento realizza miglioramenti coerenti sia su compiti in-distribuzione che out-of-distribuzione
  3. DRM risolve con successo le limitazioni critiche di RLVR e PRM

Limitazioni

  1. L'impostazione dei pesi richiede ricerca a griglia sul set di validazione, potenzialmente limitando la generalizzazione tra domini
  2. Dipende da modelli esterni per la valutazione della rilevanza e della coerenza, aumentando il costo computazionale
  3. Su alcuni compiti ad alta intensità di ragionamento o conoscenza, RLVR diretto potrebbe interferire con l'ottimizzazione

Direzioni Future

  1. Esplorare meccanismi di regolazione adattiva dei pesi
  2. Ricercare metodi di valutazione dimensionale più efficienti
  3. Estendere a più dimensioni di ragionamento e tipi di compiti

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Propone per la prima volta supervisione del ragionamento a livello dimensionale, colmando il divario tra RLVR e PRM
  2. Fondamenta Teoriche Solide: Framework progettato basato su tre caratteristiche fondamentali del ragionamento di alta qualità
  3. Esperimenti Completi: Validazione su 17 compiti diversi, coprendo più domini
  4. Buona Interpretabilità: Le tre dimensioni hanno significati semantici chiari e interpretabilità
  5. Alto Valore Pratico: Realizza miglioramenti senza richiedere dati specifici del compito o addestramento

Insufficienze

  1. Costo Computazionale: Richiede più modelli esterni per la valutazione dimensionale, aumentando il costo di inferenza
  2. Sensibilità ai Pesi: Diverse configurazioni di pesi ottimali per diversi modelli, potenzialmente influenzando la generalizzazione
  3. Dipendenza dalla Valutazione: La valutazione della rilevanza e della coerenza dipende dalla qualità dei modelli esterni
  4. Analisi Teorica Insufficiente: Manca analisi teorica del perché queste tre dimensioni siano la scelta ottimale

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca e framework per la supervisione del ragionamento
  2. Valore Pratico: Può essere direttamente applicato ai flussi di lavoro di addestramento degli LLM esistenti
  3. Riproducibilità: Codice e dataset sono pubblicamente disponibili, facilitando la riproduzione e l'estensione

Scenari Applicabili

  1. Scenari applicativi che richiedono processi di ragionamento di alta qualità
  2. Compiti di ragionamento multistep di dominio aperto
  3. Scenari con mancanza di grandi quantità di dati di annotazione dei passaggi di ragionamento
  4. Applicazioni che richiedono valutazione del ragionamento interpretabile

Riferimenti Bibliografici

L'articolo cita lavori importanti nei campi correlati della valutazione del ragionamento, dell'apprendimento per rinforzo e della modellazione delle ricompense, fornendo una base teorica solida e baseline di confronto per questa ricerca.


Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework innovativo di supervisione multidimensionale del ragionamento, risolvendo efficacemente le limitazioni dei metodi esistenti. La progettazione sperimentale è completa, i risultati sono convincenti e ha importante valore teorico e pratico per il miglioramento delle capacità di ragionamento degli LLM.