From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization
Wang, Su, Tian et al.
Improving the multi-step reasoning ability of Large Language Models (LLMs) is a critical yet challenging task. The dominant paradigm, outcome-supervised reinforcement learning (RLVR), rewards only correct final answers, often propagating flawed reasoning and suffering from sparse reward signals. While process-level reward models (PRMs) provide denser, step-by-step feedback, they lack generalizability and interpretability, requiring task-specific segmentation of the reasoning process. To this end, we propose the Dimension-level Reward Model (DRM), a new supervision framework that bridges the gap between these two approaches. DRM evaluates the quality of a reasoning process along three fundamental, complementary, and interpretable dimensions: Confidence for uncertainty calibration, Relevance for semantic alignment, and Coherence for logical consistency. Together, these dimensions capture aspects beyond final answer correctness and enable interpretable assessment without requiring ground truth answers. Experimental results show that DRM provides effective supervision signals, guides the optimization of LLMs and enhances their reasoning ability. In particular, DRM-supervised training achieves consistent gains on both in-distribution and out-of-distribution open-domain tasks, including mathematics, question answering, code execution, and puzzles. Our findings demonstrate that multidimensional supervision of the reasoning process can improve the generalized reasoning ability of LLMs beyond the training distribution.
academic
Da a : Supervisione Multidimensionale del Processo di Ragionamento per l'Ottimizzazione degli LLM
Migliorare le capacità di ragionamento multistep dei modelli di linguaggio di grandi dimensioni (LLM) è un compito critico ma impegnativo. Il paradigma predominante — apprendimento per rinforzo con supervisione dei risultati (RLVR) — premia solo le risposte finali corrette, propagando frequentemente ragionamenti difettosi e soffrendo di segnali di ricompensa sparsi. Sebbene i modelli di ricompensa a livello di processo (PRM) forniscano feedback più denso passo dopo passo, mancano di generalizzabilità e interpretabilità, richiedendo segmentazione del processo di ragionamento specifica per il compito. A tal fine, gli autori propongono il modello di ricompensa a livello dimensionale (DRM), un nuovo framework di supervisione che colma il divario tra questi due approcci. DRM valuta la qualità del processo di ragionamento lungo tre dimensioni fondamentali, complementari e interpretabili: confidenza (calibrazione dell'incertezza), rilevanza (allineamento semantico) e coerenza (consistenza logica). Queste dimensioni catturano collettivamente aspetti che vanno oltre la correttezza della risposta finale, consentendo valutazione interpretabile senza necessità di risposte di verità. I risultati sperimentali dimostrano che DRM fornisce segnali di supervisione efficaci che guidano l'ottimizzazione degli LLM e migliorano le loro capacità di ragionamento.
Il problema centrale affrontato dagli attuali LLM nei compiti di ragionamento multistep è: come supervisionare e ottimizzare efficacemente la qualità del processo di ragionamento, concentrandosi non solo sulla correttezza della risposta finale?
Gli autori osservano che un processo di ragionamento di alta qualità dovrebbe possedere tre caratteristiche chiave: mantenere determinatezza rispetto all'output, basarsi sull'input dato, mantenere coerenza interna. Basandosi su questa intuizione, propongono un framework di supervisione multidimensionale.
Proposta del Framework DRM: Per la prima volta, decompone la supervisione del ragionamento in tre dimensioni complementari (confidenza, rilevanza, coerenza), fornendo segnali di supervisione densi e interpretabili
Risoluzione delle Limitazioni dei Metodi Esistenti: Evita il problema delle ricompense sparse di RLVR e il requisito di segmentazione specifica del compito dei PRM
Realizzazione di Miglioramenti Significativi delle Prestazioni: Ottenimento di miglioramenti coerenti su più compiti di dominio aperto, come MATH500(+8.8), 2WIKI RAG(+8.7), CRUXEVAL(+7.1)
Fornitura di Intuizioni Teoriche e Pratiche: Dimostrazione che la supervisione multidimensionale del ragionamento può migliorare la capacità di generalizzazione del ragionamento degli LLM oltre la distribuzione di addestramento
Definizione formalizzata: dato l'input I, l'output del modello O è decomposto in processo di ragionamento R e risposta A. In scenari di dominio aperto, I contiene la domanda Q e informazioni aggiuntive D. L'intera struttura input-output è rappresentata come una quadrupla: (Q,D,R,A).
Obiettivo: Valutare la determinatezza del modello rispetto al suo output
Implementazione:
scoreConf_R = (1/|R|) * Σ log p (probabilità logaritmica media di tutti i token in R)
scoreConf_A = Σ log p (somma delle probabilità logaritmiche di tutti i token in A)
scoreConf = scoreConf_R + scoreConf_A
Obiettivo: Valutare la consistenza logica e la qualità testuale del processo di ragionamento
Implementazione: Utilizzo di modello di ricompensa a livello di risultato esterno (ORM) per valutare coerenza logica, fluidità e qualità testuale complessiva
dove D ∈ {Conf, Rel, Coh}, s̃core^D_i è il punteggio dimensionale normalizzato, i pesi sono determinati mediante ricerca a griglia sul set di validazione.
La valutazione di GPT-4o mostra che la supervisione DRM riduce significativamente il numero di istanze di "risposta corretta ma ragionamento errato", dimostrando che DRM preferisce selezionare istanze con qualità di ragionamento superiore.
RLVR migliora efficacemente le capacità di ragionamento degli LLM utilizzando segnali di correttezza automaticamente verificabili come ricompense, ma presenta problemi di ricompense sparse e ignoranza della qualità del processo di ragionamento.
Modelli di Ricompensa a Livello di Risultato (ORM): Valutano la qualità complessiva della risposta, ma potrebbero assegnare punteggi elevati a risposte corrette ottenute attraverso ragionamento errato
Modelli di Ricompensa a Livello di Processo (PRM): Valutano il processo di ragionamento piuttosto che solo la risposta finale, ma richiedono segmentazione dei passaggi specifica del compito
L'articolo cita lavori importanti nei campi correlati della valutazione del ragionamento, dell'apprendimento per rinforzo e della modellazione delle ricompense, fornendo una base teorica solida e baseline di confronto per questa ricerca.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone un framework innovativo di supervisione multidimensionale del ragionamento, risolvendo efficacemente le limitazioni dei metodi esistenti. La progettazione sperimentale è completa, i risultati sono convincenti e ha importante valore teorico e pratico per il miglioramento delle capacità di ragionamento degli LLM.