2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.

Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.

academic

Miglioramento del Ragionamento dei LLM tramite Ottimizzazione delle Preferenze dei Percorsi di Ragionamento Non Umani

Informazioni Fondamentali

ID Articolo: 2510.11104
Titolo: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Autori: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
Classificazione: cs.CL cs.AI
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11104

Riassunto

I metodi attuali per migliorare le capacità di ragionamento dei grandi modelli linguistici introducono spesso distorsioni di addestramento basate su tracce di ragionamento umano. In particolare, nell'ottimizzazione delle preferenze graduale, la dipendenza dall'annotazione dei passaggi intermedi da parte di umani o modelli ad alta capacità limita l'esplorazione di percorsi di ragionamento alternativi non umani, vincolando così le prestazioni raggiungibili. Attraverso uno studio pilota su piccola scala, gli autori osservano che in circa il 75% dei casi, il primo passaggio errato del modello si verifica dopo il punto di confidenza più bassa. Ciò suggerisce che guidare il modello nel punto di confidenza più bassa prima che si verifichi l'errore fornisce una supervisione più accurata rispetto alla localizzazione del primo errore esplicito. L'articolo propone l'Ottimizzazione delle Preferenze dei Percorsi di Ragionamento Guidata dalla Confidenza (CGPO), un metodo che sfrutta i segnali di confidenza per identificare i punti di massima incertezza nel processo di ragionamento del modello e applica la guida di percorsi di ragionamento non umani auto-generati per mitigare la deriva delle tracce.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato dai metodi attuali di miglioramento delle capacità di ragionamento dei grandi modelli linguistici è:

Limitazione della Distorsione Umana: I metodi esistenti dipendono eccessivamente dalle tracce di ragionamento umane o di modelli forti, limitando l'esplorazione di percorsi di ragionamento non umani
Localizzazione Imprecisa degli Errori: I metodi tradizionali forniscono supervisione localizzando il primo errore esplicito, ma questo spesso non è il punto di intervento ottimale
Costo di Annotazione Elevato: L'ottimizzazione delle preferenze graduale richiede numerose annotazioni umane o di modelli forti, con costi di applicazione pratica molto elevati

Motivazione della Ricerca

Gli autori, attraverso l'analisi, scoprono che in circa il 75% dei casi di errore, il primo passaggio errato del modello si verifica dopo il suo punto di confidenza più basso. Questa osservazione ispira l'idea di ottimizzare i percorsi di ragionamento basandosi sulla confidenza del modello piuttosto che sulla cognizione umana.

Limitazioni dei Metodi Esistenti

Metodi come Step-DPO: Dipendono dall'annotazione umana o da modelli forti per localizzare i passaggi errati, con costi elevati e spazio di esplorazione limitato
RLHF Tradizionale: Si concentra principalmente sull'ottimizzazione dei risultati, con attenzione insufficiente ai passaggi intermedi delle tracce di ragionamento
Distorsione dell'Allineamento Umano: Forzare il modello a seguire modelli di ragionamento umani potrebbe limitare le sue capacità potenziali

Contributi Fondamentali

Proposta del Metodo CGPO: Un metodo di ottimizzazione delle preferenze dei percorsi di ragionamento guidato dalla confidenza che non dipende da modelli più forti o supervisione umana
Esplorazione di Percorsi di Ragionamento Non Umani: Costruzione di dati di apprendimento delle preferenze attraverso segnali di confidenza del modello stesso, esplorando percorsi di ragionamento non umani
Verifica Multi-Dominio: Validazione dell'efficacia del metodo su compiti di ragionamento matematico e generazione di codice, dimostrando l'universalità del metodo
Contributo Open-Source: Impegno a rilasciare repository di codice completo, dataset e modelli addestrati, promuovendo la riproducibilità

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un problema di input x, il modello di politica iniziale π₀ genera una sequenza di ragionamento y = (y₁, y₂, ..., yₜ), dove yₜ ∈ V (vocabolario). Al passo di decodifica temporale t, la confidenza del modello è definita come:

cₜ ≜ p(yₜ|π₀, x, y<t)

Architettura del Modello

1. Definizione dei Passaggi di Ragionamento

Utilizzo di una soglia di confidenza τ per segmentare i passaggi di ragionamento, dove τ è determinata in base alla distribuzione di tutti i valori di confidenza nel dataset
I token con confidenza inferiore a τ fungono da punti di segmentazione, ricostruendo la sequenza y in una sequenza di passaggi s = (s₁, s₂, ..., sⱼ)

2. Processo di Costruzione delle Coppie di Preferenza

Determinazione della Traccia Iniziale:

Selezione della sequenza prima del passaggio più incerto come traccia di ragionamento iniziale condivisa sᵢₙᵢₜ

Costruzione delle Coppie Chosen/Rejected:

Introduzione di un modello di ricompensa R per valutare i token candidati Top-k dato (x, sᵢₙᵢₜ)
Selezione dei token con punteggio più alto e più basso rispettivamente come token iniziali dei rami chosen e rejected
π₀ continua il campionamento fino a incontrare o un token con confidenza inferiore a τ

3. Obiettivo di Addestramento

Utilizzo di una funzione obiettivo in stile DPO:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

dove:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Punti di Innovazione Tecnica

Segmentazione dei Passaggi Guidata dalla Confidenza: Liberarsi dai punti di ancoraggio predefiniti, segmentando i passaggi di ragionamento basandosi sull'incertezza intrinseca del modello
Costruzione di Preferenze Auto-Supervisionate: Utilizzo di un modello di ricompensa nel punto di massima incertezza per selezionare token ottimali/pessimi, senza necessità di annotazione umana
Esplorazione di Ragionamento Non Umano: Consentire al modello di esplorare percorsi di ragionamento che potrebbero non conformarsi alle abitudini cognitive umane ma potrebbero essere più efficaci

Configurazione Sperimentale

Dataset

Compiti di Ragionamento Matematico:

Dati di addestramento: 10.795 prompt dal dataset Step-DPO-10k
Dataset di valutazione: GSM8K, MATH, Omni-Math
Modelli: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT, ecc.

Compiti di Generazione di Codice:

Dati di addestramento: 2.641 campioni dal set di addestramento di LeetCodeDataset
Dataset di valutazione: LiveCodeBench, LeetCodeDataset
Modelli: Deepseek-Coder-7B-Instruct-v1.5

Metriche di Valutazione

Ragionamento Matematico: Accuratezza della corrispondenza esatta (la risposta finale corrisponde esattamente alla risposta standard)
Generazione di Codice: Tasso di superamento (il codice generato supera tutti i casi di test in ambiente sandbox)

Metodi di Confronto

Base Model: Modello di base originale
Step-DPO: Metodo di ottimizzazione delle preferenze graduale basato su annotazione umana

Dettagli di Implementazione

Soglia di confidenza: 2° percentile della distribuzione di confidenza del dataset
Candidati Top-k: k=8
Configurazione di addestramento: β=0.3-0.4, tasso di apprendimento 5e-7, dimensione batch 128, addestramento per 4-8 epoch

Risultati Sperimentali

Risultati Principali

Prestazioni su Compiti di Ragionamento Matematico:

GSM8K: CGPO supera Step-DPO su tutti i modelli, con il miglioramento più significativo su MetaMath-Llama-8B (+4.3% vs base)
MATH: Supera Step-DPO su MetaMath-Llama-8B e Qwen2-7B-SFT
Scoperta Chiave: Anche quando Step-DPO mostra prestazioni in calo (ad es. MetaMath-Mistral-7B), CGPO fornisce comunque miglioramenti

Prestazioni su Compiti di Generazione di Codice:

LiveCodeBench: Miglioramento del 2.1% (19.3% → 19.7%)
LeetCodeDataset: Miglioramento del 4.0% (12.7% → 13.2%)

Esperimenti di Ablazione

1. Analisi di Scalabilità

Verifica della scalabilità del metodo aumentando la scala dei dati di addestramento (10k → 80k):

MetaMath-Llama-8B su GSM8K migliora da 85.3% a 86.4%
Qwen2-7B-SFT su GSM8K migliora da 88.6% a 89.5%
Dimostra la buona scalabilità dei dati di CGPO

2. Impatto del Modello di Ricompensa

Confronto tra due modelli di ricompensa: ASPRM e Math-Shepherd:

ASPRM mostra prestazioni superiori, ma anche l'uso del più debole Math-Shepherd fornisce miglioramenti
Dimostra l'importanza della valutazione fine-grained a livello di token

3. Analisi della Soglia di Confidenza

L'aumento della soglia generalmente porta a miglioramenti delle prestazioni, ma valori eccessivamente alti causano sequenze troppo brevi
Diverse soglie ottimali per diversi modelli richiedono un'ottimizzazione mirata

Verifica della Capacità di Generalizzazione

Prestazioni su Omni-Math (problemi di competizione matematica olimpica):

CGPO supera Step-DPO su 4/5 modelli
Dimostra la buona capacità di generalizzazione fuori distribuzione del metodo

Analisi di Casi

Attraverso l'analisi di 200 campioni errati per verificare l'ipotesi centrale:

MetaMath-Llama-8B: il 78% degli errori si verifica dopo il punto di confidenza più basso
Qwen2-7B-SFT: il 72% degli errori si verifica dopo il punto di confidenza più basso
Supporta il concetto di design di intervento precoce basato sulla confidenza

Lavori Correlati

Metodi di Ottimizzazione delle Preferenze

PPO: Complessità elevata ma risultati stabili
DPO/SimPO: Ottimizzazione diretta dei segnali di preferenza accoppiati, con overhead computazionale inferiore
Contributo di questo Articolo: Estensione dell'ottimizzazione delle preferenze ai passaggi intermedi dei percorsi di ragionamento

Metodi Consapevoli della Confidenza

Metodo della Probabilità Diretta: Utilizzo della probabilità del token previsto (adottato in questo articolo)
Metodo della Coerenza Generativa: Misurazione della confidenza attraverso la coerenza delle risposte
Innovazione di questo Articolo: Utilizzo della confidenza per la segmentazione dei passaggi e l'ottimizzazione dei percorsi di ragionamento

Ottimizzazione delle Tracce di Ragionamento

Fine-Tuning Supervisionato: Allineamento diretto a sequenze annotate
RLHF: Ottimizzazione verso tracce con punteggi più alti
Vantaggio di questo Articolo: Nessuna necessità di annotazione da modelli forti, esplorazione di percorsi di ragionamento non umani

Conclusioni e Discussione

Conclusioni Principali

Valore dei Percorsi di Ragionamento Non Umani: I modelli possono ottenere prestazioni migliori esplorando percorsi di ragionamento non umani
Efficacia dei Segnali di Confidenza: La confidenza del modello è un indicatore efficace per identificare i punti difficili del ragionamento
Potenziale dell'Apprendimento Auto-Supervisionato: È possibile migliorare efficacemente le capacità di ragionamento senza necessità di annotazione da modelli forti o umani

Limitazioni

Limitazioni delle Risorse Computazionali: Impossibilità di verificare la scalabilità su modelli più grandi (come 70B)
Limitazioni del Dominio: Verifica principalmente nei domini matematico e del codice, l'applicabilità in altri domini come il ragionamento di senso comune rimane da verificare
Dipendenza dal Modello di Ricompensa: Ancora necessità di modelli di valutazione fine-grained specifici del dominio

Direzioni Future

Verifica su Scala Maggiore: Validazione dell'efficacia del metodo su modelli più grandi e in più domini
Modello di Ricompensa Universale: Sviluppo di modelli di valutazione universali cross-domain fine-grained
Analisi Teorica: Comprensione più profonda delle basi teoriche dei percorsi di ragionamento non umani

Valutazione Approfondita

Punti di Forza

Intuizione Profonda del Problema: Identificazione del problema della distorsione umana nei metodi esistenti, proposta di una soluzione concettualmente nuova
Design Ingegnoso del Metodo: Combinazione di segnali di confidenza con ottimizzazione delle preferenze, realizzazione dell'ottimizzazione non supervisionata dei percorsi di ragionamento
Verifica Sperimentale Completa: Verifica da più angolazioni su più modelli e compiti, risultati convincenti
Valore Pratico Elevato: Riduzione della dipendenza dall'annotazione di modelli forti, miglioramento dell'applicabilità pratica del metodo

Insufficienze

Fondamenti Teorici Insufficienti: Mancanza di spiegazione teorica profonda del perché i percorsi di ragionamento non umani siano più efficaci
Ambito di Applicabilità Limitato: Verifica principalmente su compiti di ragionamento strutturato, l'applicabilità su compiti aperti rimane sconosciuta
Affidabilità della Confidenza: La confidenza del modello stesso potrebbe non essere sufficientemente affidabile, specialmente su dati fuori distribuzione
Analisi dell'Overhead Computazionale: Mancanza di analisi dettagliata dei cambiamenti nell'overhead computazionale rispetto ai metodi baseline

Impatto

Valore Accademico: Fornisce una nuova direzione di ricerca per l'ottimizzazione delle capacità di ragionamento, potenzialmente ispirando più lavori correlati
Valore Pratico: Miglioramento delle prestazioni riducendo i costi di annotazione, con importante valore di applicazione ingegneristica
Riproducibilità: Impegno di open-sourcing del codice completo e dei dati, favorendo la diffusione e il miglioramento del metodo

Scenari di Applicazione

Ambienti con Risorse Limitate: Miglioramento delle capacità di ragionamento quando non è possibile ottenere annotazioni da modelli forti
Compiti di Ragionamento Strutturato: Compiti matematici, di codice, di ragionamento logico e altri con standard di valutazione chiari
Auto-Miglioramento del Modello: Come componente tecnica per l'apprendimento continuo e l'auto-ottimizzazione del modello

Bibliografia

L'articolo cita importanti lavori nei campi correlati dell'ottimizzazione del ragionamento, dell'apprendimento delle preferenze e della stima della confidenza, fornendo una base teorica solida per il design del metodo. Meritano particolare attenzione l'analisi comparativa con metodi di ottimizzazione delle preferenze direttamente correlati come Step-DPO e DPO.

Valutazione Complessiva: Questo è un lavoro con importanti contributi nel campo dell'ottimizzazione delle capacità di ragionamento dei grandi modelli linguistici. Attraverso l'introduzione del concetto di percorsi di ragionamento non umani e di una strategia di ottimizzazione basata sulla confidenza, fornisce nuove direzioni di ricerca per il campo. Sebbene vi sia ancora spazio per miglioramenti nella spiegazione teorica e nell'ambito di applicabilità, il suo valore pratico e la sua innovatività lo rendono un importante progresso nel campo.