2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic

Miglioramento del Ragionamento dei LLM tramite Ottimizzazione delle Preferenze dei Percorsi di Ragionamento Non Umani

Informazioni Fondamentali

  • ID Articolo: 2510.11104
  • Titolo: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
  • Autori: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.11104

Riassunto

I metodi attuali per migliorare le capacità di ragionamento dei grandi modelli linguistici introducono spesso distorsioni di addestramento basate su tracce di ragionamento umano. In particolare, nell'ottimizzazione delle preferenze graduale, la dipendenza dall'annotazione dei passaggi intermedi da parte di umani o modelli ad alta capacità limita l'esplorazione di percorsi di ragionamento alternativi non umani, vincolando così le prestazioni raggiungibili. Attraverso uno studio pilota su piccola scala, gli autori osservano che in circa il 75% dei casi, il primo passaggio errato del modello si verifica dopo il punto di confidenza più bassa. Ciò suggerisce che guidare il modello nel punto di confidenza più bassa prima che si verifichi l'errore fornisce una supervisione più accurata rispetto alla localizzazione del primo errore esplicito. L'articolo propone l'Ottimizzazione delle Preferenze dei Percorsi di Ragionamento Guidata dalla Confidenza (CGPO), un metodo che sfrutta i segnali di confidenza per identificare i punti di massima incertezza nel processo di ragionamento del modello e applica la guida di percorsi di ragionamento non umani auto-generati per mitigare la deriva delle tracce.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato dai metodi attuali di miglioramento delle capacità di ragionamento dei grandi modelli linguistici è:

  1. Limitazione della Distorsione Umana: I metodi esistenti dipendono eccessivamente dalle tracce di ragionamento umane o di modelli forti, limitando l'esplorazione di percorsi di ragionamento non umani
  2. Localizzazione Imprecisa degli Errori: I metodi tradizionali forniscono supervisione localizzando il primo errore esplicito, ma questo spesso non è il punto di intervento ottimale
  3. Costo di Annotazione Elevato: L'ottimizzazione delle preferenze graduale richiede numerose annotazioni umane o di modelli forti, con costi di applicazione pratica molto elevati

Motivazione della Ricerca

Gli autori, attraverso l'analisi, scoprono che in circa il 75% dei casi di errore, il primo passaggio errato del modello si verifica dopo il suo punto di confidenza più basso. Questa osservazione ispira l'idea di ottimizzare i percorsi di ragionamento basandosi sulla confidenza del modello piuttosto che sulla cognizione umana.

Limitazioni dei Metodi Esistenti

  1. Metodi come Step-DPO: Dipendono dall'annotazione umana o da modelli forti per localizzare i passaggi errati, con costi elevati e spazio di esplorazione limitato
  2. RLHF Tradizionale: Si concentra principalmente sull'ottimizzazione dei risultati, con attenzione insufficiente ai passaggi intermedi delle tracce di ragionamento
  3. Distorsione dell'Allineamento Umano: Forzare il modello a seguire modelli di ragionamento umani potrebbe limitare le sue capacità potenziali

Contributi Fondamentali

  1. Proposta del Metodo CGPO: Un metodo di ottimizzazione delle preferenze dei percorsi di ragionamento guidato dalla confidenza che non dipende da modelli più forti o supervisione umana
  2. Esplorazione di Percorsi di Ragionamento Non Umani: Costruzione di dati di apprendimento delle preferenze attraverso segnali di confidenza del modello stesso, esplorando percorsi di ragionamento non umani
  3. Verifica Multi-Dominio: Validazione dell'efficacia del metodo su compiti di ragionamento matematico e generazione di codice, dimostrando l'universalità del metodo
  4. Contributo Open-Source: Impegno a rilasciare repository di codice completo, dataset e modelli addestrati, promuovendo la riproducibilità

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un problema di input x, il modello di politica iniziale π₀ genera una sequenza di ragionamento y = (y₁, y₂, ..., yₜ), dove yₜ ∈ V (vocabolario). Al passo di decodifica temporale t, la confidenza del modello è definita come:

cₜ ≜ p(yₜ|π₀, x, y<t)

Architettura del Modello

1. Definizione dei Passaggi di Ragionamento

  • Utilizzo di una soglia di confidenza τ per segmentare i passaggi di ragionamento, dove τ è determinata in base alla distribuzione di tutti i valori di confidenza nel dataset
  • I token con confidenza inferiore a τ fungono da punti di segmentazione, ricostruendo la sequenza y in una sequenza di passaggi s = (s₁, s₂, ..., sⱼ)

2. Processo di Costruzione delle Coppie di Preferenza

Determinazione della Traccia Iniziale:

  • Selezione della sequenza prima del passaggio più incerto come traccia di ragionamento iniziale condivisa sᵢₙᵢₜ

Costruzione delle Coppie Chosen/Rejected:

  • Introduzione di un modello di ricompensa R per valutare i token candidati Top-k dato (x, sᵢₙᵢₜ)
  • Selezione dei token con punteggio più alto e più basso rispettivamente come token iniziali dei rami chosen e rejected
  • π₀ continua il campionamento fino a incontrare o un token con confidenza inferiore a τ

3. Obiettivo di Addestramento

Utilizzo di una funzione obiettivo in stile DPO:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

dove:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Punti di Innovazione Tecnica

  1. Segmentazione dei Passaggi Guidata dalla Confidenza: Liberarsi dai punti di ancoraggio predefiniti, segmentando i passaggi di ragionamento basandosi sull'incertezza intrinseca del modello
  2. Costruzione di Preferenze Auto-Supervisionate: Utilizzo di un modello di ricompensa nel punto di massima incertezza per selezionare token ottimali/pessimi, senza necessità di annotazione umana
  3. Esplorazione di Ragionamento Non Umano: Consentire al modello di esplorare percorsi di ragionamento che potrebbero non conformarsi alle abitudini cognitive umane ma potrebbero essere più efficaci

Configurazione Sperimentale

Dataset

Compiti di Ragionamento Matematico:

  • Dati di addestramento: 10.795 prompt dal dataset Step-DPO-10k
  • Dataset di valutazione: GSM8K, MATH, Omni-Math
  • Modelli: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT, ecc.

Compiti di Generazione di Codice:

  • Dati di addestramento: 2.641 campioni dal set di addestramento di LeetCodeDataset
  • Dataset di valutazione: LiveCodeBench, LeetCodeDataset
  • Modelli: Deepseek-Coder-7B-Instruct-v1.5

Metriche di Valutazione

  • Ragionamento Matematico: Accuratezza della corrispondenza esatta (la risposta finale corrisponde esattamente alla risposta standard)
  • Generazione di Codice: Tasso di superamento (il codice generato supera tutti i casi di test in ambiente sandbox)

Metodi di Confronto

  • Base Model: Modello di base originale
  • Step-DPO: Metodo di ottimizzazione delle preferenze graduale basato su annotazione umana

Dettagli di Implementazione

  • Soglia di confidenza: 2° percentile della distribuzione di confidenza del dataset
  • Candidati Top-k: k=8
  • Configurazione di addestramento: β=0.3-0.4, tasso di apprendimento 5e-7, dimensione batch 128, addestramento per 4-8 epoch

Risultati Sperimentali

Risultati Principali

Prestazioni su Compiti di Ragionamento Matematico:

  • GSM8K: CGPO supera Step-DPO su tutti i modelli, con il miglioramento più significativo su MetaMath-Llama-8B (+4.3% vs base)
  • MATH: Supera Step-DPO su MetaMath-Llama-8B e Qwen2-7B-SFT
  • Scoperta Chiave: Anche quando Step-DPO mostra prestazioni in calo (ad es. MetaMath-Mistral-7B), CGPO fornisce comunque miglioramenti

Prestazioni su Compiti di Generazione di Codice:

  • LiveCodeBench: Miglioramento del 2.1% (19.3% → 19.7%)
  • LeetCodeDataset: Miglioramento del 4.0% (12.7% → 13.2%)

Esperimenti di Ablazione

1. Analisi di Scalabilità

Verifica della scalabilità del metodo aumentando la scala dei dati di addestramento (10k → 80k):

  • MetaMath-Llama-8B su GSM8K migliora da 85.3% a 86.4%
  • Qwen2-7B-SFT su GSM8K migliora da 88.6% a 89.5%
  • Dimostra la buona scalabilità dei dati di CGPO

2. Impatto del Modello di Ricompensa

Confronto tra due modelli di ricompensa: ASPRM e Math-Shepherd:

  • ASPRM mostra prestazioni superiori, ma anche l'uso del più debole Math-Shepherd fornisce miglioramenti
  • Dimostra l'importanza della valutazione fine-grained a livello di token

3. Analisi della Soglia di Confidenza

  • L'aumento della soglia generalmente porta a miglioramenti delle prestazioni, ma valori eccessivamente alti causano sequenze troppo brevi
  • Diverse soglie ottimali per diversi modelli richiedono un'ottimizzazione mirata

Verifica della Capacità di Generalizzazione

Prestazioni su Omni-Math (problemi di competizione matematica olimpica):

  • CGPO supera Step-DPO su 4/5 modelli
  • Dimostra la buona capacità di generalizzazione fuori distribuzione del metodo

Analisi di Casi

Attraverso l'analisi di 200 campioni errati per verificare l'ipotesi centrale:

  • MetaMath-Llama-8B: il 78% degli errori si verifica dopo il punto di confidenza più basso
  • Qwen2-7B-SFT: il 72% degli errori si verifica dopo il punto di confidenza più basso
  • Supporta il concetto di design di intervento precoce basato sulla confidenza

Lavori Correlati

Metodi di Ottimizzazione delle Preferenze

  • PPO: Complessità elevata ma risultati stabili
  • DPO/SimPO: Ottimizzazione diretta dei segnali di preferenza accoppiati, con overhead computazionale inferiore
  • Contributo di questo Articolo: Estensione dell'ottimizzazione delle preferenze ai passaggi intermedi dei percorsi di ragionamento

Metodi Consapevoli della Confidenza

  • Metodo della Probabilità Diretta: Utilizzo della probabilità del token previsto (adottato in questo articolo)
  • Metodo della Coerenza Generativa: Misurazione della confidenza attraverso la coerenza delle risposte
  • Innovazione di questo Articolo: Utilizzo della confidenza per la segmentazione dei passaggi e l'ottimizzazione dei percorsi di ragionamento

Ottimizzazione delle Tracce di Ragionamento

  • Fine-Tuning Supervisionato: Allineamento diretto a sequenze annotate
  • RLHF: Ottimizzazione verso tracce con punteggi più alti
  • Vantaggio di questo Articolo: Nessuna necessità di annotazione da modelli forti, esplorazione di percorsi di ragionamento non umani

Conclusioni e Discussione

Conclusioni Principali

  1. Valore dei Percorsi di Ragionamento Non Umani: I modelli possono ottenere prestazioni migliori esplorando percorsi di ragionamento non umani
  2. Efficacia dei Segnali di Confidenza: La confidenza del modello è un indicatore efficace per identificare i punti difficili del ragionamento
  3. Potenziale dell'Apprendimento Auto-Supervisionato: È possibile migliorare efficacemente le capacità di ragionamento senza necessità di annotazione da modelli forti o umani

Limitazioni

  1. Limitazioni delle Risorse Computazionali: Impossibilità di verificare la scalabilità su modelli più grandi (come 70B)
  2. Limitazioni del Dominio: Verifica principalmente nei domini matematico e del codice, l'applicabilità in altri domini come il ragionamento di senso comune rimane da verificare
  3. Dipendenza dal Modello di Ricompensa: Ancora necessità di modelli di valutazione fine-grained specifici del dominio

Direzioni Future

  1. Verifica su Scala Maggiore: Validazione dell'efficacia del metodo su modelli più grandi e in più domini
  2. Modello di Ricompensa Universale: Sviluppo di modelli di valutazione universali cross-domain fine-grained
  3. Analisi Teorica: Comprensione più profonda delle basi teoriche dei percorsi di ragionamento non umani

Valutazione Approfondita

Punti di Forza

  1. Intuizione Profonda del Problema: Identificazione del problema della distorsione umana nei metodi esistenti, proposta di una soluzione concettualmente nuova
  2. Design Ingegnoso del Metodo: Combinazione di segnali di confidenza con ottimizzazione delle preferenze, realizzazione dell'ottimizzazione non supervisionata dei percorsi di ragionamento
  3. Verifica Sperimentale Completa: Verifica da più angolazioni su più modelli e compiti, risultati convincenti
  4. Valore Pratico Elevato: Riduzione della dipendenza dall'annotazione di modelli forti, miglioramento dell'applicabilità pratica del metodo

Insufficienze

  1. Fondamenti Teorici Insufficienti: Mancanza di spiegazione teorica profonda del perché i percorsi di ragionamento non umani siano più efficaci
  2. Ambito di Applicabilità Limitato: Verifica principalmente su compiti di ragionamento strutturato, l'applicabilità su compiti aperti rimane sconosciuta
  3. Affidabilità della Confidenza: La confidenza del modello stesso potrebbe non essere sufficientemente affidabile, specialmente su dati fuori distribuzione
  4. Analisi dell'Overhead Computazionale: Mancanza di analisi dettagliata dei cambiamenti nell'overhead computazionale rispetto ai metodi baseline

Impatto

  1. Valore Accademico: Fornisce una nuova direzione di ricerca per l'ottimizzazione delle capacità di ragionamento, potenzialmente ispirando più lavori correlati
  2. Valore Pratico: Miglioramento delle prestazioni riducendo i costi di annotazione, con importante valore di applicazione ingegneristica
  3. Riproducibilità: Impegno di open-sourcing del codice completo e dei dati, favorendo la diffusione e il miglioramento del metodo

Scenari di Applicazione

  1. Ambienti con Risorse Limitate: Miglioramento delle capacità di ragionamento quando non è possibile ottenere annotazioni da modelli forti
  2. Compiti di Ragionamento Strutturato: Compiti matematici, di codice, di ragionamento logico e altri con standard di valutazione chiari
  3. Auto-Miglioramento del Modello: Come componente tecnica per l'apprendimento continuo e l'auto-ottimizzazione del modello

Bibliografia

L'articolo cita importanti lavori nei campi correlati dell'ottimizzazione del ragionamento, dell'apprendimento delle preferenze e della stima della confidenza, fornendo una base teorica solida per il design del metodo. Meritano particolare attenzione l'analisi comparativa con metodi di ottimizzazione delle preferenze direttamente correlati come Step-DPO e DPO.


Valutazione Complessiva: Questo è un lavoro con importanti contributi nel campo dell'ottimizzazione delle capacità di ragionamento dei grandi modelli linguistici. Attraverso l'introduzione del concetto di percorsi di ragionamento non umani e di una strategia di ottimizzazione basata sulla confidenza, fornisce nuove direzioni di ricerca per il campo. Sebbene vi sia ancora spazio per miglioramenti nella spiegazione teorica e nell'ambito di applicabilità, il suo valore pratico e la sua innovatività lo rendono un importante progresso nel campo.