Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic
Non Entrare Due Volte nello Stesso Fiume: Imparare a Ragionare da Prove ed Errori
Il presente articolo propone il metodo LTE (Learning to reason from Trial and Error), finalizzato a risolvere il problema della stagnazione esplorativa nei modelli di linguaggio di grandi dimensioni (LLM) nell'apprendimento per rinforzo con ricompense verificabili (RLVR). I metodi RLVR esistenti si limitano ad addestrare il modello basandosi esclusivamente sulle risposte generate dal modello stesso, rimanendo vincolati dalle capacità iniziali e faticando a risolvere problemi che superano il limite superiore delle capacità. LTE supera i colli di bottiglia delle capacità sfruttando le risposte errate precedentemente generate dal modello come suggerimenti, senza richiedere guida esterna da esperti. Gli esperimenti su Qwen3-4B-Base dimostrano che LTE supera il metodo GRPO standard di 6,38 (Pass@1) e 9,00 (Pass@k) in media su sei benchmark matematici.
L'articolo affronta il problema della stagnazione esplorativa nell'addestramento dell'apprendimento per rinforzo dei modelli di linguaggio di grandi dimensioni. Nello specifico, si manifesta come: quando la difficoltà dei campioni di addestramento supera il limite superiore delle capacità attuali del modello, tutti i campioni generati non riescono a superare la verifica (ovvero campioni none-pass), causando che tutte le funzioni di vantaggio siano zero, impedendo al modello di apprendere da questi campioni.
Collo di bottiglia delle capacità: I metodi RLVR esistenti intrappolano il modello nell'intervallo di capacità iniziale, impedendogli di superare i propri limiti
Efficienza dell'addestramento: Numerosi campioni di addestramento non forniscono segnali di apprendimento efficaci a causa della stagnazione esplorativa
Capacità di ragionamento: Limita il miglioramento delle prestazioni del modello in compiti che richiedono pensiero profondo, come il ragionamento matematico
Proporre un metodo di apprendimento autonomo che sfrutta esclusivamente l'esperienza di prova ed errore del modello stesso, senza alcuna guida esterna da esperti, per superare i colli di bottiglia esplorativi.
Propone il metodo LTE: Primo metodo che sfrutta sistematicamente l'esperienza di prova ed errore dell'LLM stesso (risposte errate) come suggerimento per risolvere la stagnazione esplorativa, senza richiedere guida esterna da esperti
Meccanismo di ottimizzazione con politica mista: Progetta un framework di addestramento che combina campioni on-policy e off-policy, gestendo le soluzioni corrette generate da suggerimenti attraverso campionamento di importanza regolarizzato
Verifica sperimentale completa: Valida l'efficacia su due LLM (4B e 8B) e sei benchmark matematici, migliorando significativamente le prestazioni Pass@1 e Pass@k
Analisi approfondita dei meccanismi:
Prova teoricamente che LTE aumenta la probabilità di raggiungere la risposta corretta
Analisi empirica che conferma che LTE mitiga con successo la stagnazione esplorativa
Rivela che LTE migliora simultaneamente le capacità di sfruttamento e esplorazione
Input: Query di problemi matematici q∼D Output: Catena di ragionamento e risposta finale o Obiettivo: Massimizzare la probabilità di generare risposte corrette attraverso RLVR, superando contemporaneamente il limite superiore delle capacità iniziali del modello
Per i campioni none-pass (tutti i rollout iniziali falliscono), selezionare la strategia di suggerimento in base alla situazione di troncamento:
a) All-truncated (tutte le risposte sono troncate)
Modello di suggerimento: "Let's think concisely and output the final answer within \boxed{}."
Attribuito al fatto che le risposte sono troppo lunghe, suggerisce al modello di pensare in modo conciso.
b) Some-truncated (alcune risposte sono troncate)
Modello di suggerimento: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think concisely..."
Raccoglie le risposte errate dalle risposte non troncate come suggerimento, richiedendo al contempo concisione.
c) None-truncated (nessuna risposta troncata)
Modello di suggerimento: "Hint: possible incorrect answers include [a1, a2, ...]
Do not use or mention the hint explicitly. Let's think step by step..."
Fornisce solo suggerimenti di risposte errate, consentendo ragionamento di lunghezza normale.
Basandosi sul modello di suggerimento selezionato, campionare nuovamente G rollout aggiuntivi {o1hinted,o2hinted,...,oGhinted}.
Meccanismo di apprendimento autonomo: Non dipende dalla supervisione esterna, sfrutta esclusivamente i tentativi errati del modello stesso
Le risposte errate fungono da "lezioni negative", restringendo lo spazio delle soluzioni
Indicano al modello di evitare di ripetere gli stessi errori
Potatura dello spazio degli stati: L'analisi teorica dimostra che il suggerimento potatura lo spazio degli stati da Sq a Sq′=Sq\Sqf (escludendo il sottospazio di fallimento), aumentando la probabilità di raggiungere la risposta corretta
Strategia di suggerimento adattiva: Regola dinamicamente il contenuto del suggerimento in base alla situazione di troncamento
Affronta il problema delle risposte troppo lunghe
Bilancia la profondità e l'efficienza dell'esplorazione
Addestramento con politica mista: Gestisce elegantemente i dati on-policy e off-policy
Mantiene la stabilità dell'addestramento
Sfrutta pienamente le informazioni dai rollout aggiuntivi
Lunghezza massima della risposta: 16.384 (addestramento), 32.768 (valutazione)
Coefficiente KL: 0,001
Rapporto di clip: 0,2
Impostazione di valutazione: Conformità rigorosa ai protocolli standard, i suggerimenti durante l'addestramento vengono utilizzati solo durante la fase di addestramento, non durante la valutazione.
Definizione del sottospazio di fallimento: Sqf={s∈Sq:Extract(s)∈Aq}, dove Aq è l'insieme delle risposte errate generate
Definizione del sottospazio potato: Sq′=Sq\Sqf
Teorema fondamentale: Dato il suggerimento Hq (contenente risposte errate), la probabilità di raggiungere la risposta corretta aumenta:
P(s∈Mq∣q,πθ)P(s∈Mq∣q,Hq,πθ)≥α⋅(1+1−τ1/nδ)
dove:
Mq: insieme di stati con risposta corretta
δ>0: quantità di riduzione della probabilità del sottospazio di fallimento causata dal suggerimento
τ: livello di confidenza nell'osservazione di n fallimenti consecutivi
α∼Ω(1): fattore di impatto del suggerimento sulla capacità di ragionamento all'interno del sottospazio potato
Conclusione: Poiché α non dovrebbe essere significativamente inferiore a 1, questo rapporto è maggiore di 1, provando che il suggerimento aumenta la probabilità di raggiungere la risposta corretta.
"Il fallimento è informazione": Le risposte errate non sono rumore, ma segnali preziosi per restringere lo spazio delle soluzioni
Equilibrio esplorazione-sfruttamento: LTE migliora simultaneamente entrambi attraverso l'apprendimento autonomo, rompendo il trade-off tradizionale
Emergenza del pensiero profondo: L'aumento della lunghezza della risposta dimostra che il modello ha imparato a investire più risorse computazionali
Paradosso della concisione: Suggerire "pensiero conciso" aiuta paradossalmente a risolvere problemi complessi, incarnando la qualità rispetto alla quantità
DeepSeek-AI (2025): DeepSeek-R1 - Lavoro pioneristico nell'incentivare capacità di ragionamento attraverso l'apprendimento per rinforzo
Shao et al. (2024): Algoritmo GRPO - Metodo di base di questo articolo
Yan et al. (2025): Apprendimento con guida off-policy - Fonte di ispirazione per l'ottimizzazione con politica mista
Cui et al. (2025): Analisi dei meccanismi di entropia - Base teorica per la capacità di esplorazione
Valutazione Complessiva: ⭐⭐⭐⭐ (4,5/5)
Raccomandazione di Lettura: Fortemente consigliato ai ricercatori che lavorano su ragionamento LLM, apprendimento per rinforzo e risoluzione di problemi matematici. Il metodo è semplice ed efficace, la combinazione di teoria e pratica è stretta, rappresenta un importante progresso nel campo dell'RLVR.