Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
Tang, Huang, Liu et al.
Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
academic
Nicht zweimal in denselben Fluss treten: Lernen durch Versuch und Irrtum
Dieser Artikel stellt die LTE-Methode (Learning to reason from Trial and Error) vor, die darauf abzielt, das Explorationsstagnationsproblem großer Sprachmodelle (LLMs) beim verifizierbaren Reward-Reinforcement-Learning (RLVR) zu lösen. Bestehende RLVR-Methoden trainieren nur auf vom Modell selbst generierten Antworten und sind durch die anfängliche Leistungsfähigkeit begrenzt, wodurch es schwierig wird, Probleme zu lösen, die über die Leistungsobergrenze hinausgehen. LTE durchbricht Leistungsengpässe, ohne externe Expertenanleitungen zu benötigen, indem es zuvor vom Modell generierte fehlerhafte Antworten als Hinweise nutzt. Experimente auf Qwen3-4B-Base zeigen, dass LTE die standardmäßige GRPO-Methode über sechs mathematische Benchmarks hinweg durchschnittlich um 6,38 (Pass@1) und 9,00 (Pass@k) übertrifft.
Dieser Artikel befasst sich mit dem Explorationsstagnationsproblem beim Reinforcement-Learning-Training großer Sprachmodelle. Dies äußert sich konkret darin, dass wenn die Schwierigkeit der Trainingsmuster die aktuelle Leistungsobergrenze des Modells übersteigt, alle gesampelten Antworten die Verifikation nicht bestehen (d. h. none-pass-Muster), wodurch alle Vorteilsfunktionen null sind und das Modell nicht aus diesen Mustern lernen kann.
Leistungsengpass: Bestehende RLVR-Methoden halten Modelle in ihrem anfänglichen Leistungsbereich fest und ermöglichen keinen Durchbruch ihrer eigenen Grenzen
Trainingseffizienz: Viele Trainingsmuster können aufgrund von Explorationsstagnation keine effektiven Lernsignale liefern
Schlussfolgerungsfähigkeit: Begrenzt die Leistungsverbesserung des Modells bei Aufgaben, die tiefes Denken erfordern, wie mathematisches Schlussfolgern
Vorschlag einer selbstgesteuerten Lernmethode, die nur die Versuch-und-Irrtum-Erfahrung des Modells selbst nutzt und keiner externen Expertenanleitungen bedarf, um Explorationsbeschränkungen zu durchbrechen.
Vorschlag der LTE-Methode: Erste Methode, die die Versuch-und-Irrtum-Erfahrung des LLM selbst (fehlerhafte Antworten) als Hinweise nutzt, um Explorationsstagnation zu lösen, ohne externe Expertenanleitungen zu benötigen
Gemischter Richtlinien-Optimierungsmechanismus: Entwurf eines Trainingsrahmens, der On-Policy- und Off-Policy-Muster kombiniert, mit regularisiertem Importance Sampling zur Verarbeitung von durch Hinweise generierten korrekten Lösungen
Umfassende experimentelle Validierung: Validierung der Wirksamkeit auf zwei LLMs (4B und 8B) und sechs mathematischen Benchmarks mit signifikanten Verbesserungen bei Pass@1- und Pass@k-Leistung
Tiefgehende Mechanismusanalyse:
Theoretischer Beweis, dass LTE die Wahrscheinlichkeit erhöht, die richtige Antwort zu erreichen
Empirische Analyse bestätigt, dass LTE Explorationsstagnation erfolgreich lindert
Offenbarung, dass LTE sowohl Exploitation- als auch Explorationsfähigkeit verbessert
Eingabe: Mathematische Problemabfrage q∼D Ausgabe: Argumentationskette und endgültige Antwort o Ziel: Maximierung der Wahrscheinlichkeit, die richtige Antwort zu generieren, durch RLVR und gleichzeitiger Durchbruch der anfänglichen Leistungsobergrenze des Modells
Selbstgesteuerter Lernmechanismus: Unabhängig von externer Überwachung, nutzt nur die Fehlversuche des Modells selbst
Fehlerhafte Antworten als "negative Beispiele", Verringerung des Lösungsraums
Hinweis an das Modell, wiederholte Fehler zu vermeiden
Zustandsraum-Beschneidung: Theoretische Analyse zeigt, dass Hinweise den Zustandsraum von Sq zu Sq′=Sq\Sqf (Ausschluss des Fehlersubraums) beschneiden und die Wahrscheinlichkeit erhöhen, die richtige Antwort zu erreichen
Adaptive Hinweisstrategie: Dynamische Anpassung des Hinweisinhalts basierend auf der Kürzungssituation
Umgang mit Problemen überlanger Antworten
Ausgleich zwischen Explorationstiefen und Effizienz
Gemischtes Richtlinien-Training: Elegante Verarbeitung von On-Policy- und Off-Policy-Daten
Aufrechterhaltung der Trainingsstabilität
Vollständige Nutzung der Informationen zusätzlicher Rollouts
Bewertungseinstellung: Strikte Einhaltung von Standardprotokollen; Hinweise während des Trainings werden nur in der Trainingsphase verwendet, nicht bei der Bewertung.
Definition des Fehlersubraums: Sqf={s∈Sq:Extract(s)∈Aq}, wobei Aq die Menge der generierten fehlerhaften Antworten ist
Definition des beschnittenen Subraums: Sq′=Sq\Sqf
Kernsatz: Gegeben Hinweise Hq (enthaltend fehlerhafte Antworten) erhöht sich die Wahrscheinlichkeit, die richtige Antwort zu erreichen:
P(s∈Mq∣q,πθ)P(s∈Mq∣q,Hq,πθ)≥α⋅(1+1−τ1/nδ)
wobei:
Mq: Menge der Zustände mit korrekter Antwort
δ>0: Verringerung der Fehlersubraum-Wahrscheinlichkeit durch Hinweise
τ: Konfidenzlevel für die Beobachtung von n aufeinanderfolgenden Fehlern
α∼Ω(1): Einflussfaktor der Hinweise auf die Schlussfolgerungsfähigkeit im beschnittenen Subraum
Schlussfolgerung: Da α nicht wesentlich kleiner als 1 sein sollte, ist dieses Verhältnis größer als 1, was beweist, dass Hinweise die Wahrscheinlichkeit erhöhen, die richtige Antwort zu erreichen.
DeepSeek-AI (2025): DeepSeek-R1 - Bahnbrechende Arbeit zur Förderung von Schlussfolgerungsfähigkeiten durch Reinforcement-Learning
Shao et al. (2024): GRPO-Algorithmus - Grundlagenmethode dieses Papiers
Yan et al. (2025): Off-Policy-Guided Learning - Inspirationsquelle für gemischte Richtlinien-Optimierung
Cui et al. (2025): Entropie-Mechanismus-Analyse - Theoretische Grundlage der Explorationsfähigkeit
Gesamtbewertung: ⭐⭐⭐⭐ (4,5/5)
Leseempfehlung: Stark empfohlen für Forscher, die sich mit LLM-Schlussfolgern, Reinforcement-Learning und mathematischer Problemlösung befassen. Die Methode ist prägnant und effektiv, Theorie und Praxis sind eng verbunden, und es stellt einen wichtigen Fortschritt im RLVR-Bereich dar.