2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.

Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.

academic

Verbesserung des LLM-Reasoning durch Optimierung von Präferenzen für nicht-menschenähnliche Reasoning-Pfade

Grundinformationen

Paper-ID: 2510.11104
Titel: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Autoren: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.11104

Zusammenfassung

Aktuelle Methoden zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle führen häufig zu Trainingsverzerrungen durch menschliche Reasoning-Trajektorien. Insbesondere bei der schrittweisen Präferenzoptimierung begrenzt die Abhängigkeit von Annotationen menschlicher oder hochleistungsfähiger Modelle die Erforschung alternativer nicht-menschenähnlicher Reasoning-Pfade und beschränkt damit die erreichbare Leistung. Durch eine kleinmaßstäbliche Pilotstudie beobachteten die Autoren, dass in etwa 75% der Fälle der erste Fehler des Modells nach dem Punkt mit der niedrigsten Konfidenz auftritt. Dies deutet darauf hin, dass die Anleitung des Modells am Punkt mit der niedrigsten Konfidenz vor dem Fehler eine genauere Überwachung bietet als die Lokalisierung des ersten expliziten Fehlers. Das Paper stellt Confidence-Guided Reasoning Path Preference Optimization (CGPO) vor, eine Methode, die Konfidenz-Signale nutzt, um Punkte maximaler Unsicherheit im Reasoning-Prozess des Modells zu identifizieren und selbstgenerierte nicht-menschenähnliche Reasoning-Pfade anwendet, um Trajektoriendrift zu mildern.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme bei aktuellen Methoden zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle sind:

Menschliche Verzerrungsbegrenzung: Bestehende Methoden sind übermäßig abhängig von Reasoning-Trajektorien menschlicher oder starker Modelle und begrenzen die Erforschung nicht-menschenähnlicher Reasoning-Pfade
Ungenaue Fehlerlokalisation: Traditionelle Methoden überwachen durch Lokalisierung des ersten expliziten Fehlers, aber dies ist oft nicht der optimale Interventionspunkt
Hohe Annotationskosten: Die schrittweise Präferenzoptimierung erfordert umfangreiche manuelle oder starke Modell-Annotationen mit hohen praktischen Kosten

Forschungsmotivation

Die Autoren entdeckten durch Analyse, dass in etwa 75% der Fehlerfälle der erste Fehler des Modells nach seinem Punkt mit der niedrigsten Konfidenz auftritt. Diese Beobachtung inspirierte den Gedanken, Reasoning-Pfade basierend auf Modell-Konfidenz statt menschlicher Kognition zu optimieren.

Einschränkungen bestehender Methoden

Step-DPO und ähnliche Methoden: Abhängig von menschlichen oder starken Modell-Annotationen zur Fehlerlokalisation, hohe Kosten und begrenzte Explorationsräume
Traditionelles RLHF: Konzentriert sich hauptsächlich auf Ergebnis-Optimierung mit unzureichender Aufmerksamkeit für Zwischenschritte von Reasoning-Trajektorien
Menschliche Alignment-Verzerrung: Das Erzwingen von Modellen, menschliche Reasoning-Muster zu befolgen, kann deren Potenzial begrenzen

Kernbeiträge

Vorstellung der CGPO-Methode: Eine Methode zur Optimierung von Reasoning-Pfad-Präferenzen basierend auf Konfidenz-Anleitung, ohne Abhängigkeit von stärkeren Modellen oder menschlicher Überwachung
Erforschung nicht-menschenähnlicher Reasoning-Pfade: Konstruktion von Präferenzlern-Daten durch Konfidenz-Signale des Modells selbst zur Erforschung nicht-menschenähnlicher Reasoning-Pfade
Multi-Domain-Validierung: Validierung der Methode bei mathematischem Reasoning und Code-Generierungsaufgaben zur Demonstration der Allgemeingültigkeit
Open-Source-Beitrag: Zusage zur Veröffentlichung vollständiger Code-Basis, Datensätze und trainierter Modelle zur Förderung der Reproduzierbarkeit

Methodische Details

Aufgabendefinition

Gegeben ein Eingabeproblem x generiert das initiale Policy-Modell π₀ eine Reasoning-Sequenz y = (y₁, y₂, ..., yₜ), wobei yₜ ∈ V (Vokabular). Zum Dekodier-Zeitschritt t ist die Modell-Konfidenz definiert als:

cₜ ≜ p(yₜ|π₀, x, y<t)

Modellarchitektur

1. Definition von Reasoning-Schritten

Verwendung eines Konfidenz-Schwellwerts τ zur Aufteilung von Reasoning-Schritten, τ wird basierend auf der Verteilung aller Konfidenzwerte im Datensatz bestimmt
Token mit Konfidenz unter τ dienen als Trennpunkte, die Sequenz y wird in eine Schrittsequenz s = (s₁, s₂, ..., sⱼ) rekonstruiert

2. Konstruktionsprozess von Präferenzpaaren

Bestimmung der initialen Trajektorie:

Auswahl der Sequenz vor dem unsichersten Schritt als gemeinsame initiale Reasoning-Trajektorie sᵢₙᵢₜ

Konstruktion von Chosen/Rejected-Paaren:

Einführung eines Reward-Modells R zur Bewertung von Top-k-Kandidaten-Token gegeben (x, sᵢₙᵢₜ)
Auswahl des höchsten und niedrigsten bewerteten Token als Start-Token für die chosen und rejected Branches
π₀ setzt das Sampling fort bis oder Token mit Konfidenz unter τ

3. Trainings-Ziel

Verwendung einer DPO-ähnlichen Zielfunktion:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

wobei:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Technische Innovationen

Konfidenz-gesteuerte Schrittaufteilung: Befreiung von vordefinierten Ankerpunkten, Aufteilung von Reasoning-Schritten basierend auf innerer Modell-Unsicherheit
Selbstüberwachte Präferenz-Konstruktion: Nutzung von Reward-Modellen zur Auswahl optimaler/schlechtester Token am unsichersten Punkt ohne menschliche Annotationen
Erforschung nicht-menschenähnlicher Reasoning: Ermöglichung der Modell-Erforschung von Reasoning-Pfaden, die nicht menschlichen kognitiven Gewohnheiten entsprechen, aber möglicherweise effektiver sind

Experimentelle Einrichtung

Datensätze

Mathematische Reasoning-Aufgaben:

Trainingsdaten: 10.795 Prompts aus dem Step-DPO-10k-Datensatz
Evaluierungs-Datensätze: GSM8K, MATH, Omni-Math
Modelle: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT usw.

Code-Generierungsaufgaben:

Trainingsdaten: 2.641 Samples aus dem LeetCodeDataset-Trainingssatz
Evaluierungs-Datensätze: LiveCodeBench, LeetCodeDataset
Modelle: Deepseek-Coder-7B-Instruct-v1.5

Bewertungsmetriken

Mathematisches Reasoning: Genauigkeit bei exaktem Treffer (finale Antwort stimmt vollständig mit Standardantwort überein)
Code-Generierung: Durchsatzrate (generierter Code besteht alle Testfälle in Sandbox-Umgebung)

Vergleichsmethoden

Base Model: Ursprüngliches Basis-Modell
Step-DPO: Schrittweise Präferenzoptimierungs-Methode basierend auf menschlichen Annotationen

Implementierungsdetails

Konfidenz-Schwellwert: 2. Perzentil der Konfidenz-Verteilung des Datensatzes
Top-k-Kandidaten: k=8
Trainings-Konfiguration: β=0,3-0,4, Lernrate 5e-7, Batch-Größe 128, Training 4-8 Epochen

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei mathematischen Reasoning-Aufgaben:

GSM8K: CGPO übertrifft Step-DPO bei allen Modellen, MetaMath-Llama-8B zeigt die signifikanteste Verbesserung (+4,3% vs. Base)
MATH: Übertrifft Step-DPO bei MetaMath-Llama-8B und Qwen2-7B-SFT
Schlüsselfund: Selbst wenn Step-DPO Leistungsrückgänge zeigt (z.B. MetaMath-Mistral-7B), liefert CGPO dennoch Verbesserungen

Leistung bei Code-Generierungsaufgaben:

LiveCodeBench: Verbesserung um 2,1% (19,3% → 19,7%)
LeetCodeDataset: Verbesserung um 4,0% (12,7% → 13,2%)

Ablationsstudien

1. Skalierbarkeitsanalyse

Validierung der Methoden-Skalierbarkeit durch Erhöhung der Trainingsdatengröße (10k → 80k):

MetaMath-Llama-8B auf GSM8K von 85,3% auf 86,4% verbessert
Qwen2-7B-SFT auf GSM8K von 88,6% auf 89,5% verbessert
Zeigt gute Datenskalierbarkeit von CGPO

2. Einfluss des Reward-Modells

Vergleich von ASPRM und Math-Shepherd als zwei Reward-Modelle:

ASPRM zeigt bessere Leistung, aber selbst schwächere Math-Shepherd zeigt Verbesserungen
Beweist die Wichtigkeit von Fine-Grained Token-Level-Bewertung

3. Analyse des Konfidenz-Schwellwerts

Erhöhung des Schwellwerts führt typischerweise zu Leistungsverbesserungen, aber zu hohe Werte führen zu zu kurzen Sequenzen
Unterschiedliche Modelle benötigen unterschiedliche optimale Schwellwerte

Validierung der Generalisierungsfähigkeit

Leistung bei Omni-Math (Olympiade-Niveau mathematische Wettbewerbsprobleme):

CGPO übertrifft Step-DPO bei 4/5 Modellen
Beweist gute Out-of-Distribution-Generalisierungsfähigkeit der Methode

Fallstudienanalyse

Durch Analyse von 200 fehlerhaften Samples zur Validierung der Kernhypothese:

MetaMath-Llama-8B: 78% der Fehler treten nach dem Punkt mit der niedrigsten Konfidenz auf
Qwen2-7B-SFT: 72% der Fehler treten nach dem Punkt mit der niedrigsten Konfidenz auf
Unterstützt das Designkonzept der frühen Intervention basierend auf Konfidenz

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Wert nicht-menschenähnlicher Reasoning-Pfade: Modelle können durch Erforschung nicht-menschenähnlicher Reasoning-Pfade bessere Leistungen erzielen
Effektivität von Konfidenz-Signalen: Modell-Konfidenz ist ein effektiver Indikator zur Identifikation von Reasoning-Schwierigkeitspunkten
Potenzial selbstüberwachten Lernens: Effektive Verbesserung der Reasoning-Fähigkeiten ohne starke Modell- oder menschliche Annotationen möglich

Einschränkungen

Rechenressourcen-Begrenzung: Skalierbarkeit auf größeren Modellen (z.B. 70B) konnte nicht validiert werden
Domänen-Einschränkung: Hauptsächlich in mathematischen und Code-Domänen validiert, Anwendbarkeit in Common-Sense-Reasoning usw. bleibt zu überprüfen
Abhängigkeit vom Reward-Modell: Erfordert immer noch domänenspezifische Fine-Grained-Reward-Modelle

Zukünftige Richtungen

Validierung in größerem Maßstab: Validierung der Methoden-Effektivität auf größeren Modellen und mehr Domänen
Universelle Reward-Modelle: Entwicklung von domänenübergreifenden universellen Fine-Grained-Bewertungsmodellen
Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen nicht-menschenähnlicher Reasoning-Pfade

Tiefgreifende Bewertung

Stärken

Tiefe Problemeinblicke: Identifikation des Menschliche-Verzerrungsproblems bestehender Methoden mit neuartigem Lösungsansatz
Geschickte Methodengestaltung: Kombination von Konfidenz-Signalen mit Präferenzoptimierung zur Realisierung unüberwachter Reasoning-Pfad-Optimierung
Umfassende experimentelle Validierung: Multi-Modell-, Multi-Task-, Multi-Perspektiven-Experimente mit überzeugenden Ergebnissen
Hoher praktischer Wert: Reduziert Abhängigkeit von starken Modell-Annotationen und verbessert gleichzeitig die Leistung

Mängel

Unzureichende theoretische Grundlagen: Mangel an tieferer theoretischer Erklärung, warum nicht-menschenähnliche Reasoning-Pfade effektiver sind
Begrenzte Anwendbarkeit: Hauptsächlich bei strukturierten Reasoning-Aufgaben validiert, Anwendbarkeit bei offenen Aufgaben unbekannt
Zuverlässigkeit der Konfidenz: Modell-Konfidenz selbst kann unzuverlässig sein, besonders bei Out-of-Distribution-Daten
Analyse des Rechenaufwands: Keine detaillierte Analyse der Rechenaufwands-Veränderungen im Vergleich zu Baseline-Methoden

Einfluss

Akademischer Wert: Bietet neue Forschungsrichtung für Reasoning-Fähigkeits-Optimierung, kann weitere verwandte Arbeiten inspirieren
Praktischer Wert: Reduziert Annotationskosten bei gleichzeitiger Leistungsverbesserung mit wichtigem Ingenieur-Anwendungswert
Reproduzierbarkeit: Zusage zur Open-Source-Veröffentlichung von vollständigem Code und Daten fördert Methodenverbreitung und Verbesserung

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Reasoning-Fähigkeits-Verbesserung ohne Zugang zu starken Modell-Annotationen
Strukturierte Reasoning-Aufgaben: Mathematik, Code, logisches Reasoning usw. mit klaren Bewertungsstandards
Modell-Selbstverbesserung: Als technische Komponente für kontinuierliches Modell-Lernen und Selbstoptimierung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen wie Reasoning-Optimierung, Präferenzlernen und Konfidenz-Schätzung und bietet damit eine solide theoretische Grundlage für die Methodengestaltung. Besonders hervorzuheben ist die vergleichende Analyse mit direkt verwandten Präferenzoptimierungs-Methoden wie Step-DPO und DPO.

Gesamtbewertung: Dies ist eine Arbeit mit wichtigen Beiträgen im Bereich der Reasoning-Fähigkeits-Optimierung großer Sprachmodelle. Durch die Einführung des Konzepts nicht-menschenähnlicher Reasoning-Pfade und einer auf Konfidenz basierenden Optimierungsstrategie bietet sie neue Forschungsrichtungen für dieses Feld. Obwohl es noch Verbesserungspotenzial bei theoretischen Erklärungen und Anwendungsbereichen gibt, machen ihr praktischer Wert und ihre Innovativität sie zu einem wichtigen Fortschritt in diesem Bereich.