2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic

Verbesserung des LLM-Reasoning durch Optimierung von Präferenzen für nicht-menschenähnliche Reasoning-Pfade

Grundinformationen

  • Paper-ID: 2510.11104
  • Titel: Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
  • Autoren: Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.11104

Zusammenfassung

Aktuelle Methoden zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle führen häufig zu Trainingsverzerrungen durch menschliche Reasoning-Trajektorien. Insbesondere bei der schrittweisen Präferenzoptimierung begrenzt die Abhängigkeit von Annotationen menschlicher oder hochleistungsfähiger Modelle die Erforschung alternativer nicht-menschenähnlicher Reasoning-Pfade und beschränkt damit die erreichbare Leistung. Durch eine kleinmaßstäbliche Pilotstudie beobachteten die Autoren, dass in etwa 75% der Fälle der erste Fehler des Modells nach dem Punkt mit der niedrigsten Konfidenz auftritt. Dies deutet darauf hin, dass die Anleitung des Modells am Punkt mit der niedrigsten Konfidenz vor dem Fehler eine genauere Überwachung bietet als die Lokalisierung des ersten expliziten Fehlers. Das Paper stellt Confidence-Guided Reasoning Path Preference Optimization (CGPO) vor, eine Methode, die Konfidenz-Signale nutzt, um Punkte maximaler Unsicherheit im Reasoning-Prozess des Modells zu identifizieren und selbstgenerierte nicht-menschenähnliche Reasoning-Pfade anwendet, um Trajektoriendrift zu mildern.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme bei aktuellen Methoden zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle sind:

  1. Menschliche Verzerrungsbegrenzung: Bestehende Methoden sind übermäßig abhängig von Reasoning-Trajektorien menschlicher oder starker Modelle und begrenzen die Erforschung nicht-menschenähnlicher Reasoning-Pfade
  2. Ungenaue Fehlerlokalisation: Traditionelle Methoden überwachen durch Lokalisierung des ersten expliziten Fehlers, aber dies ist oft nicht der optimale Interventionspunkt
  3. Hohe Annotationskosten: Die schrittweise Präferenzoptimierung erfordert umfangreiche manuelle oder starke Modell-Annotationen mit hohen praktischen Kosten

Forschungsmotivation

Die Autoren entdeckten durch Analyse, dass in etwa 75% der Fehlerfälle der erste Fehler des Modells nach seinem Punkt mit der niedrigsten Konfidenz auftritt. Diese Beobachtung inspirierte den Gedanken, Reasoning-Pfade basierend auf Modell-Konfidenz statt menschlicher Kognition zu optimieren.

Einschränkungen bestehender Methoden

  1. Step-DPO und ähnliche Methoden: Abhängig von menschlichen oder starken Modell-Annotationen zur Fehlerlokalisation, hohe Kosten und begrenzte Explorationsräume
  2. Traditionelles RLHF: Konzentriert sich hauptsächlich auf Ergebnis-Optimierung mit unzureichender Aufmerksamkeit für Zwischenschritte von Reasoning-Trajektorien
  3. Menschliche Alignment-Verzerrung: Das Erzwingen von Modellen, menschliche Reasoning-Muster zu befolgen, kann deren Potenzial begrenzen

Kernbeiträge

  1. Vorstellung der CGPO-Methode: Eine Methode zur Optimierung von Reasoning-Pfad-Präferenzen basierend auf Konfidenz-Anleitung, ohne Abhängigkeit von stärkeren Modellen oder menschlicher Überwachung
  2. Erforschung nicht-menschenähnlicher Reasoning-Pfade: Konstruktion von Präferenzlern-Daten durch Konfidenz-Signale des Modells selbst zur Erforschung nicht-menschenähnlicher Reasoning-Pfade
  3. Multi-Domain-Validierung: Validierung der Methode bei mathematischem Reasoning und Code-Generierungsaufgaben zur Demonstration der Allgemeingültigkeit
  4. Open-Source-Beitrag: Zusage zur Veröffentlichung vollständiger Code-Basis, Datensätze und trainierter Modelle zur Förderung der Reproduzierbarkeit

Methodische Details

Aufgabendefinition

Gegeben ein Eingabeproblem x generiert das initiale Policy-Modell π₀ eine Reasoning-Sequenz y = (y₁, y₂, ..., yₜ), wobei yₜ ∈ V (Vokabular). Zum Dekodier-Zeitschritt t ist die Modell-Konfidenz definiert als:

cₜ ≜ p(yₜ|π₀, x, y<t)

Modellarchitektur

1. Definition von Reasoning-Schritten

  • Verwendung eines Konfidenz-Schwellwerts τ zur Aufteilung von Reasoning-Schritten, τ wird basierend auf der Verteilung aller Konfidenzwerte im Datensatz bestimmt
  • Token mit Konfidenz unter τ dienen als Trennpunkte, die Sequenz y wird in eine Schrittsequenz s = (s₁, s₂, ..., sⱼ) rekonstruiert

2. Konstruktionsprozess von Präferenzpaaren

Bestimmung der initialen Trajektorie:

  • Auswahl der Sequenz vor dem unsichersten Schritt als gemeinsame initiale Reasoning-Trajektorie sᵢₙᵢₜ

Konstruktion von Chosen/Rejected-Paaren:

  • Einführung eines Reward-Modells R zur Bewertung von Top-k-Kandidaten-Token gegeben (x, sᵢₙᵢₜ)
  • Auswahl des höchsten und niedrigsten bewerteten Token als Start-Token für die chosen und rejected Branches
  • π₀ setzt das Sampling fort bis oder Token mit Konfidenz unter τ

3. Trainings-Ziel

Verwendung einer DPO-ähnlichen Zielfunktion:

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

wobei:

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Technische Innovationen

  1. Konfidenz-gesteuerte Schrittaufteilung: Befreiung von vordefinierten Ankerpunkten, Aufteilung von Reasoning-Schritten basierend auf innerer Modell-Unsicherheit
  2. Selbstüberwachte Präferenz-Konstruktion: Nutzung von Reward-Modellen zur Auswahl optimaler/schlechtester Token am unsichersten Punkt ohne menschliche Annotationen
  3. Erforschung nicht-menschenähnlicher Reasoning: Ermöglichung der Modell-Erforschung von Reasoning-Pfaden, die nicht menschlichen kognitiven Gewohnheiten entsprechen, aber möglicherweise effektiver sind

Experimentelle Einrichtung

Datensätze

Mathematische Reasoning-Aufgaben:

  • Trainingsdaten: 10.795 Prompts aus dem Step-DPO-10k-Datensatz
  • Evaluierungs-Datensätze: GSM8K, MATH, Omni-Math
  • Modelle: MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT usw.

Code-Generierungsaufgaben:

  • Trainingsdaten: 2.641 Samples aus dem LeetCodeDataset-Trainingssatz
  • Evaluierungs-Datensätze: LiveCodeBench, LeetCodeDataset
  • Modelle: Deepseek-Coder-7B-Instruct-v1.5

Bewertungsmetriken

  • Mathematisches Reasoning: Genauigkeit bei exaktem Treffer (finale Antwort stimmt vollständig mit Standardantwort überein)
  • Code-Generierung: Durchsatzrate (generierter Code besteht alle Testfälle in Sandbox-Umgebung)

Vergleichsmethoden

  • Base Model: Ursprüngliches Basis-Modell
  • Step-DPO: Schrittweise Präferenzoptimierungs-Methode basierend auf menschlichen Annotationen

Implementierungsdetails

  • Konfidenz-Schwellwert: 2. Perzentil der Konfidenz-Verteilung des Datensatzes
  • Top-k-Kandidaten: k=8
  • Trainings-Konfiguration: β=0,3-0,4, Lernrate 5e-7, Batch-Größe 128, Training 4-8 Epochen

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei mathematischen Reasoning-Aufgaben:

  • GSM8K: CGPO übertrifft Step-DPO bei allen Modellen, MetaMath-Llama-8B zeigt die signifikanteste Verbesserung (+4,3% vs. Base)
  • MATH: Übertrifft Step-DPO bei MetaMath-Llama-8B und Qwen2-7B-SFT
  • Schlüsselfund: Selbst wenn Step-DPO Leistungsrückgänge zeigt (z.B. MetaMath-Mistral-7B), liefert CGPO dennoch Verbesserungen

Leistung bei Code-Generierungsaufgaben:

  • LiveCodeBench: Verbesserung um 2,1% (19,3% → 19,7%)
  • LeetCodeDataset: Verbesserung um 4,0% (12,7% → 13,2%)

Ablationsstudien

1. Skalierbarkeitsanalyse

Validierung der Methoden-Skalierbarkeit durch Erhöhung der Trainingsdatengröße (10k → 80k):

  • MetaMath-Llama-8B auf GSM8K von 85,3% auf 86,4% verbessert
  • Qwen2-7B-SFT auf GSM8K von 88,6% auf 89,5% verbessert
  • Zeigt gute Datenskalierbarkeit von CGPO

2. Einfluss des Reward-Modells

Vergleich von ASPRM und Math-Shepherd als zwei Reward-Modelle:

  • ASPRM zeigt bessere Leistung, aber selbst schwächere Math-Shepherd zeigt Verbesserungen
  • Beweist die Wichtigkeit von Fine-Grained Token-Level-Bewertung

3. Analyse des Konfidenz-Schwellwerts

  • Erhöhung des Schwellwerts führt typischerweise zu Leistungsverbesserungen, aber zu hohe Werte führen zu zu kurzen Sequenzen
  • Unterschiedliche Modelle benötigen unterschiedliche optimale Schwellwerte

Validierung der Generalisierungsfähigkeit

Leistung bei Omni-Math (Olympiade-Niveau mathematische Wettbewerbsprobleme):

  • CGPO übertrifft Step-DPO bei 4/5 Modellen
  • Beweist gute Out-of-Distribution-Generalisierungsfähigkeit der Methode

Fallstudienanalyse

Durch Analyse von 200 fehlerhaften Samples zur Validierung der Kernhypothese:

  • MetaMath-Llama-8B: 78% der Fehler treten nach dem Punkt mit der niedrigsten Konfidenz auf
  • Qwen2-7B-SFT: 72% der Fehler treten nach dem Punkt mit der niedrigsten Konfidenz auf
  • Unterstützt das Designkonzept der frühen Intervention basierend auf Konfidenz

Verwandte Arbeiten

Präferenzoptimierungs-Methoden

  • PPO: Hohe Komplexität aber stabile Ergebnisse
  • DPO/SimPO: Direkte Optimierung von gepaarten Präferenz-Signalen mit niedrigeren Rechenkosten
  • Beitrag dieses Papers: Erweiterung der Präferenzoptimierung auf Zwischenschritte von Reasoning-Pfaden

Konfidenz-bewusste Methoden

  • Direkte Wahrscheinlichkeitsmethode: Verwendung der Wahrscheinlichkeit des vorhergesagten Token (in diesem Paper verwendet)
  • Generierungs-Konsistenz-Methode: Messung der Konfidenz durch Antwort-Konsistenz
  • Innovation dieses Papers: Verwendung von Konfidenz für Schrittaufteilung und Optimierung von Reasoning-Pfaden

Optimierung von Reasoning-Trajektorien

  • Überwachte Feinabstimmung: Direkte Ausrichtung auf annotierte Sequenzen
  • RLHF: Optimierung in Richtung höher bewerteter Trajektorien
  • Vorteil dieses Papers: Keine starken Modell-Annotationen erforderlich, Erforschung nicht-menschenähnlicher Reasoning-Pfade

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Wert nicht-menschenähnlicher Reasoning-Pfade: Modelle können durch Erforschung nicht-menschenähnlicher Reasoning-Pfade bessere Leistungen erzielen
  2. Effektivität von Konfidenz-Signalen: Modell-Konfidenz ist ein effektiver Indikator zur Identifikation von Reasoning-Schwierigkeitspunkten
  3. Potenzial selbstüberwachten Lernens: Effektive Verbesserung der Reasoning-Fähigkeiten ohne starke Modell- oder menschliche Annotationen möglich

Einschränkungen

  1. Rechenressourcen-Begrenzung: Skalierbarkeit auf größeren Modellen (z.B. 70B) konnte nicht validiert werden
  2. Domänen-Einschränkung: Hauptsächlich in mathematischen und Code-Domänen validiert, Anwendbarkeit in Common-Sense-Reasoning usw. bleibt zu überprüfen
  3. Abhängigkeit vom Reward-Modell: Erfordert immer noch domänenspezifische Fine-Grained-Reward-Modelle

Zukünftige Richtungen

  1. Validierung in größerem Maßstab: Validierung der Methoden-Effektivität auf größeren Modellen und mehr Domänen
  2. Universelle Reward-Modelle: Entwicklung von domänenübergreifenden universellen Fine-Grained-Bewertungsmodellen
  3. Theoretische Analyse: Tieferes Verständnis der theoretischen Grundlagen nicht-menschenähnlicher Reasoning-Pfade

Tiefgreifende Bewertung

Stärken

  1. Tiefe Problemeinblicke: Identifikation des Menschliche-Verzerrungsproblems bestehender Methoden mit neuartigem Lösungsansatz
  2. Geschickte Methodengestaltung: Kombination von Konfidenz-Signalen mit Präferenzoptimierung zur Realisierung unüberwachter Reasoning-Pfad-Optimierung
  3. Umfassende experimentelle Validierung: Multi-Modell-, Multi-Task-, Multi-Perspektiven-Experimente mit überzeugenden Ergebnissen
  4. Hoher praktischer Wert: Reduziert Abhängigkeit von starken Modell-Annotationen und verbessert gleichzeitig die Leistung

Mängel

  1. Unzureichende theoretische Grundlagen: Mangel an tieferer theoretischer Erklärung, warum nicht-menschenähnliche Reasoning-Pfade effektiver sind
  2. Begrenzte Anwendbarkeit: Hauptsächlich bei strukturierten Reasoning-Aufgaben validiert, Anwendbarkeit bei offenen Aufgaben unbekannt
  3. Zuverlässigkeit der Konfidenz: Modell-Konfidenz selbst kann unzuverlässig sein, besonders bei Out-of-Distribution-Daten
  4. Analyse des Rechenaufwands: Keine detaillierte Analyse der Rechenaufwands-Veränderungen im Vergleich zu Baseline-Methoden

Einfluss

  1. Akademischer Wert: Bietet neue Forschungsrichtung für Reasoning-Fähigkeits-Optimierung, kann weitere verwandte Arbeiten inspirieren
  2. Praktischer Wert: Reduziert Annotationskosten bei gleichzeitiger Leistungsverbesserung mit wichtigem Ingenieur-Anwendungswert
  3. Reproduzierbarkeit: Zusage zur Open-Source-Veröffentlichung von vollständigem Code und Daten fördert Methodenverbreitung und Verbesserung

Anwendungsszenarien

  1. Ressourcenbegrenzte Umgebungen: Reasoning-Fähigkeits-Verbesserung ohne Zugang zu starken Modell-Annotationen
  2. Strukturierte Reasoning-Aufgaben: Mathematik, Code, logisches Reasoning usw. mit klaren Bewertungsstandards
  3. Modell-Selbstverbesserung: Als technische Komponente für kontinuierliches Modell-Lernen und Selbstoptimierung

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen wie Reasoning-Optimierung, Präferenzlernen und Konfidenz-Schätzung und bietet damit eine solide theoretische Grundlage für die Methodengestaltung. Besonders hervorzuheben ist die vergleichende Analyse mit direkt verwandten Präferenzoptimierungs-Methoden wie Step-DPO und DPO.


Gesamtbewertung: Dies ist eine Arbeit mit wichtigen Beiträgen im Bereich der Reasoning-Fähigkeits-Optimierung großer Sprachmodelle. Durch die Einführung des Konzepts nicht-menschenähnlicher Reasoning-Pfade und einer auf Konfidenz basierenden Optimierungsstrategie bietet sie neue Forschungsrichtungen für dieses Feld. Obwohl es noch Verbesserungspotenzial bei theoretischen Erklärungen und Anwendungsbereichen gibt, machen ihr praktischer Wert und ihre Innovativität sie zu einem wichtigen Fortschritt in diesem Bereich.