Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic
Verbesserung des LLM-Reasoning durch Optimierung von Präferenzen für nicht-menschenähnliche Reasoning-Pfade
Aktuelle Methoden zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle führen häufig zu Trainingsverzerrungen durch menschliche Reasoning-Trajektorien. Insbesondere bei der schrittweisen Präferenzoptimierung begrenzt die Abhängigkeit von Annotationen menschlicher oder hochleistungsfähiger Modelle die Erforschung alternativer nicht-menschenähnlicher Reasoning-Pfade und beschränkt damit die erreichbare Leistung. Durch eine kleinmaßstäbliche Pilotstudie beobachteten die Autoren, dass in etwa 75% der Fälle der erste Fehler des Modells nach dem Punkt mit der niedrigsten Konfidenz auftritt. Dies deutet darauf hin, dass die Anleitung des Modells am Punkt mit der niedrigsten Konfidenz vor dem Fehler eine genauere Überwachung bietet als die Lokalisierung des ersten expliziten Fehlers. Das Paper stellt Confidence-Guided Reasoning Path Preference Optimization (CGPO) vor, eine Methode, die Konfidenz-Signale nutzt, um Punkte maximaler Unsicherheit im Reasoning-Prozess des Modells zu identifizieren und selbstgenerierte nicht-menschenähnliche Reasoning-Pfade anwendet, um Trajektoriendrift zu mildern.
Die Kernprobleme bei aktuellen Methoden zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle sind:
Menschliche Verzerrungsbegrenzung: Bestehende Methoden sind übermäßig abhängig von Reasoning-Trajektorien menschlicher oder starker Modelle und begrenzen die Erforschung nicht-menschenähnlicher Reasoning-Pfade
Ungenaue Fehlerlokalisation: Traditionelle Methoden überwachen durch Lokalisierung des ersten expliziten Fehlers, aber dies ist oft nicht der optimale Interventionspunkt
Hohe Annotationskosten: Die schrittweise Präferenzoptimierung erfordert umfangreiche manuelle oder starke Modell-Annotationen mit hohen praktischen Kosten
Die Autoren entdeckten durch Analyse, dass in etwa 75% der Fehlerfälle der erste Fehler des Modells nach seinem Punkt mit der niedrigsten Konfidenz auftritt. Diese Beobachtung inspirierte den Gedanken, Reasoning-Pfade basierend auf Modell-Konfidenz statt menschlicher Kognition zu optimieren.
Step-DPO und ähnliche Methoden: Abhängig von menschlichen oder starken Modell-Annotationen zur Fehlerlokalisation, hohe Kosten und begrenzte Explorationsräume
Traditionelles RLHF: Konzentriert sich hauptsächlich auf Ergebnis-Optimierung mit unzureichender Aufmerksamkeit für Zwischenschritte von Reasoning-Trajektorien
Menschliche Alignment-Verzerrung: Das Erzwingen von Modellen, menschliche Reasoning-Muster zu befolgen, kann deren Potenzial begrenzen
Vorstellung der CGPO-Methode: Eine Methode zur Optimierung von Reasoning-Pfad-Präferenzen basierend auf Konfidenz-Anleitung, ohne Abhängigkeit von stärkeren Modellen oder menschlicher Überwachung
Erforschung nicht-menschenähnlicher Reasoning-Pfade: Konstruktion von Präferenzlern-Daten durch Konfidenz-Signale des Modells selbst zur Erforschung nicht-menschenähnlicher Reasoning-Pfade
Multi-Domain-Validierung: Validierung der Methode bei mathematischem Reasoning und Code-Generierungsaufgaben zur Demonstration der Allgemeingültigkeit
Open-Source-Beitrag: Zusage zur Veröffentlichung vollständiger Code-Basis, Datensätze und trainierter Modelle zur Förderung der Reproduzierbarkeit
Gegeben ein Eingabeproblem x generiert das initiale Policy-Modell π₀ eine Reasoning-Sequenz y = (y₁, y₂, ..., yₜ), wobei yₜ ∈ V (Vokabular). Zum Dekodier-Zeitschritt t ist die Modell-Konfidenz definiert als:
Verwendung eines Konfidenz-Schwellwerts τ zur Aufteilung von Reasoning-Schritten, τ wird basierend auf der Verteilung aller Konfidenzwerte im Datensatz bestimmt
Token mit Konfidenz unter τ dienen als Trennpunkte, die Sequenz y wird in eine Schrittsequenz s = (s₁, s₂, ..., sⱼ) rekonstruiert
Konfidenz-gesteuerte Schrittaufteilung: Befreiung von vordefinierten Ankerpunkten, Aufteilung von Reasoning-Schritten basierend auf innerer Modell-Unsicherheit
Selbstüberwachte Präferenz-Konstruktion: Nutzung von Reward-Modellen zur Auswahl optimaler/schlechtester Token am unsichersten Punkt ohne menschliche Annotationen
Erforschung nicht-menschenähnlicher Reasoning: Ermöglichung der Modell-Erforschung von Reasoning-Pfaden, die nicht menschlichen kognitiven Gewohnheiten entsprechen, aber möglicherweise effektiver sind
Das Paper zitiert wichtige Arbeiten aus verwandten Bereichen wie Reasoning-Optimierung, Präferenzlernen und Konfidenz-Schätzung und bietet damit eine solide theoretische Grundlage für die Methodengestaltung. Besonders hervorzuheben ist die vergleichende Analyse mit direkt verwandten Präferenzoptimierungs-Methoden wie Step-DPO und DPO.
Gesamtbewertung: Dies ist eine Arbeit mit wichtigen Beiträgen im Bereich der Reasoning-Fähigkeits-Optimierung großer Sprachmodelle. Durch die Einführung des Konzepts nicht-menschenähnlicher Reasoning-Pfade und einer auf Konfidenz basierenden Optimierungsstrategie bietet sie neue Forschungsrichtungen für dieses Feld. Obwohl es noch Verbesserungspotenzial bei theoretischen Erklärungen und Anwendungsbereichen gibt, machen ihr praktischer Wert und ihre Innovativität sie zu einem wichtigen Fortschritt in diesem Bereich.