2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.

Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.

academic

Amélioration du Raisonnement des LLM via l'Optimisation des Préférences de Chemins de Raisonnement Non-Humains

Informations Fondamentales

ID de l'article : 2510.11104
Titre : Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
Auteurs : Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
Classification : cs.CL cs.AI
Date de publication : 13 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.11104

Résumé

Les méthodes actuelles d'amélioration des capacités de raisonnement des grands modèles de langage introduisent souvent des biais d'entraînement liés aux trajectoires de raisonnement humain. En particulier, dans l'optimisation des préférences par étapes, la dépendance aux annotations des étapes intermédiaires par des humains ou des modèles hautement performants limite l'exploration des chemins de raisonnement alternatifs non-humains, ce qui restreint les performances réalisables. Par le biais d'une étude pilote à petite échelle, les auteurs ont observé que dans environ 75 % des cas, la première étape erronée du modèle survient après le point de confiance minimale. Cela suggère que guider le modèle au point de confiance minimale avant l'erreur fournit une supervision plus précise que la localisation de la première erreur explicite. Cet article propose l'optimisation des préférences de chemins de raisonnement guidée par la confiance (CGPO), une méthode qui exploite les signaux de confiance pour identifier les points d'incertitude maximale dans le processus de raisonnement du modèle et applique des chemins de raisonnement non-humains auto-générés pour atténuer la dérive de trajectoire.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental auquel font face les méthodes actuelles d'amélioration des capacités de raisonnement des grands modèles de langage est :

Limitation du biais humain : Les méthodes existantes dépendent excessivement des trajectoires de raisonnement humaines ou de modèles puissants, limitant l'exploration des chemins de raisonnement non-humains
Localisation inexacte des erreurs : Les méthodes traditionnelles supervisent en localisant la première erreur explicite, mais ce n'est souvent pas le point d'intervention optimal
Coût d'annotation élevé : L'optimisation des préférences par étapes nécessite d'importantes annotations humaines ou de modèles puissants, avec un coût d'application pratique très élevé

Motivation de la Recherche

Les auteurs ont découvert par analyse que dans environ 75 % des cas d'erreur, la première étape erronée du modèle survient après son point de confiance minimale. Cette observation a inspiré l'idée d'optimiser les chemins de raisonnement basée sur la confiance du modèle plutôt que sur la cognition humaine.

Limitations des Méthodes Existantes

Méthodes comme Step-DPO : Dépendent des annotations humaines ou de modèles puissants pour localiser les étapes erronées, avec un coût élevé et un espace d'exploration limité
RLHF traditionnel : Se concentre principalement sur l'optimisation des résultats, avec une attention insuffisante aux étapes intermédiaires des trajectoires de raisonnement
Biais d'alignement humain : Forcer le modèle à suivre les modèles de raisonnement humain peut limiter ses capacités potentielles

Contributions Principales

Proposition de la méthode CGPO : Une méthode d'optimisation des préférences de chemins de raisonnement guidée par la confiance, sans dépendre de modèles plus puissants ou de supervision humaine
Exploration de chemins de raisonnement non-humains : Construction de données d'apprentissage des préférences par les signaux de confiance du modèle lui-même, explorant les chemins de raisonnement non-humains
Validation multi-domaines : Vérification de l'efficacité de la méthode sur les tâches de raisonnement mathématique et de génération de code, démontrant l'universalité de la méthode
Contribution open-source : Engagement de publier la base de code complète, les ensembles de données et les modèles entraînés, favorisant la reproductibilité

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un problème d'entrée x, le modèle de politique initial π₀ génère une séquence de raisonnement y = (y₁, y₂, ..., yₜ), où yₜ ∈ V (vocabulaire). Au pas de décodage t, la confiance du modèle est définie comme :

cₜ ≜ p(yₜ|π₀, x, y<t)

Architecture du Modèle

1. Définition des Étapes de Raisonnement

Utilisation d'un seuil de confiance τ pour segmenter les étapes de raisonnement, τ étant déterminé en fonction de la distribution de toutes les valeurs de confiance dans l'ensemble de données
Les tokens avec une confiance inférieure à τ servent de points de segmentation, reconstruisant la séquence y en séquence d'étapes s = (s₁, s₂, ..., sⱼ)

2. Processus de Construction des Paires de Préférences

Détermination de la Trajectoire Initiale :

Sélection de la séquence avant l'étape la plus incertaine comme trajectoire de raisonnement initial partagée sᵢₙᵢₜ

Construction des Paires Chosen/Rejected :

Introduction d'un modèle de récompense R pour évaluer les tokens candidats Top-k étant donné (x, sᵢₙᵢₜ)
Sélection des tokens avec les scores les plus élevés et les plus bas respectivement comme tokens de départ des branches chosen et rejected
π₀ continue l'échantillonnage jusqu'à rencontrer ou un token avec une confiance inférieure à τ

3. Objectif d'Entraînement

Adoption d'une fonction objectif de style DPO :

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

où :

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Points d'Innovation Technique

Segmentation des étapes guidée par la confiance : Libération des points d'ancrage prédéfinis, segmentation des étapes de raisonnement basée sur l'incertitude intrinsèque du modèle
Construction des préférences auto-supervisées : Utilisation d'un modèle de récompense pour sélectionner les tokens optimaux/pessimaux au point d'incertitude maximale, sans annotation humaine
Exploration de raisonnement non-humain : Permettre au modèle d'explorer des chemins de raisonnement qui ne correspondent pas aux habitudes cognitives humaines mais qui peuvent être plus efficaces

Configuration Expérimentale

Ensembles de Données

Tâches de Raisonnement Mathématique :

Données d'entraînement : 10 795 invites de l'ensemble de données Step-DPO-10k
Ensembles de données d'évaluation : GSM8K, MATH, Omni-Math
Modèles : MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT, etc.

Tâches de Génération de Code :

Données d'entraînement : 2 641 échantillons de l'ensemble d'entraînement LeetCodeDataset
Ensembles de données d'évaluation : LiveCodeBench, LeetCodeDataset
Modèle : Deepseek-Coder-7B-Instruct-v1.5

Métriques d'Évaluation

Raisonnement mathématique : Précision de correspondance exacte (la réponse finale correspond exactement à la réponse standard)
Génération de code : Taux de réussite (le code généré passe tous les cas de test dans l'environnement sandbox)

Méthodes de Comparaison

Modèle de Base : Modèle de base original
Step-DPO : Méthode d'optimisation des préférences par étapes basée sur les annotations humaines

Détails d'Implémentation

Seuil de confiance : 2e percentile de la distribution de confiance de l'ensemble de données
Candidats Top-k : k=8
Configuration d'entraînement : β=0,3-0,4, taux d'apprentissage 5e-7, taille de lot 128, entraînement 4-8 epochs

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches de Raisonnement Mathématique :

GSM8K : CGPO surpasse Step-DPO sur tous les modèles, avec l'amélioration la plus significative sur MetaMath-Llama-8B (+4,3 % vs base)
MATH : Surpasse Step-DPO sur MetaMath-Llama-8B et Qwen2-7B-SFT
Découverte clé : Même lorsque Step-DPO montre une baisse de performance (par exemple, MetaMath-Mistral-7B), CGPO apporte toujours une amélioration

Performance sur les Tâches de Génération de Code :

LiveCodeBench : Amélioration de 2,1 % (19,3 % → 19,7 %)
LeetCodeDataset : Amélioration de 4,0 % (12,7 % → 13,2 %)

Expériences d'Ablation

1. Analyse de Scalabilité

Vérification de la scalabilité de la méthode en augmentant la taille des données d'entraînement (10k → 80k) :

MetaMath-Llama-8B amélioration de 85,3 % à 86,4 % sur GSM8K
Qwen2-7B-SFT amélioration de 88,6 % à 89,5 % sur GSM8K
Indique que CGPO possède une bonne scalabilité des données

2. Impact du Modèle de Récompense

Comparaison de deux modèles de récompense : ASPRM et Math-Shepherd :

ASPRM montre une meilleure performance, mais même avec le Math-Shepherd plus faible, il y a amélioration
Démontre l'importance de l'évaluation fine-grained au niveau des tokens

3. Analyse du Seuil de Confiance

L'augmentation du seuil apporte généralement une amélioration de performance, mais un seuil trop élevé entraîne des séquences trop courtes
Le seuil optimal diffère selon les modèles, nécessitant un ajustement ciblé

Vérification de la Capacité de Généralisation

Performance sur Omni-Math (problèmes de compétitions mathématiques olympiques) :

CGPO surpasse Step-DPO sur 4/5 modèles
Démontre une bonne capacité de généralisation hors-distribution de la méthode

Analyse de Cas

Vérification de l'hypothèse fondamentale par analyse de 200 échantillons d'erreurs :

MetaMath-Llama-8B : 78 % des erreurs surviennent après le point de confiance minimale
Qwen2-7B-SFT : 72 % des erreurs surviennent après le point de confiance minimale
Soutient la conception d'intervention précoce basée sur la confiance

Travaux Connexes

Méthodes d'Optimisation des Préférences

PPO : Complexité élevée mais résultats stables
DPO/SimPO : Optimisation directe des signaux de préférence appariés, surcharge de calcul plus faible
Contribution de cet article : Extension de l'optimisation des préférences aux étapes intermédiaires des chemins de raisonnement

Méthodes Sensibles à la Confiance

Méthode de Probabilité Directe : Utilisation de la probabilité du token prédit (adoptée dans cet article)
Méthode de Cohérence de Génération : Mesure de la confiance par la cohérence des réponses
Innovation de cet article : Utilisation de la confiance pour la segmentation des étapes et l'optimisation des chemins de raisonnement

Optimisation des Trajectoires de Raisonnement

Ajustement Fin Supervisé : Alignement direct aux séquences annotées
RLHF : Optimisation vers les trajectoires avec des scores plus élevés
Avantage de cet article : Pas besoin d'annotations de modèles puissants, exploration des chemins de raisonnement non-humains

Conclusion et Discussion

Conclusions Principales

Valeur des chemins de raisonnement non-humains : Les modèles peuvent obtenir de meilleures performances en explorant des chemins de raisonnement non-humains
Efficacité des signaux de confiance : La confiance du modèle est un indicateur efficace pour identifier les points de difficulté du raisonnement
Potentiel de l'apprentissage auto-supervisé : Amélioration efficace des capacités de raisonnement sans annotation de modèles puissants ou humains

Limitations

Limitation des Ressources de Calcul : Impossibilité de vérifier la scalabilité sur des modèles plus grands (par exemple, 70B)
Limitation du Domaine : Vérification principalement dans les domaines mathématiques et du code, l'applicabilité dans d'autres domaines comme le raisonnement de sens commun reste à vérifier
Dépendance au Modèle de Récompense : Nécessite toujours un modèle d'évaluation fine-grained spécifique au domaine

Directions Futures

Vérification à Plus Grande Échelle : Vérification de l'efficacité de la méthode sur des modèles plus grands et dans plus de domaines
Modèle de Récompense Universel : Développement d'un modèle d'évaluation fine-grained universel inter-domaines
Analyse Théorique : Compréhension approfondie des fondements théoriques de l'efficacité des chemins de raisonnement non-humains

Évaluation Approfondie

Points Forts

Intuition Profonde du Problème : Identification du problème de biais humain dans les méthodes existantes, proposition d'une approche novatrice pour le résoudre
Conception Ingénieuse de la Méthode : Combinaison des signaux de confiance avec l'optimisation des préférences, réalisant l'optimisation des chemins de raisonnement non-supervisée
Vérification Expérimentale Complète : Expériences multi-modèles, multi-tâches et multi-angles, résultats très convaincants
Valeur Pratique Élevée : Réduction de la dépendance aux annotations de modèles puissants, amélioration de l'applicabilité pratique de la méthode

Insuffisances

Fondements Théoriques Insuffisants : Manque d'explication théorique profonde sur pourquoi les chemins de raisonnement non-humains sont plus efficaces
Portée d'Application Limitée : Vérification principalement sur les tâches de raisonnement structuré, l'applicabilité sur les tâches ouvertes reste inconnue
Fiabilité de la Confiance : La confiance du modèle elle-même peut ne pas être suffisamment fiable, particulièrement sur les données hors-distribution
Analyse des Surcharges de Calcul : Pas d'analyse détaillée des changements de surcharge de calcul par rapport aux méthodes baseline

Impact

Valeur Académique : Fournit une nouvelle direction de recherche pour l'optimisation des capacités de raisonnement, susceptible d'inspirer plus de travaux connexes
Valeur Pratique : Amélioration des performances tout en réduisant les coûts d'annotation, possédant une importante valeur d'application en ingénierie
Reproductibilité : Engagement de publier le code complet et les données, favorable à la promotion et l'amélioration de la méthode

Scénarios d'Application

Environnements aux Ressources Limitées : Amélioration des capacités de raisonnement lorsqu'on ne peut pas obtenir d'annotations de modèles puissants
Tâches de Raisonnement Structuré : Mathématiques, code, raisonnement logique et autres tâches avec des critères d'évaluation explicites
Auto-Amélioration des Modèles : Composant technologique pour l'apprentissage continu et l'auto-optimisation des modèles

Références Bibliographiques

L'article cite les travaux importants dans les domaines connexes de l'optimisation du raisonnement, de l'apprentissage des préférences et de l'estimation de la confiance, fournissant une base théorique solide pour la conception de la méthode. Particulièrement dignes d'attention sont les analyses comparatives avec les méthodes d'optimisation des préférences directement connexes comme Step-DPO et DPO.

Évaluation Globale : Ceci est un travail possédant une contribution importante dans le domaine de l'optimisation des capacités de raisonnement des grands modèles de langage. En introduisant le concept de chemins de raisonnement non-humains et une stratégie d'optimisation basée sur la confiance, il fournit une nouvelle direction de recherche pour ce domaine. Bien qu'il y ait encore de la place pour l'amélioration dans l'explication théorique et la portée d'application, sa valeur pratique et son caractère innovant en font un progrès important dans ce domaine.