2025-11-19T10:19:14.428770

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization

Lu, Liu, Qu et al.
Current approaches for strengthening LLM reasoning tend to introduce a training bias toward human-like reasoning trajectories. In step-wise preference optimization, in particular, dependence on human or higher-capacity model annotations for intermediate steps limits exploration of alternative, non-human-like reasoning paths and thus constrains achievable performance. Furthermore, through a small-scale pilot study, we observed that in approximately 75% of cases, the model's first erroneous step occurs after the lowest-confidence point. This suggests that guiding the model at its lowest-confidence point before an error provides more accurate supervision than locating the first explicit error. In this paper, we propose Confidence-Guided Reasoning Path Preference Optimization (CGPO), a method that leverages a confidence signal to identify points of maximal uncertainty in the model's reasoning process and applies self-generated, non-human-like reasoning-path guidance to mitigate trajectory drift. Our experiments span diverse models applied to both code and mathematical reasoning tasks. The results show that, with the same amount of training data, our method using data generated by a small model can achieve better performance in most cases compared with approaches using data generated by a strong model or human-annotated.
academic

Amélioration du Raisonnement des LLM via l'Optimisation des Préférences de Chemins de Raisonnement Non-Humains

Informations Fondamentales

  • ID de l'article : 2510.11104
  • Titre : Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization
  • Auteurs : Junjie Lu, Yuliang Liu, Chaofeng Qu, Wei Shen, Zhouhan Lin, Min Xu
  • Classification : cs.CL cs.AI
  • Date de publication : 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article : https://arxiv.org/abs/2510.11104

Résumé

Les méthodes actuelles d'amélioration des capacités de raisonnement des grands modèles de langage introduisent souvent des biais d'entraînement liés aux trajectoires de raisonnement humain. En particulier, dans l'optimisation des préférences par étapes, la dépendance aux annotations des étapes intermédiaires par des humains ou des modèles hautement performants limite l'exploration des chemins de raisonnement alternatifs non-humains, ce qui restreint les performances réalisables. Par le biais d'une étude pilote à petite échelle, les auteurs ont observé que dans environ 75 % des cas, la première étape erronée du modèle survient après le point de confiance minimale. Cela suggère que guider le modèle au point de confiance minimale avant l'erreur fournit une supervision plus précise que la localisation de la première erreur explicite. Cet article propose l'optimisation des préférences de chemins de raisonnement guidée par la confiance (CGPO), une méthode qui exploite les signaux de confiance pour identifier les points d'incertitude maximale dans le processus de raisonnement du modèle et applique des chemins de raisonnement non-humains auto-générés pour atténuer la dérive de trajectoire.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental auquel font face les méthodes actuelles d'amélioration des capacités de raisonnement des grands modèles de langage est :

  1. Limitation du biais humain : Les méthodes existantes dépendent excessivement des trajectoires de raisonnement humaines ou de modèles puissants, limitant l'exploration des chemins de raisonnement non-humains
  2. Localisation inexacte des erreurs : Les méthodes traditionnelles supervisent en localisant la première erreur explicite, mais ce n'est souvent pas le point d'intervention optimal
  3. Coût d'annotation élevé : L'optimisation des préférences par étapes nécessite d'importantes annotations humaines ou de modèles puissants, avec un coût d'application pratique très élevé

Motivation de la Recherche

Les auteurs ont découvert par analyse que dans environ 75 % des cas d'erreur, la première étape erronée du modèle survient après son point de confiance minimale. Cette observation a inspiré l'idée d'optimiser les chemins de raisonnement basée sur la confiance du modèle plutôt que sur la cognition humaine.

Limitations des Méthodes Existantes

  1. Méthodes comme Step-DPO : Dépendent des annotations humaines ou de modèles puissants pour localiser les étapes erronées, avec un coût élevé et un espace d'exploration limité
  2. RLHF traditionnel : Se concentre principalement sur l'optimisation des résultats, avec une attention insuffisante aux étapes intermédiaires des trajectoires de raisonnement
  3. Biais d'alignement humain : Forcer le modèle à suivre les modèles de raisonnement humain peut limiter ses capacités potentielles

Contributions Principales

  1. Proposition de la méthode CGPO : Une méthode d'optimisation des préférences de chemins de raisonnement guidée par la confiance, sans dépendre de modèles plus puissants ou de supervision humaine
  2. Exploration de chemins de raisonnement non-humains : Construction de données d'apprentissage des préférences par les signaux de confiance du modèle lui-même, explorant les chemins de raisonnement non-humains
  3. Validation multi-domaines : Vérification de l'efficacité de la méthode sur les tâches de raisonnement mathématique et de génération de code, démontrant l'universalité de la méthode
  4. Contribution open-source : Engagement de publier la base de code complète, les ensembles de données et les modèles entraînés, favorisant la reproductibilité

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un problème d'entrée x, le modèle de politique initial π₀ génère une séquence de raisonnement y = (y₁, y₂, ..., yₜ), où yₜ ∈ V (vocabulaire). Au pas de décodage t, la confiance du modèle est définie comme :

cₜ ≜ p(yₜ|π₀, x, y<t)

Architecture du Modèle

1. Définition des Étapes de Raisonnement

  • Utilisation d'un seuil de confiance τ pour segmenter les étapes de raisonnement, τ étant déterminé en fonction de la distribution de toutes les valeurs de confiance dans l'ensemble de données
  • Les tokens avec une confiance inférieure à τ servent de points de segmentation, reconstruisant la séquence y en séquence d'étapes s = (s₁, s₂, ..., sⱼ)

2. Processus de Construction des Paires de Préférences

Détermination de la Trajectoire Initiale :

  • Sélection de la séquence avant l'étape la plus incertaine comme trajectoire de raisonnement initial partagée sᵢₙᵢₜ

Construction des Paires Chosen/Rejected :

  • Introduction d'un modèle de récompense R pour évaluer les tokens candidats Top-k étant donné (x, sᵢₙᵢₜ)
  • Sélection des tokens avec les scores les plus élevés et les plus bas respectivement comme tokens de départ des branches chosen et rejected
  • π₀ continue l'échantillonnage jusqu'à rencontrer ou un token avec une confiance inférieure à τ

3. Objectif d'Entraînement

Adoption d'une fonction objectif de style DPO :

L_CGPO(θ) = -E_{(s_init,s+,s-)~D}[log σ(β(Δ))]

où :

Δ = Δ_θ - Δ_ref
Δ_θ ≜ log π_θ(s+ | s_init) - log π_θ(s- | s_init)
Δ_ref ≜ log π_ref(s+ | s_init) - log π_ref(s- | s_init)

Points d'Innovation Technique

  1. Segmentation des étapes guidée par la confiance : Libération des points d'ancrage prédéfinis, segmentation des étapes de raisonnement basée sur l'incertitude intrinsèque du modèle
  2. Construction des préférences auto-supervisées : Utilisation d'un modèle de récompense pour sélectionner les tokens optimaux/pessimaux au point d'incertitude maximale, sans annotation humaine
  3. Exploration de raisonnement non-humain : Permettre au modèle d'explorer des chemins de raisonnement qui ne correspondent pas aux habitudes cognitives humaines mais qui peuvent être plus efficaces

Configuration Expérimentale

Ensembles de Données

Tâches de Raisonnement Mathématique :

  • Données d'entraînement : 10 795 invites de l'ensemble de données Step-DPO-10k
  • Ensembles de données d'évaluation : GSM8K, MATH, Omni-Math
  • Modèles : MetaMath-Mistral-7B, MetaMath-LLaMA-8B, Qwen2-7B-SFT, etc.

Tâches de Génération de Code :

  • Données d'entraînement : 2 641 échantillons de l'ensemble d'entraînement LeetCodeDataset
  • Ensembles de données d'évaluation : LiveCodeBench, LeetCodeDataset
  • Modèle : Deepseek-Coder-7B-Instruct-v1.5

Métriques d'Évaluation

  • Raisonnement mathématique : Précision de correspondance exacte (la réponse finale correspond exactement à la réponse standard)
  • Génération de code : Taux de réussite (le code généré passe tous les cas de test dans l'environnement sandbox)

Méthodes de Comparaison

  • Modèle de Base : Modèle de base original
  • Step-DPO : Méthode d'optimisation des préférences par étapes basée sur les annotations humaines

Détails d'Implémentation

  • Seuil de confiance : 2e percentile de la distribution de confiance de l'ensemble de données
  • Candidats Top-k : k=8
  • Configuration d'entraînement : β=0,3-0,4, taux d'apprentissage 5e-7, taille de lot 128, entraînement 4-8 epochs

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches de Raisonnement Mathématique :

  • GSM8K : CGPO surpasse Step-DPO sur tous les modèles, avec l'amélioration la plus significative sur MetaMath-Llama-8B (+4,3 % vs base)
  • MATH : Surpasse Step-DPO sur MetaMath-Llama-8B et Qwen2-7B-SFT
  • Découverte clé : Même lorsque Step-DPO montre une baisse de performance (par exemple, MetaMath-Mistral-7B), CGPO apporte toujours une amélioration

Performance sur les Tâches de Génération de Code :

  • LiveCodeBench : Amélioration de 2,1 % (19,3 % → 19,7 %)
  • LeetCodeDataset : Amélioration de 4,0 % (12,7 % → 13,2 %)

Expériences d'Ablation

1. Analyse de Scalabilité

Vérification de la scalabilité de la méthode en augmentant la taille des données d'entraînement (10k → 80k) :

  • MetaMath-Llama-8B amélioration de 85,3 % à 86,4 % sur GSM8K
  • Qwen2-7B-SFT amélioration de 88,6 % à 89,5 % sur GSM8K
  • Indique que CGPO possède une bonne scalabilité des données

2. Impact du Modèle de Récompense

Comparaison de deux modèles de récompense : ASPRM et Math-Shepherd :

  • ASPRM montre une meilleure performance, mais même avec le Math-Shepherd plus faible, il y a amélioration
  • Démontre l'importance de l'évaluation fine-grained au niveau des tokens

3. Analyse du Seuil de Confiance

  • L'augmentation du seuil apporte généralement une amélioration de performance, mais un seuil trop élevé entraîne des séquences trop courtes
  • Le seuil optimal diffère selon les modèles, nécessitant un ajustement ciblé

Vérification de la Capacité de Généralisation

Performance sur Omni-Math (problèmes de compétitions mathématiques olympiques) :

  • CGPO surpasse Step-DPO sur 4/5 modèles
  • Démontre une bonne capacité de généralisation hors-distribution de la méthode

Analyse de Cas

Vérification de l'hypothèse fondamentale par analyse de 200 échantillons d'erreurs :

  • MetaMath-Llama-8B : 78 % des erreurs surviennent après le point de confiance minimale
  • Qwen2-7B-SFT : 72 % des erreurs surviennent après le point de confiance minimale
  • Soutient la conception d'intervention précoce basée sur la confiance

Travaux Connexes

Méthodes d'Optimisation des Préférences

  • PPO : Complexité élevée mais résultats stables
  • DPO/SimPO : Optimisation directe des signaux de préférence appariés, surcharge de calcul plus faible
  • Contribution de cet article : Extension de l'optimisation des préférences aux étapes intermédiaires des chemins de raisonnement

Méthodes Sensibles à la Confiance

  • Méthode de Probabilité Directe : Utilisation de la probabilité du token prédit (adoptée dans cet article)
  • Méthode de Cohérence de Génération : Mesure de la confiance par la cohérence des réponses
  • Innovation de cet article : Utilisation de la confiance pour la segmentation des étapes et l'optimisation des chemins de raisonnement

Optimisation des Trajectoires de Raisonnement

  • Ajustement Fin Supervisé : Alignement direct aux séquences annotées
  • RLHF : Optimisation vers les trajectoires avec des scores plus élevés
  • Avantage de cet article : Pas besoin d'annotations de modèles puissants, exploration des chemins de raisonnement non-humains

Conclusion et Discussion

Conclusions Principales

  1. Valeur des chemins de raisonnement non-humains : Les modèles peuvent obtenir de meilleures performances en explorant des chemins de raisonnement non-humains
  2. Efficacité des signaux de confiance : La confiance du modèle est un indicateur efficace pour identifier les points de difficulté du raisonnement
  3. Potentiel de l'apprentissage auto-supervisé : Amélioration efficace des capacités de raisonnement sans annotation de modèles puissants ou humains

Limitations

  1. Limitation des Ressources de Calcul : Impossibilité de vérifier la scalabilité sur des modèles plus grands (par exemple, 70B)
  2. Limitation du Domaine : Vérification principalement dans les domaines mathématiques et du code, l'applicabilité dans d'autres domaines comme le raisonnement de sens commun reste à vérifier
  3. Dépendance au Modèle de Récompense : Nécessite toujours un modèle d'évaluation fine-grained spécifique au domaine

Directions Futures

  1. Vérification à Plus Grande Échelle : Vérification de l'efficacité de la méthode sur des modèles plus grands et dans plus de domaines
  2. Modèle de Récompense Universel : Développement d'un modèle d'évaluation fine-grained universel inter-domaines
  3. Analyse Théorique : Compréhension approfondie des fondements théoriques de l'efficacité des chemins de raisonnement non-humains

Évaluation Approfondie

Points Forts

  1. Intuition Profonde du Problème : Identification du problème de biais humain dans les méthodes existantes, proposition d'une approche novatrice pour le résoudre
  2. Conception Ingénieuse de la Méthode : Combinaison des signaux de confiance avec l'optimisation des préférences, réalisant l'optimisation des chemins de raisonnement non-supervisée
  3. Vérification Expérimentale Complète : Expériences multi-modèles, multi-tâches et multi-angles, résultats très convaincants
  4. Valeur Pratique Élevée : Réduction de la dépendance aux annotations de modèles puissants, amélioration de l'applicabilité pratique de la méthode

Insuffisances

  1. Fondements Théoriques Insuffisants : Manque d'explication théorique profonde sur pourquoi les chemins de raisonnement non-humains sont plus efficaces
  2. Portée d'Application Limitée : Vérification principalement sur les tâches de raisonnement structuré, l'applicabilité sur les tâches ouvertes reste inconnue
  3. Fiabilité de la Confiance : La confiance du modèle elle-même peut ne pas être suffisamment fiable, particulièrement sur les données hors-distribution
  4. Analyse des Surcharges de Calcul : Pas d'analyse détaillée des changements de surcharge de calcul par rapport aux méthodes baseline

Impact

  1. Valeur Académique : Fournit une nouvelle direction de recherche pour l'optimisation des capacités de raisonnement, susceptible d'inspirer plus de travaux connexes
  2. Valeur Pratique : Amélioration des performances tout en réduisant les coûts d'annotation, possédant une importante valeur d'application en ingénierie
  3. Reproductibilité : Engagement de publier le code complet et les données, favorable à la promotion et l'amélioration de la méthode

Scénarios d'Application

  1. Environnements aux Ressources Limitées : Amélioration des capacités de raisonnement lorsqu'on ne peut pas obtenir d'annotations de modèles puissants
  2. Tâches de Raisonnement Structuré : Mathématiques, code, raisonnement logique et autres tâches avec des critères d'évaluation explicites
  3. Auto-Amélioration des Modèles : Composant technologique pour l'apprentissage continu et l'auto-optimisation des modèles

Références Bibliographiques

L'article cite les travaux importants dans les domaines connexes de l'optimisation du raisonnement, de l'apprentissage des préférences et de l'estimation de la confiance, fournissant une base théorique solide pour la conception de la méthode. Particulièrement dignes d'attention sont les analyses comparatives avec les méthodes d'optimisation des préférences directement connexes comme Step-DPO et DPO.


Évaluation Globale : Ceci est un travail possédant une contribution importante dans le domaine de l'optimisation des capacités de raisonnement des grands modèles de langage. En introduisant le concept de chemins de raisonnement non-humains et une stratégie d'optimisation basée sur la confiance, il fournit une nouvelle direction de recherche pour ce domaine. Bien qu'il y ait encore de la place pour l'amélioration dans l'explication théorique et la portée d'application, sa valeur pratique et son caractère innovant en font un progrès important dans ce domaine.